Wednesday, June 24, 2026

Niềm An Lạc

https://www.youtube.com/watch?v=lBaj8xQtPrY Niềm An Lạc - HT Thông Tạng - 16.08.24

Tuesday, June 23, 2026

Buông

Kiếp người nặng gánh phong trần Lang thang vô định xác thân ở đời Long đong trôi nổi khắp nơi Đâu là cõi tịnh thảnh thơi niệm thiền. Thân bằng quyến thuộc là duyên Sắc không còn mất, chẳng liên lụy mình Đàn ca múa máy linh tinh Khóc cười thế thái nhân tình chán chê Hạ màn hết đóng tuồng hề Quay vào, ta lại trở về chính ta Tròn đầy bản thể tịch minh Xưa nay vẫn thế mà loay hoay tìm. Tìm chi nữa, chỉ ở đây Thỏng tay "buông" hết những dây ưu phiền Cuối đời quẳng gánh nhẹ tênh Một trong tất cả, thênh thang vô bờ. June 23, 2026 (Updated June 24)

Sunday, June 21, 2026

Tṛnh Công Sơn

https://www.tcs-home.org/english/songs-en/songs/your-passionate-fingers

The Obama Presidential Center Grand Opening Ceremony

https://www.youtube.com/watch?v=MAnuAGLMJog President Obama's Full Remarks at the Obama Presidential Center Grand Opening Ceremony https://www.youtube.com/watch?v=Ecquq6pFOBQ LIVE: Obama Presidential Center grand opening

Friday, June 19, 2026

Kinh Tế Việt Nam

https://www.youtube.com/watch?v=4b_TOkCCBg0 2026: KINH TẾ VIỆT - THÁI ĐỔI NGÔI? CÓ BỀN VỮNG HAY KHÔNG?

The Iran War

https://www.bbc.com/vietnamese/articles/c8x2gdkrqzvo Iran và Mỹ được gì từ thỏa thuận và vì sao hai bên khó giữ cam kết? Amir Azimi June 19, 2026 Hơn 100 ngày sau khi bom đạn của Mỹ và Israel bắt đầu trút xuống Iran, cả hai bên đều tuyên bố chiến thắng – một dấu hiệu cho thấy họ đều rất cần một lối thoát. Thỏa thuận đã chính thức chấm dứt giao tranh, nhưng những cuộc đàm phán khó khăn hơn mới chỉ bắt đầu. Trước công chúng trong nước, cả hai chính quyền đều quảng bá rằng thỏa thuận này là một thắng lợi. Tuy nhiên, như những nhà phân tích mà BBC News phỏng vấn nhận định, chưa bên nào thực sự thuyết phục được dư luận, và các tiếng nói chỉ trích trong nước ở cả hai bên đều cho rằng đã có quá nhiều nhượng bộ. Đối với Iran, thỏa thuận với Mỹ mang lại một điều quan trọng không kém lệnh ngừng bắn: cơ hội khẳng định rằng họ không chỉ sống sót qua cuộc chiến mà không đầu hàng, mà còn trở nên mạnh hơn sau khi bước ra khỏi cuộc xung đột. Ngay từ đầu, mục tiêu cốt lõi của Tehran không nhất thiết là đánh bại Mỹ và Israel về mặt quân sự. Điều họ muốn là bảo toàn nền Cộng hòa Hồi giáo, duy trì bộ máy lãnh đạo và tránh để vị thế đàm phán của mình bị đánh sụm hoàn toàn. Biên bản Ghi nhớ (MoU) – cách mà thỏa thuận này được đề cập tới – cho phép Iran tuyên bố rằng họ đã đạt được mục tiêu đó. Văn kiện, do Tổng thống Mỹ Donald Trump và Tổng thống Iran Masoud Pezeshkian ký riêng, thiết lập khuôn khổ đàm phán kéo dài 60 ngày về chương trình hạt nhân Iran. Đồng thời, văn kiện này xác nhận việc lập tức chấm dứt các hoạt động quân sự trên mọi mặt trận, bao gồm cả Lebanon, cam kết tôn trọng chủ quyền lẫn nhau, mở lại Eo biển Hormuz và Mỹ dỡ bỏ phong tỏa hải quân đối với hoạt động vận tải biển của Iran. Những nghĩa vụ trước mắt của Iran tương đối lớn nhưng cũng khá hạn chế. Tehran đồng ý hỗ trợ bảo đảm an toàn cho hoạt động hàng hải thương mại qua Eo biển Hormuz – vốn là điều bình thường trước chiến tranh; tái khẳng định sẽ không theo đuổi vũ khí hạt nhân; và tham gia đàm phán về tương lai của kho uranium làm giàu ở mức cao cùng chương trình làm giàu uranium. Các cam kết của Mỹ có vẻ rộng hơn. Theo MoU, Washington sẽ bắt đầu dỡ bỏ phong tỏa hải quân, cấp miễn trừ cho hoạt động xuất khẩu dầu mỏ của Iran, cho phép tiếp cận những tài sản đã bị phong tỏa hoặc hạn chế, từng bước nới lỏng trừng phạt, đồng thời phối hợp với các đối tác khu vực nhằm triển khai kế hoạch tái thiết và phát triển kinh tế cho Iran trị giá ít nhất 300 tỷ USD. Điều đó phần nào giải thích vì sao phản ứng chỉ trích từ phía Iran cho đến nay vẫn tương đối dè dặt. MoU đem lại cho giới lãnh đạo đủ cơ sở để trình bày thỏa thuận như một chiến thắng: chủ quyền của Iran được công nhận, phong tỏa dự kiến được dỡ bỏ, triển vọng giảm nhẹ trừng phạt đã xuất hiện và nguồn vốn tái thiết cũng được nêu rõ. Tuy nhiên, sự im lặng đó khó có thể kéo dài. Ngay cả phản ứng đầu tiên của lãnh tụ tối cao Iran Mojtaba Khamenei cũng được tính toán cẩn thận. Ông cho phép thỏa thuận được triển khai nhưng nhấn mạnh rằng nó được chấp thuận trên cơ sở trách nhiệm của Hội đồng An ninh Quốc gia Tối cao Iran. Những vấn đề khó khăn nhất đã được trì hoãn chứ chưa được giải quyết. Tương lai của lượng uranium đã làm giàu ở mức cao, quy mô ngành công nghiệp làm giàu uranium và việc khôi phục các cơ sở hạt nhân bị hư hại sẽ tiếp tục được đàm phán dưới áp lực rất lớn. Điều này tạo ra một vấn đề cho giới lãnh đạo Tehran. Truyền thông nhà nước, lực lượng Vệ binh Cách mạng, Quốc hội và các nhân vật cứng rắn đã dành nhiều tuần để tuyên bố với những người ủng hộ rằng Iran đã đánh bại Mỹ và Israel. Kỳ vọng đang rất cao. Bất kỳ thỏa hiệp nào liên quan đến uranium làm giàu hoặc cơ sở hạt nhân đều có thể bị những người chỉ trích coi là sự nhượng bộ khi mà tuyên bố chiến thắng đã được đưa ra. Nhưng việc không thỏa hiệp cũng nguy hiểm không kém. Nếu Tehran từ chối nhượng bộ về uranium làm giàu hoặc hình thái tương lai của chương trình hạt nhân, tiến trình đàm phán có thể đổ vỡ, thậm chí gây sức ép lên chính lệnh ngừng bắn. Điều đó sẽ củng cố lập luận của những người ở Washington và Israel vốn cho rằng Iran chỉ đang lợi dụng MoU để câu giờ, từ đó có thể đẩy hai bên quay trở lại chiến tranh. Ông Mohammad Bagher Ghalibaf, Chủ tịch Quốc hội đồng thời là trưởng đoàn đàm phán Iran, đã cố gắng mô tả các cuộc thương lượng theo cách đầy thách thức. "Tôi không phải là nhà ngoại giao, nhưng tôi biết rõ cách khiến nước Mỹ phải hiểu ra," ông phát biểu trên truyền hình nhà nước. Phản ứng của Khamenei càng khiến mọi chuyện khó khăn hơn. Ông nói mình "có quan điểm khác về mặt nguyên tắc", nhưng vẫn cho phép thực hiện MoU sau khi Tổng thống Pezeshkian, với tư cách người đứng đầu Hội đồng An ninh Quốc gia Tối cao, chấp nhận trách nhiệm bảo vệ quyền lợi của Iran và các đồng minh. Cách diễn đạt đó giúp ông đủ gần với thỏa thuận để nó có thể được thực hiện, nhưng cũng đủ xa để tránh phải chịu hoàn toàn trách nhiệm nếu nó thất bại. Đối với các nhà đàm phán Iran, điều này có thể thu hẹp không gian thỏa hiệp. Họ phải làm hài lòng Washington mà không tạo cảm giác đã vượt qua những lằn ranh mà chính lãnh tụ tối cao vẫn chưa hoàn toàn chấp nhận. Ngôn từ của Ghalibaf hướng tới công chúng trong nước, nhưng cũng nhằm về phía Washington. Cựu chỉ huy Vệ binh Cách mạng này phải thuyết phục một bộ phận cứng rắn vốn rất nghi ngờ mọi sự thỏa hiệp với Mỹ. Việc so sánh với thỏa thuận hạt nhân năm 2015 là điều khó tránh khỏi. Tại Washington, một số người có thể cho rằng MoU lần này còn tệ hơn cả Kế hoạch hành động toàn diện chung (JCPOA), lập luận rằng ông Trump đã chấp nhận một khuôn khổ cho phép Iran được giảm trừng phạt và hưởng lợi kinh tế trong khi các vấn đề hạt nhân khó khăn nhất lại bị trì hoãn. Tại Tehran, mối nguy lại khác. Những người cứng rắn có thể cáo buộc chính phủ và đoàn đàm phán lặp lại điều mà họ xem là "sự phản bội" năm 2015, khi Tổng thống Hassan Rouhani phải đối mặt với chỉ trích từ các nghị sĩ, truyền thông bảo thủ và đối thủ chính trị vì bị cho là đã nhượng bộ quá nhiều về chương trình hạt nhân. Đối với ông Pezeshkian và ông Ghalibaf, thách thức là biến khuôn khổ ngừng bắn thành một thành công chính trị trước khi làn sóng phản đối đó bùng phát mạnh hơn. Iran đã giành được thời gian, giảm bớt áp lực quân sự trước mắt và mở ra triển vọng nhận được những nhượng bộ về mặt kinh tế lớn. Nước này cũng tránh được kết cục mà Washington theo đuổi công khai nhất: sự đầu hàng hoàn toàn. Tuy nhiên, Iran vẫn chưa đạt được thỏa thuận cuối cùng. Trong ngắn hạn, MoU giúp củng cố vị thế của Tehran vì hệ thống chính trị đã sống sót và Washington đã đưa ra những cam kết rõ ràng. Nhưng rủi ro là 60 ngày tới có thể phơi bày khoảng cách giữa hình ảnh chiến thắng được quảng bá trong nước với những thỏa hiệp thực tế cần thiết để ngăn chiến tranh tái diễn. Iran đã bước ra khỏi chương đầu tiên của cuộc chiến với vị thế mạnh hơn nhiều người dự đoán, nhưng những bước tiếp theo có thể còn khó khăn hơn: duy trì sự ủng hộ của lực lượng chính trị trong nước đối với tiến trình đàm phán đủ lâu để đạt được thỏa thuận cuối cùng, mà không để những sự thỏa hiệp ấy bị coi là sự nhượng bộ hay thậm chí là thất bại. Trump ca ngợi thỏa thuận là 'thắng lợi lớn', giới phê bình cho rằng nhượng bộ quá nhiều Những người chỉ trích thỏa thuận – bao gồm cả một số thành viên trong Đảng Cộng hòa – đã cáo buộc ông Trump nhượng bộ quá nhiều Tổng thống Mỹ Donald Trump ca ngợi thỏa thuận là một "thắng lợi lớn" đối với nước Mỹ vì ông cho rằng nó cuối cùng đã đạt được mục tiêu chiến tranh tổng quát của Washington: ngăn chặn Iran sở hữu vũ khí hạt nhân. Tuy nhiên, trong ngắn hạn, một "chiến thắng" cấp bách hơn chính là việc nền kinh tế toàn cầu được mở lại nhờ Eo biển Hormuz được khai thông. Khi cuộc xung đột kéo dài và Eo biển Hormuz trên thực tế vẫn bị đóng cửa, các cuộc thăm dò liên tục cho thấy người dân Mỹ ngày càng bất mãn với giá xăng tăng cao và những tác động mà cuộc chiến gây ra đối với đời sống của họ. Chính sự không hài lòng về tình hình kinh tế là một trong những lý do quan trọng khiến cử tri đưa ông Trump trở lại Nhà Trắng vào năm 2024. Vì thế, nhận thức rằng cuộc chiến do chính ông phát động đang làm tổn hại túi tiền của người dân đã trở thành một gánh nặng chính trị đối với ông. Dù bản thân ông Trump không phải đối mặt với bầu cử trong cuộc bầu cử giữa nhiệm kỳ vào tháng 11 tới, tâm lý bất an đó lại xuất hiện vào thời điểm khó khăn đối với các nghị sĩ Cộng hòa. Nhiều người trong số họ đang phải đối mặt với những cử tri ngày càng tức giận, cũng như những người có ý định bỏ phiếu ngày càng lên tiếng mạnh mẽ về nguy cơ một cuộc xung đột kéo dài và rơi vào bế tắc. Trong bối cảnh đó, thỏa thuận này mang lại cho ông Trump không gian để xoay xở. Các đồng minh chính trị của ông hy vọng nó sẽ giúp ông xây dựng hình ảnh là người đã nhanh chóng chấm dứt cuộc xung đột và tránh được những sự can dự quân sự kéo dài bất tận ở nước ngoài – kiểu "những cuộc chiến vĩnh viễn" mà ông từng phản đối. Tuy nhiên, những người chỉ trích thỏa thuận – bao gồm cả một số thành viên trong Đảng Cộng hòa – đã cáo buộc ông Trump nhượng bộ quá nhiều. Trọng tâm của những chỉ trích này là cam kết rằng Iran sẽ được hưởng lợi từ quỹ tái thiết trị giá 300 tỷ USD. "Không có chuyện Mỹ chi trả 300 tỷ USD cho Iran. Đó là tin giả," ông Trump viết trên mạng xã hội Truth Social. "Mỹ có được thành công, giá dầu giảm và chiến thắng." Mặc dù ông Trump và các quan chức trong chính quyền đã nhiều lần khẳng định rằng số tiền này sẽ không đến trực tiếp từ Mỹ, nhưng thông tin đó vẫn khiến một số thành viên Đảng Cộng hòa cảm thấy lo ngại. "Lịch sử cho thấy việc trao hàng tỷ đô la cho những kẻ cuồng tín thần quyền muốn giết chúng ta không phải là một ý tưởng hay," Thượng nghị sĩ bang Texas Ted Cruz – vốn là một đồng minh đáng tin cậy của ông Trump – nói với báo The Hill. "Tôi cho rằng tổng thống đang nhận được những lời khuyên rất tệ." Nhà bình luận bảo thủ Tucker Carlson, người vẫn có ảnh hưởng lớn đối với phong trào MAGA dù gần đây thường xuyên chỉ trích chính quyền, còn thẳng thắn hơn: "Đây là một thất bại khá nhục nhã của nước Mỹ," ông phát biểu trong chương trình của mình trên X. "Đây là một thất bại." Đáng chú ý, chính quyền Mỹ cũng buộc phải thừa nhận rằng một số mục tiêu chiến tranh trước đây dường như không còn là ưu tiên và hoàn toàn không được đề cập trong MoU. Chẳng hạn, ở giai đoạn đầu của cuộc xung đột, ông Trump từng tuyên bố quân đội Mỹ sẽ "phá hủy tên lửa của họ [Iran] và san phẳng toàn bộ ngành công nghiệp tên lửa của họ", cho nó bị "xóa sổ hoàn toàn". Tương tự, MoU cũng không đề cập đến mối quan hệ của Iran với các lực lượng ủy nhiệm trong khu vực, bất chấp cam kết của ông Trump hồi tháng Ba rằng Mỹ đang nỗ lực để bảo đảm "chế độ Iran không thể tiếp tục trang bị vũ khí, tài trợ và chỉ đạo các đội quân bên ngoài biên giới của mình". Hiện nay, chính quyền đã bỏ mục tiêu ấy. Phó Tổng thống JD Vance nói với các phóng viên rằng Mỹ "mong đợi" lực lượng Hezbollah sẽ không tiếp tục bắn vào Israel. Ông cũng thừa nhận rằng các lệnh ngừng bắn thường "khá lộn xộn" và việc xuất hiện những đợt bùng phát giao tranh trở lại là điều có thể xảy ra. Chỉ riêng điều đó cũng đủ khiến thỏa thuận trở nên không được lòng những thành viên Đảng Cộng hòa vốn coi cam kết của Mỹ đối với an ninh của Israel là một nguyên tắc bất khả xâm phạm trong chính trị Mỹ. Related: https://www.bbc.com/vietnamese/articles/c4gy2glgpgyo Thỏa thuận Mỹ - Iran: Yếu tố nào đáng chú ý? https://www.bbc.com/vietnamese/articles/cvgqvngpj8vo Hàng ngàn người thiệt mạng trong cuộc chiến Mỹ-Israel chống Iran, nhưng con số thực có thể 'không tưởng tượng nổi' Christine Jeavans & Matt Murphy. BBC Verify Hàng ngàn người đã thiệt mạng trên khắp Trung Đông kể từ khi cuộc chiến Mỹ-Israel với Iran bắt đầu vào tháng Hai, theo các số liệu chính thức, trong bối cảnh một thỏa thuận chấm dứt xung đột hiện đã được thông qua. Theo các báo cáo thương vong chính thức từ Iran và Lebanon, hơn 7.300 người đã thiệt mạng tại hai quốc gia này kể từ ngày 28/2. Trong số đó có hàng trăm trẻ em và hàng chục nhân viên y tế. Ngoài ra, nhiều người khác cũng đã thiệt mạng trên khắp khu vực. Tuy nhiên, một số nhà phân tích cho rằng những con số này gần như chắc chắn vẫn thấp hơn thực tế. Iran Tính đến giữa tháng 4, ít nhất 3.468 người Iran, trong đó có 499 phụ nữ, đã thiệt mạng kể từ khi các cuộc không kích của Mỹ và Israel bắt đầu, theo số liệu chính thức của chính phủ Iran. Theo hãng thông tấn nhà nước IRNA ngày 26/4, con số này bao gồm 1.460 dân thường và 2.008 quân nhân. Tuy nhiên, Hãng tin Các Nhà hoạt động Nhân quyền (HRANA), một tổ chức theo dõi nhân quyền của Iran có trụ sở tại Mỹ, cho biết số người thiệt mạng mà họ thống kê được là 3.636 người. Trong một báo cáo công bố ngày 18/5, HRANA cho biết con số này gồm: • 1.701 dân thường, trong đó có 307 trẻ em; • 1.221 quân nhân; • và 714 người chưa thể xác định danh tính hoặc tình trạng. Tổ chức này nhấn mạnh rằng những con số họ ghi nhận được nên được xem là "mức tối thiểu", bởi việc thu thập thông tin về các trường hợp tử vong bị hạn chế nghiêm trọng do khó tiếp cận hiện trường, tình trạng cúp internet do chính phủ áp đặt và sự đàn áp về chính trị. "Bằng nhiều cách khác nhau, giới chức thường xuyên không công bố thông tin về thương vong, và các gia đình có thể phải chịu áp lực không được công khai lên tiếng về hoàn cảnh dẫn đến cái chết của người thân," bà Skylar Thompson, Phó Giám đốc HRANA, nói. Giới chức Iran cáo buộc Mỹ và Israel đã tấn công hạ tầng dân sự trong các cuộc không kích trên khắp đất nước. Nhiều cuộc điều tra đã kết luận rằng một cuộc tấn công bằng tên lửa của Mỹ ngay trong ngày đầu tiên của cuộc chiến đã đánh trúng một trường học tại thị trấn Minab. Theo các quan chức Iran, vụ việc đã khiến 168 người thiệt mạng, trong đó có 110 trẻ em. Quân đội Mỹ cho biết họ đang điều tra vụ tấn công này. Vài ngày sau, nhà chức trách Iran cho biết một tên lửa đã đánh trúng nhà thi đấu nơi đang diễn ra một trận bóng chuyền nữ ở thị trấn Lamerd, khiến 20 người thiệt mạng. Mỹ bác bỏ cáo buộc liên quan đến vụ tấn công, nhưng các chuyên gia trao đổi với BBC Verify nhận định rằng loại vũ khí được sử dụng nhiều khả năng là Tên lửa tấn công chính xác tầm xa (PrSM) do Mỹ chế tạo. Lebanon …giới chức y tế Lebanon cho biết đã xác định được 3.912 người thiệt mạng trong các cuộc tấn công của Israel, trong đó có 366 phụ nữ và 247 trẻ em. Hiện chưa rõ có bao nhiêu thành viên Hezbollah nằm trong số những người thiệt mạng. BBC Verify đã liên hệ với Bộ Y tế Lebanon nhưng chưa nhận được phản hồi. Trong khi Hezbollah chưa công bố số liệu riêng, Thủ tướng Israel Benjamin Netanyahu cho biết vào tháng trước rằng 3.000 tay súng Hezbollah đã bị tiêu diệt kể từ khi cuộc chiến với Iran bắt đầu. Đầu tháng Ba, Bộ Y tế Lebanon cho biết 41 người đã thiệt mạng trong một chiến dịch không kích và tấn công trên bộ quy mô lớn của Israel quanh một thị trấn ở thung lũng Bekaa ở miền đông nước này. Lực lượng Phòng vệ Israel (IDF) cho biết lúc đó binh sĩ của họ đang tìm kiếm và quy tập hài cốt của một phi công quân sự mất tích trong một cuộc xung đột tại Lebanon cách đây 40 năm. Tuy nhiên, các quan chức Lebanon cho biết ba binh sĩ Lebanon đã thiệt mạng trong chiến dịch này, cùng với một số dân thường và trẻ em. Israel …Giới chức Israel cho biết 60 người đã thiệt mạng, phần lớn do các cuộc tấn công của Iran và các cuộc giao tranh với Hezbollah. Theo số liệu do chính phủ Israel cung cấp cho BBC, trong số này có 29 dân thường, trong đó 21 người thiệt mạng trong các cuộc tấn công bằng tên lửa của Iran. Ngoài ra còn có 31 binh sĩ Israel tử trận trong chiến đấu. Chính phủ Israel cho biết thêm một người khác đã thiệt mạng do hỏa lực nhầm từ phía Israel. Số người chết trên khắp Trung Đông …Việc xác định chính xác tổng số người thiệt mạng trên toàn khu vực là rất khó khăn, bởi không phải tất cả các quốc gia đều công bố số liệu thương vong cộng dồn. Tuy nhiên, các tuyên bố chính thức và thông tin trên báo chí đã ghi nhận có người thiệt mạng tại hầu hết các quốc gia vùng Vịnh. Tại UAE, Bộ Quốc phòng nước này cho biết đã có 13 người thiệt mạng. Tại Iraq, hơn 100 người đã thiệt mạng, theo số liệu do Al Jazeera và AFP tổng hợp. Trong số này, ít nhất 80 người được cho là thành viên của Lực lượng Huy động Nhân dân (PMF), một lực lượng bán quân sự do các nhóm dân quân Hồi giáo dòng Shia thân Iran chi phối. Những người này được cho là đã thiệt mạng trong các cuộc không kích của Mỹ và Israel. Trong khi đó, theo Bộ Quốc phòng Mỹ, 13 quân nhân Mỹ đồn trú tại Trung Đông cũng đã thiệt mạng, gồm: • 7 người trong các cuộc tấn công của Iran; • 6 người trong một vụ rơi máy bay tiếp dầu tại Iraq. Tổ chức Hàng hải Quốc tế (IMO) cho biết 14 thủy thủ thuộc nhiều quốc tịch khác nhau đã thiệt mạng trong các cuộc tấn công nhằm vào tàu thuyền tại Eo biển Hormuz và những khu vực khác ở Trung Đông. Ông Iain Overton lưu ý rằng những hạn chế trong việc tiếp cận hiện trường, hạ tầng bị hư hại và các yếu tố nhạy cảm về chính trị tại một số khu vực ở Trung Đông đã cản trở công tác thống kê thương vong, thậm chí trong một số trường hợp khiến số liệu không được công bố đầy đủ. "Kinh nghiệm từ các cuộc xung đột tại Iraq, Syria và nhiều nơi khác cho thấy số người thiệt mạng cuối cùng nhiều khả năng vẫn sẽ là chủ đề gây tranh cãi, và có thể cao hơn đáng kể so với những con số hiện có," ông Overton nói. https://www.bbc.com/vietnamese/articles/cm203nmz2l2o Công dân Việt Nam chết trong trung tâm giam giữ di trú Mỹ 18 tháng 6 2026 Đầu tháng Tư, ông Tuan Van Bui, 55 tuổi, người Việt Nam, đã gục xuống và tử vong tại Speedway Slammer, một nhà tù an ninh nghiêm ngặt tại quận Miami, bang Indiana, Mỹ. Nơi giam giữ này đã được cải tạo lại và trở thành biểu tượng cho chiến dịch trấn áp nhập cư của chính quyền Trump. Theo thông cáo báo chí của Cơ quan Thực thi Di trú và Hải quan Hoa Kỳ (ICE), ông Tuan Van Bui, được tuyên bố tử vong lúc 6 giờ10 phút chiều ngày 1/4/2026 (giờ địa phương) sau khi nhân viên phát hiện ông bất tỉnh. Mặc dù nhân viên y tế đã can thiệp nhưng họ đã không thể cứu sống ông Tuan, người mắc bệnh tim mạch. Truyền thông Mỹ khi đó đưa tin ông Tuan Van Bui nhập cảnh hợp pháp vào Mỹ năm 1990, theo Đạo luật Hồi hương người Mỹ gốc Á (Amerasian Homecoming Act), đạo luật cấp thị thực cho trẻ em sinh ra ở Việt Nam có cha và người thân trực hệ là người Mỹ. ICE cho biết người đàn ông Việt Nam này chưa bao giờ nhận hoặc nộp đơn xin quốc tịch Mỹ. Thị thực AM-1 của ông có thể giúp ông đủ điều kiện để được cấp thẻ thường trú hợp pháp, thường được gọi là "thẻ xanh". Ông Tuan không phải là trường hợp duy nhất tử vong trong các trung tâm giam giữ của ICE. Tại một trung tâm giam giữ ở Pennsylvania, một người đàn ông Trung Quốc đã được tìm thấy treo cổ chết trong phòng tắm, sau khi từng tự tử bất thành trước đó.

Saturday, June 13, 2026

Software Engineering, Data Science, Measuring Factual Quality in the Age of AI

https://www.normaltech.ai/p/why-ai-hasnt-replaced-software-engineers Why AI hasn’t replaced software engineers, and won’t Coding agents as normal technology Arvind Narayanan and Sayash Kapoor Jun 10, 2026 There is great anxiety and uncertainty about AI replacing jobs. How can we move past vague warnings and bombastic predictions and bring data to bear on this question? One good way is to look at the profession where AI capabilities are furthest along and adoption has been exceptionally rapid: software engineering. In this essay, we argue that there is enough evidence to reject the narrative that once AI capabilities reach a certain threshold, it will cause mass layoffs. Given that this is true even in a sector with very few regulatory barriers, most other professions are likely to be even more cushioned. We also have a good understanding of why this is the case. We can think of many kinds of knowledge work, including software development, as a “decide-execute-deliver sandwich”. AI compresses the “execute” layer — the middle of the sandwich — but the other two layers resist automation in a way that will not be overcome by capability improvements alone. We conclude on a note of cautious optimism about the future trajectory of demand for software engineering. This essay is the first in a series, and the next one will look at reasons why individual software engineers’ careers might be rocky even if overall demand is healthy. The series is based on the published literature in economics and software engineering, our own evaluations and observations of AI agents, and many software engineers’ reflection on the present and future of AI impacts on their profession, gleaned both from published writings and our interactions with the community. The stories of AI-driven mass layoffs in software seem to be classic “AI washing” Consider three stories that made the headlines and how they contrasted with reality: • In February, fintech company Block (maker of Cash App, Square, Afterpay, and other such apps) announced layoffs of 4,000 employees because, according to founder Jack Dorsey, AI is “enabling a new way of working” with “smaller and flatter teams”, specifically citing late-2025 improvements in model capabilities. But subsequent reporting revealed a radically different picture. After growing headcount more than threefold during the pandemic, the company was under massive financial pressure. A data scientist on the Cash App team, Naoko Takeda posted that Block “shoved AI down everyone’s throats” yet she saw “very limited gains in productivity.” She refused a 75% retention raise and quit. Other employees interviewed had a sharply different understanding of what AI was capable of at Block and whether Dorsey had a competent understanding of the issues. As Aaron Levie has pointed out, CEOs are uniquely prone to delusions about AI’s usefulness because they can build quick prototypes but can’t see the 90% of work it takes to turn it into a finished product. Dorsey’s public statements about AI seem to fit exactly this pattern. • In April, Snap laid off about 1,000 people, with CEO Evan Spiegel primarily citing AI as the reason in his layoff memo. He also said that AI generated 65% of new code. In reality, the layoffs followed a campaign by an activist investor demanding cost cuts. (Snap has posted a net loss every full year since its 2017 IPO and shares were down over 30% in 2026). Tellingly, the nature of the cuts, such as 150 jobs spanning various roles in the augmented reality division, don’t correlate with the cuts we would expect to see if they were driven by AI (i.e. programming and other “AI-exposed” jobs across the board, not concentrated in any unit). • In May, Intuit announced 3,000 cuts, alongside deals with Anthropic and OpenAI. The press connected the two, framing the layoffs as AI-driven restructuring. For once, the CEO actually pushed back on this easy narrative, saying that “none of it had to do with AI” and that the cuts targeted “coordination-heavy roles” and too many management layers. We did not cherry-pick these examples. In every story about AI-driven software engineering layoffs that we examined, the same narrative violation emerged. It turns out that “AI washing” of job cuts is an economy-wide phenomenon, evidenced by many surveys: • 59% of U.S. hiring managers admitted they emphasize AI when explaining hiring freezes or layoffs because it plays better with stakeholders than citing financial constraints. • Forrester principal analyst J. P. Gownder says of companies preparing supposedly AI-driven layoffs: “When we ask if they have a mature, vetted AI app ready to fill in those jobs, nine out of 10 times, the answer is no—and they haven’t even started.” • In a HBR survey of over 1,000 global executives, 21% had made large headcount reductions “in anticipation of” AI, with another 39% having made low or moderate anticipatory headcount reductions. In contrast, only 2% had already made large reductions in headcount related to actual AI implementation. The 10x gap suggests that executives, like everyone else, are highly prone to succumbing to the misleading narratives about AI replacing jobs. Another interesting data point comes from the WARN Act, which requires certain disclosures of plant closings and mass layoffs affecting over 100 workers. In March 2025, New York became the first U.S. state to add an AI disclosure checkbox to WARN Act filings. In the full first year, more than 160 companies filed WARN notices. Not a single one checked the AI box.1 We reached out to the NY Department of Labor who confirmed that as of late May, only one company, Nespresso, checked the box.2 If these filings are accurate, only 46 out of about 25,000 laid off workers in New York State in the relevant period, or about two-tenths of a percent, were affected by AI. Even more damning for the AI-driven-mass-layoffs narrative: layoffs are the wrong signal of AI’s potential productivity benefits in the first place! The research is clear that the effect operates through “slower hiring rather than increased separations”. Firing existing workers results in the loss of precisely the tacit knowledge and organizational capital that allows workers to operate AI effectively. Besides, it is expensive in terms of severance, damage to morale, and rehiring risk. Given these costs, it is largely unnecessary given that natural turnover achieves the same result in a few years. So what does the data tell us when we look beyond layoffs to overall employment trends? An important paper from Federal Reserve economists compiles the evidence in the U.S. context. Software engineer employment is still growing, but they find that it is growing slower post-ChatGPT compared to a no-AI counterfactual, by about 3 percentage points per year. One important limitation of this study is that the methodology can’t capture self-employment, so it is possible that some of the slowdown in growth is being absorbed by entrepreneurship instead. We do have evidence from other studies that AI makes entrepreneurship easier. So the real picture is probably even healthier than the Federal Reserve study suggests.3 Finally, it is worth acknowledging two kinds of indirectly-AI-driven job losses in software engineering that are real, but different from AI replacing software engineers. First, AI sometimes decimates demand for the product, in cases like Chegg (homework help) or Stack Overflow (technical help), both of which have laid off workers. AI doesn’t directly do the job that these workers did, but rather obviates the need for it. The historical parallel is strong: Among the 270 jobs in the 1950 U.S. census, only one job was automated away — elevator operator. But many others were rendered obsolete by new technology, like the job of telegraph operator. Another credible AI-driven layoffs story is among companies that sell AI, rather than buy it. So when companies like IBM or SAP announce layoffs because of AI, a more accurate framing is “we reallocated headcount from legacy functions to our fastest-growing product line.” That’s ordinary corporate restructuring around a revenue opportunity, not technology displacing workers. Why coding agents haven’t led to labor displacement: the decide-execute-deliver sandwich Many tech leaders, like the Snap CEO above, report the percentage of code written by AI alongside reports of layoffs or predictions of future job losses. This feeds into the simplistic mental model that once AI writes all the code, there is no need for coders. Fortunately, this mental model is wrong. This AI-written-code metric is almost completely disconnected from what matters for labor displacement. Here’s why. Writing code isn’t, and never was, the bottleneck. For example, a 2019 paper summarized existing studies with the conclusion that “developers spend surprisingly little time with coding, 9% to 61% depending on the study”. This finding was consistent with the paper’s own data from 6,000 developers at Microsoft. As coding agents began to be taken up, there was an explosion of blog posts in late 2025 pointing out that writing code isn’t the bottleneck, as developers realized that using agents to write most of the code led to little impact on overall productivity [1, 2, 3, 4, 5, 6, 7, 8]. If writing code isn’t the bottleneck, what is? The task-breakdown surveys point at things like meetings or debugging. This just leads to more questions: what are developers doing in those meetings and why can’t it be done by AI? Won’t debugging get automated as capabilities improve? To understand the real bottlenecks, we have to get qualitative, and dig into software engineers’ own understanding of what it is they do that resists automation. When we did this analysis, it revealed three things as the real bottlenecks (1) deciding and specifying what to build, (2) verifying and being accountable for what is delivered, and (3) the deep human understanding — of the codebase, the business, and the environment — required to carry out both of these. In other words, software engineers’ work consists of a “decide-execute-deliver” sandwich (with understanding being a prerequisite for all three). AI has compressed the middle of the sandwich, but has left the two ends largely unchanged. As long as software development teams are in charge of decision making and accountable for what they deliver, engineers still need to spend time building up a deep understanding of the system. These are the three bottlenecks. Figure: Software development consists of three layers: (1) Decision making — problem framing, specification, planning (2) execution — design and implementation (3) delivery — testing, verification, integration, maintenance, etc. Note that these are conceptual layers, not temporal phases. It is common to switch back and forth in the course of a project. Evidence for the sandwich model of AI’s productivity effects comes from a recent paper on “Writing Code vs. Shipping Code”. Across 100,000 developers on GitHub, the researchers found that AI agents led to an eight-fold increase in the number of lines of code written, consistent with the idea that AI almost completely compresses the Execute layer of the sandwich. But this led to only 30% more releases, strongly suggesting that human bottlenecks (the Decide and Deliver layers) remain in place.4 Can the sandwich be further compressed? We don’t think so. At one end of the pipeline, development teams need to decide what to build. One of the most important lessons junior software engineers learn is that requirements specification (the profession’s lingo for this layer) takes surprisingly long, and if it is compressed, it leads to much more pain down the line. This layer is hard to automate because it requires thinking about user needs, market signals, organizational priorities, and in some cases regulatory constraints. As AI capabilities improve, the kinds of decisions that can be delegated to AI increase over time. But this does not make the “decide” layer thinner — once a decision can be delegated to AI, it is no longer a source of competitive advantage, and the value of human decision-making migrates upward. Software increases in complexity over time, so there is no ceiling to this process. At the other end of the sandwich, human teams need to be accountable for what they deliver. It is possible that some day in the future teams will ship mission-critical code without fully testing and understanding it, but today’s AI is so unreliable that such haphazard practices would represent an existential threat to software teams and their customers. Even if the technical barriers go away in the future, we don’t have to cede control to AI. A central insight of AI as Normal Technology is that we can collectively choose to keep humans accountable through shared norms, law, and policy. This is a much more resilient way to control the speed of AI impacts and improve safety than trying to slow the development of technical capabilities. These speed barriers are already largely in place due to liability laws and sector-specific regulation, but can be further strengthened. (For a longer version of this argument, see the original essay.) In this vision, as more and more of the execution layer gets delegated to AI, the software engineer’s role in the future becomes analogous to that of a crane operator. AI agents will do most of the cognitive heavy lifting; supervising the agent and keeping it in control becomes most of the human’s job. Some commentators argue that a future with humans staying in control is unlikely because it is too costly to pay people to do so. There have already been a few viral stories of poorly-supervised coding agents deleting production databases or causing other types of damage. But we view these as “man bites dog” stories rather than an emerging norm. They go viral precisely because they represent such irresponsible and unusual behavior that they have shock value, and serve as regular reminders and learning moments helping the community guard itself against over-reliance on AI. As the aphorism goes, “if it’s in the news, don’t worry about it”. Still, being able to detect whether there is an uptick in poorly-supervised use of AI for high-stakes tasks — across the economy, not just in software engineering — remains one of the most critical data gaps we have today. By the way, the sandwich getting squished is a new trend and it is not uniquely due to AI. Over two decades ago, the Bureau of Labor Statistics started tracking programming separately from software engineering. Roughly speaking, programmers are responsible only for execution while software engineers manage a bigger part of the sandwich. Not only has programming been shrinking, it is also pays much less because it is seen as grunt work. AI merely accelerates this long-existing trend, further devaluing purely technical skills. Software engineering versus programmer employment. Chart by The Washington Post. This pattern — where humans remain heavily involved at both ends of the decide-execute-deliver sandwich, even as AI increasingly automates the middle layer, seems to be broadly applicable to most knowledge work, though it is farthest along in software. After all, complex decision making and accountability are common to most fields. A lack of recognition of this phenomenon has led to many overconfident predictions about imminent job losses, such as among radiologists. Vibe coding is not agentic engineering One reason for confusion about the extent to which software engineering is changing is the sloppy use of the term “vibe coding” to refer to a wide spectrum of practices, the ends of which are conceptually distinct and more dissimilar than similar. In true vibe coding the user simply tells the agent what to do, doesn’t supervise it when it’s running, doesn’t review the code — might not even have the skills to do so — and doesn’t evaluate the output, beyond perhaps noticing when things are visibly broken. This is in contrast to how most software engineers are actually using agents — as a tool, with the human remaining in control and accountable for the output. Fortunately, the term agentic engineering is gaining currency as a descriptor of this practice. As agentic engineering has become the norm, engineers are discovering that supervising coding agents is surprisingly time consuming. For example, Simon Willison, a prominent developer and chronicler of the AI transition, has noted how he is mentally exhausted by 11am from supervising agents. This is consistent with our experience as well. More quantitative evidence comes from SWE-chat, a dataset of coding agent interactions from open-source developers who opted into a logging tool. The study found that only 44% of agent-produced code survives into user commits, that vibe-coded commits introduce vulnerabilities at nine times the human-only rate, and that the most common user intent is understanding existing code, not generating new code (19% vs 13%). The self-selected nature of the dataset means that we can’t draw strong conclusions based on this study alone, but it does reinforce many other lines of evidence that vibe-coding and agentic engineering patterns are quite different. Agentic engineering is not vibe coding To re-iterate, these are not two distinct categories. They are two ends of a spectrum, and there is a blurry middle. Not every project is either a throwaway or mission-critical. Not every workflow fits precisely in the left column or the right column of the table. But the key implication for the jobs question remains solid — companies can’t ship production software by hiring unqualified vibe coders instead of software engineers. What does the future hold? AI boosters might claim that mass layoffs are coming; they just haven’t happened yet because human-level software engineering abilities are very recent (or haven’t been achieved yet). But if the sandwich model is correct, these predictions won’t come true. AI has already largely compressed the middle of the sandwich (and the compression actually started decades ago). So even making the execution layer instant and perfect will only be a small change from the status quo. The reasons why the other two layers have resisted AI is not because of capability limitations. In fact, not only are software engineering jobs not going away due to AI, there might even be an increase in demand for software engineers. When software (or anything else) gets cheaper to create due to technological productivity improvements, people will buy a lot more software (in econ jargon, software is highly “price elastic”). And as we have argued, AI doesn’t replace software engineers (the “elasticity of substitution” is low), so the demand for more software results in a derived demand for more software engineers. A loosely related but flashier economics term, “Jevons’ paradox”, is often thrown around in the AI discourse to describe this concept. Historically, this has been the pattern — programmer employment in the U.S. has grown from near-zero around 1950 to millions today. This is sharply different from occupations such as agriculture in which labor demand was famously decimated due to mechanization and automation. The difference is that the amount of calories people consume is relatively fixed — even a 25% increase led to the obesity epidemic — whereas the amount of software produced has grown a millionfold. Modern cars have something like a hundred million lines of code running on their various on-board computers. If there is a ceiling to the demand for code, we are nowhere near it. Virtually all cognitive work benefits from software. As AI makes coding cheaper, people are creating all kinds of one-off utilities — whether for work or personal use — that it never made sense to create until now. To be clear, while we think there will be a lot more software in the future, and likely more software engineers, this doesn’t mean big tech companies will get even bigger. The majority of software engineers today already work in-house in non-software firms, and that share might grow in the future. Then there’s the idea of “AI rollups”, which refers to venture capital or private equity firms buying “Main street” businesses — dentistry practices, accounting firms, and whatnot — and rebuild them from the ground up to be “AI-native” by embedding software engineers or AI engineers into those businesses. Of course, it might end up being nothing more than hype. It’s too early to tell. Some people predict that demand for software engineering skills will fall because of democratization. They acknowledge that there will be more software produced than ever before, and also that more human time will be spent producing software than ever before, but that this work will be done by people who are not software engineers. The idea is that AI will democratize software engineering to the extent that legal software, for instance, can be more easily created by those with training in law than in software engineering. Maybe. But we’ll bet against it. In our view, this falls into the same trap of conflating vibe coding with agentic engineering, and the execution layer with the the whole decide-execute-deliver sandwich. In fact, when we look at the history of programming, there have always been claims that we are at the threshold of democratization — old languages such as FORTRAN, COBOL, and SQL were all accompanied by such prominent hopes at the time of their introduction. It never happened. The barrier isn’t actually learning the syntax. It’s having enough skilled judgment to make good decisions while maintaining accountability. Ultimately the distinction may be semantic. It seems clear that the amount of time people spend on getting computers to do new things will increase over time. This might take the form of building software, or managing complex workflows using agents, or something else. It will require a mix of software skills, AI skills, and domain expertise. Whether it is today’s software engineers who will best adapt to fill these new roles remains to be seen. That last point about the need for adaptation sets up the next essay in this series. The fact that aggregate labor demand in software is likely to remain strong doesn’t mean that most individual workers won’t be affected. We will argue that AI will create massive structural shifts in how software is produced, which will have big impacts on which software engineers stand to gain or lose — based on the types of firms they work in, their geography, their seniority, the pace at which they can adapt. Further reading Deena Mousa points out the superficiality of broad, economy-wide analyses of AI impacts based on metrics like “AI exposure”, and instead calls for “careful, occupation-specific work”. We hope that this series of essays will play a role in establishing a nuanced understanding of AI’s transformation of software engineering. We’ve previous coauthored, with Justin Curl, a paper analyzing AI in legal services that seriously engages with regulatory and other bottlenecks that make that occupation unique. We plan to do more occupation-specific deep dives in the future. In a remarkable essay called No Silver Bullet 40 years ago, Fred Brooks distinguished between the “essential complexity” and “accidental complexity” of software. He argued that some of the complexity of software is accidental, arising from limitations of present technology such as the clunkiness of programming languages, and can be alleviated over time as tooling improves. But some of it is essential, because specifying the correct behavior of software is itself hard. He presents a forceful articulation of why the “decide” layer of the sandwich is thick and resists automation. Interestingly, hopes of boosting programmer productivity through AI were already prominent back then! Brooks argues that because AI or any other technology only reduces accidental complexity, it won’t result in an order-of-magnitude productivity improvement. (Brooks is the author of The Mythical Man Month, an essay collection that is almost certainly the best known and most influential writing on software engineering of all time. No Silver Bullet later became part of the collection.) We are grateful to Felix Chen for feedback on a draft. 1 The checkbox is actually labeled “technological innovation or automation”. If checked, there is a second menu that to disclose the specific technology such as AI or robotics. The current WARN Act data have various limitations — it is New York only, and it is possible that companies are under-reporting AI as a reason for layoffs because of ambiguity or asymmetric risks from checking versus not checking the box (though we have no specific reason to think this). Stronger transparency requirements are in the works at both the federal and state levels; closing this data gap is urgent. 2 We are grateful to our colleague Mihir Kshirsagar for connecting us to the New York State Department of Labor and Elena Grovenger from the department for a prompt response. 3 The paper uses the term coder, but it defines the term based on skills rather than roles, resulting in a broad sweep of jobs that is much broader than “coding”. Measurements based on industry, title, and skills cannot be easily compared to one another. 4 Interestingly, in a sub-study looking at mobile apps, the paper found that the usage of the resulting apps did not go up at all. This gets at one important difference between consumer and enterprise software. The former competes for a relatively fixed pool of attention; more apps published doesn’t mean more hours of app usage. But in enterprise software there is a lot of room for growth, as previously human processes can be software-mediated or automated. Subscribe to AI as Normal Technology Launched 4 years ago Analyzing AI as transformative but normal technology, not superintelligence. https://blog.citp.princeton.edu/2026/06/11/ai-is-already-giving-medical-conclusions-are-they-any-good/ AI Is Already Giving Medical Conclusions. Are They Any Good? June 11, 2026 – by Center for Information Technology Policy Comments Artificial Intelligence, Data Science & Society Authored by: Hayoung Jung Recently, I was talking with some family members from South Korea who mentioned their back pain. My immediate question: “What did the doctor say?” Healthcare is highly accessible and affordable in South Korea, so I assumed they had already seen one. Nope. They asked ChatGPT. In all honesty, this was not truly surprising given how useful these models are. But the moment captures a growing social phenomenon happening everywhere. AI systems are becoming the first stop for health and scientific questions, even in countries where professional care is available and accessible. And people are not just asking these systems to retrieve webpages or list sources, as they might in traditional search engines. Agentic systems, such as Google AI Overview, OpenEvidence, and OpenAI Deep Research, synthesize information from multiple sources and present immediate conclusions to users’ questions in real time. Increasingly, users are directly asking, What is my diagnosis? What are the best treatment options? What should I do next? Reports suggest this is happening across audiences. Laypeople ask AI systems about symptoms, treatments, and scientific claims, while more than 80% of U.S. physicians use them in their professional workflows, including to explore medical questions and support decision-making. When AI systems are becoming the first (or even the only) stop for health and scientific questions, are they even reliable at synthesizing scientific evidence into conclusions that people may actually act on? A Benchmark for Scientific Synthesis To answer this, I worked with my amazing PhD advisors Manoel Horta Ribeiro and Aleksandra Korolova (who also have their own Substacks here and here) to create a benchmark for evaluating how well current AI agents synthesize scientific conclusions from the open web. Scientific conclusion synthesis requires several steps. An agent must retrieve relevant evidence from the open web, filter out irrelevant or low-quality sources, reason across multiple studies, weigh conflicting findings, preserve uncertainty, and synthesize a long-form conclusion. Importantly, these kinds of tasks are long-horizon and open-ended, as expert scientists often spend months searching the literature on the open web, evaluating studies, and synthesizing careful conclusions about what the evidence in the field actually supports. To evaluate this, we built SciConBench, a large-scale benchmark of 9.11K scientific questions paired with expert-written conclusions from Cochrane systematic reviews, a gold standard in evidence-based medicine. Each SciConBench task asks an AI agent to use web tools to answer a scientific question with a paragraph-length conclusion, which we compare against the corresponding expert-written Cochrane conclusion. Importantly, SciConBench is a live benchmark: it is continuously updated as new Cochrane reviews are published, enabling timely evaluations and reducing benchmark leakage as new models are trained on recent web data. Overview of SciConBench. We evaluate whether AI agents can use tools to synthesize scientific conclusions from the open web, without simply retrieving the expert-written answer online. We compare AI-generated conclusions against expert-written Cochrane conclusions by measuring how accurate and complete their factuality are. Even under this controlled setup, frontier AI agents struggle to synthesize reliable scientific conclusions. The Leakage Problem While running SciConBench, we ran into a surprising issue from looking at our agent logs: AI agents were explicitly looking for the benchmark answers directly from Cochrane review articles, even when we instructed them not to in the system prompt. Anthropic recently released a neat blog on this phenomenon called “evaluation awareness,” in which these models would know they are being evaluated and explicitly look for answers online. As models become increasingly capable, a major challenge in evaluating web-enabled agents is that they can often find the answer directly. If a benchmark question comes from a published systematic review, an agent with web access may simply retrieve the review itself, or another webpage that covers its conclusion (e.g., news coverage). At that point, the task is no longer about synthesizing the scientific evidence from scratch, but rather merely retrieving the ground-truth answer (a much easier task!). The model may look impressive, but we would not be measuring the capability we actually care about. To address this, we built SciConHarness, a clean-room evaluation harness. This evaluation harness enforces the clean-room protocol, ensuring agents have controlled access to web search, browsing, and paper search tools, while filtering out ground-truth artifacts such as Cochrane pages and review articles that could leak the answer. This lets us evaluate whether the agent can synthesize the conclusion from the open-web evidence, rather than shortcutting to the already-written expert answer. Measuring factual quality In our study, we work with doctors to validate every component of our benchmark creation and evaluation pipeline. After an AI agent synthesizes a conclusion from the open web, we evaluate their conclusions using our expert-validated factual evaluation pipeline. Instead of judging the whole paragraph at once, the idea is we decompose both the AI-generated conclusion and the expert-written reference conclusion into a series of facts, e.g., statements containing a single piece of information. Then, we measure two things: • Factual precision (correctness): Are the facts in the AI-generated conclusion supported by the reference, or do they contradict it? • Factual recall (coverage): Does the AI-generated conclusion cover the key facts from the reference conclusion needed to answer the question? We use these two metrics because a scientific conclusion can fail in different ways. A conclusion may contain incorrect claims – for example, by overstating weak evidence or flipping the direction of a treatment effect. Alternatively, it may be mostly true but incomplete, omitting key facts or caveats that matter for decision-making. To capture both correctness and completeness, we also report Factual F1, the harmonic mean of factual precision and factual recall. In other words, a system can only score highly on F1 if it performs well on both dimensions: it must avoid making unsupported or contradictory claims, while also covering the key facts needed to answer the question. All metrics range from 0 to 1, with higher being better. So how do these AI agents perform? Our benchmark results. Note that each metric ranges from 0 to 1, with higher being better! We test across frontier models and deep research agents (DR) using SciConHarness, where the best score under the clean-room was 0.337 factual F1-score. As shown in \delta_{Clean} F1, we found models and deep research agents consistently decrease in performance when applying the clean-room. Let’s see the benchmark results above! Across frontier models and deep research agents, synthesizing scientific conclusions remains far from solved. Under clean-room evaluation, which better isolates true synthesis capability, the best-performing agent (OpenAI’s o3-deep-research) achieved only a factual F1 of 0.337. In other words, even the strongest systems struggled to produce conclusions that were both correct and comprehensive with respect to the expert-written Cochrane reviews. We also found that clean-room evaluation consistently reduced performance. When agents had unrestricted web access (e.g., no clean-room), they performed better. However, when we filtered out ground-truth leakage with our clean-room, their scores consistently dropped. This suggests that some apparent performance in open-web evaluations comes from retrieving benchmark artifacts, not genuinely synthesizing conclusions from evidence. This leakage issue is important beyond our benchmark. If we evaluate AI agents in environments where they can shortcut and find the answer directly, we may overestimate their real capabilities, especially for high-stakes tasks in health and science. The deployed agents were also unreliable. We audit consumer-facing agents, like Google AI Overview and OpenEvidence, using our benchmark! Given that these tools are used millions of times in real-world health decision-making, this could result in substantial amounts of incorrect advice given to both clinicians and laypeople. We also audited consumer-facing agents, including Google AI Overview, Google AI Mode, and OpenEvidence. These agents are already being used by laypeople and clinicians to synthesize health information. OpenEvidence, in particular, is marketed as a “clinical AI copilot for doctors” for “high-stakes decisions” and is used hundreds of millions of times in the medical context. Looking more closely at the table above, even when these agents had access to the ground-truth review, their conclusions were often incomplete and sometimes contradictory. OpenEvidence performed best among the audited agents, but still covered only about half of the reference facts and produced contradictory claims: in fact, 50.8% of its generated conclusions contained at least one claim that contradicted the Cochrane review. Google AI Overview and Google AI Mode performed worse, with lower coverage and similarly concerning contradiction rates: 56.3% and 59.0% of their conclusions, respectively, contained at least one contradiction. In many cases, the ground-truth answer was already available online, meaning the models should have been able to identify, retrieve, and prioritize such high-quality sources. This suggests that the failure likely occurred somewhere in the synthesis process, such as evaluating the quality of evidence, integrating high-quality ones, and communicating the evidence correctly. So what? Scientific conclusions are compressed decision-making tools. The optimistic view of AI agents is that they will help democratize expertise by synthesizing these scientific conclusions at scale in real-time. A clinician could quickly get up to speed on an unfamiliar condition. A patient, including someone like my own family member with back pain, could determine whether a treatment seems promising. A scientist could accelerate literature review and understand the frontiers of science. A policymaker could synthesize scientific conclusions before making a decision. The vision is compelling. However, our results suggest that current systems are not yet reliable enough to synthesize scientific conclusions, especially in high-stakes settings like health where even a single misleading answer can deeply impact stakeholders. These agents can generate seemingly competent conclusions that omit key information, include unsupported claims, or contradict expert reviews, creating the risk of patients, clinicians, scientists, and policymakers relying on conclusions that do not faithfully reflect the underlying evidence. Given that these tools are used hundreds of millions of times in health contexts, even modest error rates could translate into a substantial amount of misleading advice or unsafe answers in practice. Our findings suggest that these systems and their use in clinical settings deserve much greater public scrutiny. While AI agents provide real utility in health and science, we need to be much more precise about what they can and cannot do. With SciConBench, we hope to push agentic evaluation closer to an important real-world task we expect these systems to perform: synthesizing careful scientific conclusions from the open web. More broadly, we see this work as part of the measurement infrastructure needed for AI systems in high-stakes domains. If these systems are going to be used in medicine and science, we need stronger evaluations of the tasks people actually delegate to them, along with greater transparency from AI providers, including usage data and post-deployment monitoring. Without that transparency, it is difficult to know how often these errors happen in the real world, who is affected, and when they lead to harm. For now, our results suggest that we should treat these systems less like expert reviewers and more like fallible assistants: useful in some contexts, but requiring careful expert oversight, independent verification, and much stronger evaluation before they are trusted in high-stakes decisions. AI may one day help democratize expertise. But until then, ask a doctor or a scientist before letting the chatbot make the call. Interested in reading more? Check out our paper! Hayoung Jung is a Ph.D. student in computer science at Princeton University, co-advised by Manoel Horta Ribeiro and Aleksandra Korolova. His research broadly focuses on advancing inclusive AI technologies and online platforms to better serve society and communities often overlooked in system development. Drawing on an interdisciplinary background, Hayoung develops technical frameworks and methods grounded in social science theories, with two main goals: auditing AI systems and online platforms, and studying social phenomena such as community norms through language and online behavior. He completed his undergraduate degrees in computer science and political science, and his M.S. in computer science, at the University of Washington. https://arxiv.org/pdf/2606.11337