楚雄缓粘结钢绞线 MMLU已死？「东说念主类后考试」登Nature：人人AI模子集体不足格！

116 2026-03-16 13:42

新智元报说念楚雄缓粘结钢绞线

剪辑：KingHZ

【新智元读】从德纳忌惮Claude解贫窭，到陶哲轩称GPT-5.2pro够发Nature数学博士……AI狂飙突进，却在「东说念主类后的考试」上集体哑火：分不外50，东说念主类还有多大安全区？

AI新闻圈，两全国震，三天颠覆，让你目不暇接、头昏脑胀！

或有夸大的地，但AI日月牙异、有目共睹！

「算法分析祖师爷」德纳见证了Claude科罚了说念难度算法题，发文连用两个「忌惮」（shock）。

数学陶哲轩晓喻GPT 5.2 Pro科罚了个数学Erdos贫窭且与之前东说念主类的解法不同，足以拿下数学博士学位了！

此前，有Claude Code激发的Vibe Coding忻悦。

至于各式遥远存在的基准测试，AI赢得异得益已不足为怪！

AI辩论东说念主员早已意志到问题：这些测试太简短了。

像大规模多任务谈话融会（MMLU）这类曾被视为难度颇的热点评测，如今已法有查考AI系统简直凿水平

问题在于：AI模子发展得如斯之快，基准测试正难以跟上其轨范，难以确保AI安全有。

在MMLU等热点基准测试中,大谈话模子的准确率现已过90，早已「足够」。

「东说念主类后的考试」的新AI测试基准，或者能提供科罚案。

各大LLM在不同基准上准确率的对比

近，这篇作名单巨长的论文，负责登上顶刊Nature!

贯穿：https://www.nature.com/articles/s41586-025-09962-4

天津市瑞通预应力钢绞线有限公司

趁便提句，Alexandr Wang还在Scale AI时，关系责任已发表在预印本平台Arxiv。

AI基准：测试，再测试

从能和安全等角度来看，测试大谈话模子有多种不同的法。

举例，在发布前，AI开采东说念主员会评估大谈话模子被用于坏心标的的粉碎技巧。

此外，还有些立组织对大谈话模子进行评估，比如评估大谈话模子被用于自主期骗软件破绽的风险。

关系词楚雄缓粘结钢绞线，这些测试频繁只涵盖窄小的学科域，或者只包含极少任务。

为了比拟模子而创建庸碌、轨范化基准的尝试包括MMLU，它使用梗概16000说念多项聘请题来测试模子的通用学问和科罚问题的技巧。

但很快，夙昔那些也曾很难的考试，当今对AI来说仍是变成了「送分题」。

为了弥补这差距，近1000名辩论东说念主员构成的人人定约创建了「东说念主类后的考试」（Humanity’s Last Exam，HLE。

该测试由AI安全中心CAIS和Scale AI的个团队开采，包含由人人辩论东说念主员提交的3000个具有挑战的问题，钢绞线厂家旨在成为估量大谈话模子技巧的终基准

这项基准测试遮蔽面广、挑战、植根于东说念主类学问，致使于现时强的AI准确率也不足50。

「东说念主类后的考试」共包含2500说念问题，涵盖数学、东说念主体裁科、天然科学、古代谈话以及度业化的子域。

问题学科散播

这些题目十分业：从翻译古代巴尔米拉铭文，到识别鸟类的显微剖解结构，再到分析圣经希伯来语发音的复杂特征。

每说念题齐过程了先AI模子的测试。如若有任何系统能答对，该题就会被剔除。终变成的是项过程尽心瞎想、恰公正于现时AI技巧规模以外的考试。

从7万到提交的贫窭中，精挑细选出了其中的2500说念题目

恶果也阐发了这点。

早期恶果显现，即使是的模子也举步维艰：

GPT-4o得分2.7；

Claude 3.5 Sonnet达到4.1；

OpenAI的旗舰模子o1仅赢得8的得益。

新基准为何进攻

德州农工大学盘算推算机科学与工程系的教学训诫Tung Nguyen，他参与了问题的撰写和完善责任。

他孝敬了2500说念公开考题中的73说念（孝敬量位居二），况且在数学和盘算推算机科学域撰写的题目数目多。

近，他共享了对「东说念主类后的考试」的念念考。

「当AI系统运转在东说念主类设定的基准测试中阐述得为出时，东说念主们很容易以为它们正在接近东说念主类水平的融会力，」Tung Nguyen说说念。

但HLE指示咱们，智能不单是是形状识别——它关乎度、配景和业化的学问。

这个考试的标的并斥责倒东说念主类。而是要精准、系统地揭示出AI面前——至少是现阶段——还法作念到的事情。

贯穿：lastexam.ai

Tung Nguyen暴露，AI越传统基准的问题远学术层面。

「如若莫得准确的评估器具，策略制定者、开采者和用户就可能歪曲AI系统的推行技巧，」他说。「基准测试为估量进展和识别风险提供了基础。」

正如团队论文所指出的，天然AI可能在为东说念主类瞎想的考试中阐述出，但这些测试不定在估量「智能」。

尽管名字听起来有点「末日」感，但「东说念主类后的考试」并非意在暴露东说念主类进攻的罢了。

相悖，它凸显了仍有多半学问是二地属于东说念主类的，以及AI还需要走多远。

Tung Nguyen坦言：「这个名字有点半开打趣的意味」。

进攻的是背后的理念：

这是东说念主类对AI的缔造的后说念难关。如若AI能通过这项考试，就意味着它达到了某种业化的东说念主类水平，而这在以前被以为是机器不成能作念到的。

因为HLE涵盖了从核物理到古代史的总共域，是以没东说念主能通过单斗的通过通盘考试。

关系词，特定域的东说念主类不错大意回话其业域内的问题，而AI在简直总共类别上齐失败了。

为什么AI还会失败？

原因在于AI擅长形状识别和纪念已知数据，但它难以处理度、业化的配景学问。

HLE提议的问题需要多年的门辩论。在这些问题上，基于常见互联网数据的「估计」行欠亨。

参考贵寓：

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

相关词条:玻璃棉毡塑料挤出机预应力钢绞线铁皮保温万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述楚雄缓粘结钢绞线，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

念主类考试疑似 MMLU

推荐资讯

楚雄缓粘结钢绞线 MMLU已死？「东说念主类后考试」登Nature：人人AI模子集体不足格！

沧锚索厂中华保障：任命刘元章为董事长

保亭预应力钢绞线厂樊振东再现熊猫趴桌趣味瞬间

乌兰察布预应力钢绞线价格十万混动轿怎么选？荣威M7 DMH

楚雄缓粘结钢绞线 MMLU已死？「东说念主类后考试」登Nature：人人AI模子集体不足格！

沧锚索厂 中华保障：任命刘元章为董事长

保亭预应力钢绞线厂 樊振东再现熊猫趴桌趣味瞬间

乌兰察布预应力钢绞线价格 十万混动轿怎么选？荣威M7 DMH

沧锚索厂中华保障：任命刘元章为董事长

保亭预应力钢绞线厂樊振东再现熊猫趴桌趣味瞬间

乌兰察布预应力钢绞线价格十万混动轿怎么选？荣威M7 DMH