

【新智元導(dǎo)讀】史上最強模型 Claude Opus 4.5 發(fā)布后,全面碾壓了人類頂尖工程師,逼得 Anthropic 不得不被迫放棄招聘筆試!現(xiàn)在,內(nèi)部考題已經(jīng)全面開源了。
就在剛剛,人類程序員最后的堡壘崩塌了。
曾經(jīng),Anthropic 為自己應(yīng)聘者準備了一份出了名困難的考題,讓他們在家完成。
這份考題一直效果不錯,直到 Claude Opus 4.5 的出現(xiàn)。
有了這個史上最強模型的加持,人類應(yīng)聘者輕松做出各種考題,因而這份考卷也就失效了。
今天,因為無法再通過傳統(tǒng)技術(shù)筆試篩選人才,Anthropic 被迫開源了舊版試題,并且向全世界求助:有沒有辦法,讓我們真正測試出人類的編程能力?

作為告別,Anthropic 選擇將把最初版本的測試題發(fā)布,作為一個面向大眾的公開挑戰(zhàn)。

地址:https://github.com/anthropics/original_performance_takehome
在這個測試題中,候選人需要逐步進行多核并行優(yōu)化、SIMD 向量化、VLIW 指令打包優(yōu)化,并用 Perfetto trace 做分析。

上下滑動查看
他們依然相信:在無限時間下,最強人類依然能超越 Claude 的極限。
同時他們強調(diào):如果哪個人類能擊敗 Claude Opus 4.5,請務(wù)必聯(lián)系 Anthropic!
剛剛,Claude Opus 4.5 把我們的筆試題秒了
在 AI 時代,究竟該如何進行軟件工程師的面試?
Anthropic 在這篇博客里,進行了細致的探索。

博客地址:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations
要知道,曾經(jīng) Anthropic 有一套完美的篩選考題。
可隨著 AI 能力的指數(shù)級提升,今天還能完美區(qū)分菜鳥和大神的試題,明天就可能被新模型秒殺,這套考題就瞬間失去意義了!
比如,自 2024 年初,他們的性能工程團隊一直在用下面這套題:要求候選人為一個模擬加速器優(yōu)化代碼。
這套題在 1000 多名面試者中,篩出了幾十個最頂尖的工程師。正是這些人,點亮了 Anthropic 的 Trainium 集群,發(fā)布了從 Claude 3 Opus 至今的每一個模型。
結(jié)果,每個新版本的 Claude,都在讓這套題失效!
同樣的時間里,Claude Opus 4 已經(jīng)優(yōu)于大多數(shù)人類申請者,Anthropic 勉強還能篩出最強的人類。
結(jié)果 Claude Opus 4.5 的橫空出世,直接追平了最強人類天花板!
如果給無限的時間,人類或許還能險勝,但在面試時間限制下,已經(jīng)根本無法區(qū)分誰是頂尖候選人,誰是最強模型了。
為此,Anthropic 已經(jīng)把這套題迭代了三個版本,甚至越來越「劍走偏鋒」。
這套測試的誕生
2023 年 11 月,Anthropic 正準備發(fā)布 Claude Opus 3。
新的 TPU 和 GPU 集群就位,樂魚體育官方網(wǎng)站大 Trainium 集群即將上線,公司在算力上的投入是過去的數(shù)倍,但性能工程師卻嚴重緊缺。
為此,Anthropic 公司績效優(yōu)化團隊負責(zé)人 Tristan Hume 在 Twitter 上發(fā)帖求賢,雖然收到了大量簡歷,但標準的面試流程太耗時了。

于是,他花了兩個星期設(shè)計了一個 Take-home 測試,從而精準識別出真正硬核的候選人。
設(shè)計初衷
為了做出一個好玩的、能讓候選人興奮的東西,并且能以「高分辨率」掃描他們的技術(shù)實力,Tristan Hume 做了精心設(shè)計。
相比現(xiàn)場面試,這種形式在評估性能工程技能上更有優(yōu)勢:
時間更充裕:4 小時(后改為 2 小時)的窗口比 50 分鐘的面試更能反映真實工作狀態(tài)。
環(huán)境更真實:沒有面試官盯著,候選人在自己的編輯器里干活,零干擾。
深度考察:性能優(yōu)化需要理解系統(tǒng)、造工具,這在短面試里很難體現(xiàn)。
兼容 AI 輔助:明確允許使用 AI。因為對于長線難題,AI 很難直接給出完美解。
另外,Tristan 還構(gòu)建了一個 Python 模擬器,模擬了一個具有 TPU 特征的假加速器。
候選人需要優(yōu)化在這臺機器上運行的代碼,并通過一個支持熱重載的 Perfetto trace 來觀察執(zhí)行過程,該 trace 會展示每一條指令,效果類似公司在 Trainium 上使用的工具鏈。

這臺模擬機器包含了一些讓加速器優(yōu)化變得很有挑戰(zhàn)性的特性,包括:
手動管理的 scratchpad 內(nèi)存(不同于 CPU,加速器通常需要顯式進行內(nèi)存管理)
VLIW 架構(gòu)(每個周期可以并行運行多個執(zhí)行單元,金沙電玩城需要高效地進行指令打包)
SIMD(一條指令同時對多個數(shù)據(jù)元素進行向量化運算)
多核架構(gòu)(需要將工作負載合理地分配到多個核心上)
這些硬核要素,都讓底層優(yōu)化變得更有趣。

這個任務(wù)是一個并行的樹遍歷問題,刻意設(shè)計成不帶深度學(xué)習(xí)背景的形式,因為大多數(shù)性能工程師并沒有做過深度學(xué)習(xí)工作,具體知識可以在入職后再學(xué)習(xí)。
該問題的靈感來自于無分支的 SIMD 決策樹推理——這是一個經(jīng)典的機器學(xué)習(xí)優(yōu)化挑戰(zhàn)。
候選人一開始拿到的是一個完全串行的實現(xiàn),需要逐步挖掘并利用這臺機器的并行能力。
早期戰(zhàn)果:它曾完美工作
最初的效果非常好。
一位得分遙遙領(lǐng)先的候選人入職后,立即開始優(yōu)化算子,并解決了一個阻礙發(fā)布的編譯器 Bug。
在之后的一年半里,這套題幫忙組建了核心團隊,甚至發(fā)掘了幾位本科剛畢業(yè)但實力超群的天才。
許多候選人甚至因為覺得太好玩,在超時后還在繼續(xù)優(yōu)化。最強的一份提交,甚至包含了一個完整的迷你優(yōu)化編譯器。
第一輪崩潰:Claude Opus 4 進場
到了 25 年 5 月,Claude 3.7 Sonnet 已經(jīng)進化到讓一半的候選人只要把題丟給它,就能拿高分。
隨后,Tristan 用 Claude Opus 4 的預(yù)發(fā)布版本試了一下。結(jié)果令人絕望:在 4 小時內(nèi),它的代碼比幾乎所有人類都要好。
這并非他第一次被 Claude 擊敗。早在 2023 年,Claude 3 Opus 和 3.5 Sonnet 就先后攻破了他們精心準備的現(xiàn)場面試題。
對于這次崩潰,Tristan 做了緊急修復(fù):既然問題深度不夠,那就加碼。他重寫了啟動代碼,增加了機器特性的復(fù)雜度,并把時間縮短到 2 小時。
第二版?zhèn)戎乜疾烨擅畹膬?yōu)化洞察力,而非單純的代碼量。這招奏效了——但是,也只撐了幾個月而已。
第二輪崩潰:Claude Opus 4.5 的降維打擊
后來,當 Tristan 拿到 Claude Opus 4.5 的預(yù)發(fā)布版本時,他眼睜睜看著 Claude Code 跑了 2 小時。它像個老練的工程師,先解決了初始瓶頸,搞定了所有常規(guī)微優(yōu)化。
{jz:field.toptypename/}然后它卡住了,遇到了一個看似不可逾越的內(nèi)存帶寬瓶頸——大多數(shù)人類也卡在這里。但當它提示「理論極限」時,它思考片刻,竟然找到了那個只有極少數(shù)人類能發(fā)現(xiàn)的巧妙技巧。
最終,它的得分與人類歷史最高紀錄持平(而那個人類考生還是在重度依賴 Claude 4 的情況下完成的)。

更可怕的是,Anthropic 在內(nèi)部的「測試時計算」框架中驗證發(fā)現(xiàn),它不僅能在 2 小時內(nèi)擊敗人類,甚至隨著思考時間的增加,分數(shù)還在不斷上漲。
大麻煩來了:即將發(fā)布的模型,將徹底摧毀公司招聘這個模型開發(fā)者的測試題。所以,他們只能采用這個策略——把工作直接外包給 Claude Code。
艱難的抉擇
有人建議禁止 AI,但 Tristan 并未采納。因為在真實工作中,人類就是需要和 AI 協(xié)作。
也有人建議提高及格線,但這會導(dǎo)致候選人淪為 AI 的看客,甚至因跟不上 AI 的思路而不知所措。
性能工程師的真實工作其實更多是艱難的調(diào)試、系統(tǒng)設(shè)計、分析,以及讓 AI 生成的代碼更優(yōu)雅。這些很難通過客觀測試來考察。
到底該怎樣設(shè)計一個「像真實工作」的面試題?這個任務(wù)從未如此艱難。
嘗試 1:換個題型?被秒殺
首先,Tristan 試圖設(shè)計一個更難的內(nèi)核優(yōu)化問題:2D TPU 寄存器上的高效數(shù)據(jù)轉(zhuǎn)置,且要避免 Bank 沖突。這是一個非常棘手的真實難題。


然而,Claude Opus 4.5 發(fā)現(xiàn)了一個他都沒想到的絕佳優(yōu)化路徑:它重寫了整個計算過程,直接繞過了轉(zhuǎn)置的難點。即便他修補了漏洞,Claude Code 配合深度思考(Ultrathink)功能,依然能找出修復(fù) Bank 沖突的技巧。
這讓他意識到,這類問題在已有代碼庫中太常見,Claude 已經(jīng)擁有了海量的訓(xùn)練數(shù)據(jù)「經(jīng)驗」。
嘗試 2:變得更古怪
既然「真實」行不通,他只能追求「分布外(Out of distribution)」——即 AI 沒見過的數(shù)據(jù)。
他想到了 Zachtronics 的編程解謎游戲。這類游戲使用極度受限的指令集,迫使你用非傳統(tǒng)方式編程。



于是,他設(shè)計了一套全新的測試:使用微小且極度受限的指令集,目標是指令數(shù)最小化。沒有可視化工具,沒有調(diào)試器——候選人必須自己造工具(比如讓 AI 生成調(diào)試器)。
他把這套題丟給 Claude Opus 4.5,它終于失敗了。
這套新題效果不錯,分數(shù)與候選人的實際能力高度相關(guān)。但 Tristan 心中仍有遺憾:他們放棄了原版試題的「真實感」和「多樣性深度」。
但這或許就是代價。
「真實感」已經(jīng)成為了奢侈品。原版試題之所以有效,因為它像以前的工作;現(xiàn)在的試題之所以有效,因為它模擬了一個全新的、AI 尚未涉足的領(lǐng)域。
公開向人類挑戰(zhàn):原版測試題開源!
最終,Anthropic 宣布:將原版測試題開源。雖然 Claude 很強,但在無限時間下,人類專家的極限仍高于 AI。

目前,Claude 的戰(zhàn)績?nèi)缦拢ㄖ芷跀?shù)越低越好):
2164:Claude Opus 4
1790:Claude Opus 4.5(隨手一跑)
1487:Claude Opus 4.5(11.5 小時超長思考后)
1363:Claude Opus 4.5(改進框架后)
Tristan 表示:如果你能優(yōu)化到1487 周期以下,擊敗 Claude 的最佳表現(xiàn),請一定聯(lián)系他們!
同時,他也歡迎大家通過常規(guī)流程申請,體驗一下人類要靠多久才能被攻破的「防 Claude」新考題。

備案號: