国产一区无码,91九色麻豆,最新成人蜜桃网

金沙電玩app 剛剛，Anthropic內(nèi)部考題開源！年薪百萬工程師，被AI秒了

發(fā)布日期：2026-01-25 12:46 點擊次數(shù)：76

金沙電玩app 剛剛，Anthropic內(nèi)部考題開源！年薪百萬工程師，被AI秒了

【新智元導(dǎo)讀】史上最強模型 Claude Opus 4.5 發(fā)布后，全面碾壓了人類頂尖工程師，逼得 Anthropic 不得不被迫放棄招聘筆試！現(xiàn)在，內(nèi)部考題已經(jīng)全面開源了。

就在剛剛，人類程序員最后的堡壘崩塌了。

曾經(jīng)，Anthropic 為自己應(yīng)聘者準備了一份出了名困難的考題，讓他們在家完成。

這份考題一直效果不錯，直到 Claude Opus 4.5 的出現(xiàn)。

有了這個史上最強模型的加持，人類應(yīng)聘者輕松做出各種考題，因而這份考卷也就失效了。

今天，因為無法再通過傳統(tǒng)技術(shù)筆試篩選人才，Anthropic 被迫開源了舊版試題，并且向全世界求助：有沒有辦法，讓我們真正測試出人類的編程能力？

作為告別，Anthropic 選擇將把最初版本的測試題發(fā)布，作為一個面向大眾的公開挑戰(zhàn)。

地址：https://github.com/anthropics/original_performance_takehome

在這個測試題中，候選人需要逐步進行多核并行優(yōu)化、SIMD 向量化、VLIW 指令打包優(yōu)化，并用 Perfetto trace 做分析。

上下滑動查看

他們依然相信：在無限時間下，最強人類依然能超越 Claude 的極限。

同時他們強調(diào)：如果哪個人類能擊敗 Claude Opus 4.5，請務(wù)必聯(lián)系 Anthropic！

剛剛，Claude Opus 4.5 把我們的筆試題秒了

在 AI 時代，究竟該如何進行軟件工程師的面試？

Anthropic 在這篇博客里，進行了細致的探索。

博客地址：https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

要知道，曾經(jīng) Anthropic 有一套完美的篩選考題。

可隨著 AI 能力的指數(shù)級提升，今天還能完美區(qū)分菜鳥和大神的試題，明天就可能被新模型秒殺，這套考題就瞬間失去意義了！

比如，自 2024 年初，他們的性能工程團隊一直在用下面這套題：要求候選人為一個模擬加速器優(yōu)化代碼。

這套題在 1000 多名面試者中，篩出了幾十個最頂尖的工程師。正是這些人，點亮了 Anthropic 的 Trainium 集群，發(fā)布了從 Claude 3 Opus 至今的每一個模型。

結(jié)果，每個新版本的 Claude，都在讓這套題失效！

同樣的時間里，Claude Opus 4 已經(jīng)優(yōu)于大多數(shù)人類申請者，Anthropic 勉強還能篩出最強的人類。

結(jié)果 Claude Opus 4.5 的橫空出世，直接追平了最強人類天花板！

如果給無限的時間，人類或許還能險勝，但在面試時間限制下，已經(jīng)根本無法區(qū)分誰是頂尖候選人，誰是最強模型了。

為此，Anthropic 已經(jīng)把這套題迭代了三個版本，甚至越來越「劍走偏鋒」。

這套測試的誕生

2023 年 11 月，Anthropic 正準備發(fā)布 Claude Opus 3。

新的 TPU 和 GPU 集群就位，樂魚體育官方網(wǎng)站大 Trainium 集群即將上線，公司在算力上的投入是過去的數(shù)倍，但性能工程師卻嚴重緊缺。

為此，Anthropic 公司績效優(yōu)化團隊負責(zé)人 Tristan Hume 在 Twitter 上發(fā)帖求賢，雖然收到了大量簡歷，但標準的面試流程太耗時了。

于是，他花了兩個星期設(shè)計了一個 Take-home 測試，從而精準識別出真正硬核的候選人。

設(shè)計初衷

為了做出一個好玩的、能讓候選人興奮的東西，并且能以「高分辨率」掃描他們的技術(shù)實力，Tristan Hume 做了精心設(shè)計。

相比現(xiàn)場面試，這種形式在評估性能工程技能上更有優(yōu)勢：

時間更充裕：4 小時（后改為 2 小時）的窗口比 50 分鐘的面試更能反映真實工作狀態(tài)。

環(huán)境更真實：沒有面試官盯著，候選人在自己的編輯器里干活，零干擾。

深度考察：性能優(yōu)化需要理解系統(tǒng)、造工具，這在短面試里很難體現(xiàn)。

兼容 AI 輔助：明確允許使用 AI。因為對于長線難題，AI 很難直接給出完美解。

另外，Tristan 還構(gòu)建了一個 Python 模擬器，模擬了一個具有 TPU 特征的假加速器。

候選人需要優(yōu)化在這臺機器上運行的代碼，并通過一個支持熱重載的 Perfetto trace 來觀察執(zhí)行過程，該 trace 會展示每一條指令，效果類似公司在 Trainium 上使用的工具鏈。

這臺模擬機器包含了一些讓加速器優(yōu)化變得很有挑戰(zhàn)性的特性，包括：

手動管理的 scratchpad 內(nèi)存（不同于 CPU，加速器通常需要顯式進行內(nèi)存管理）

VLIW 架構(gòu)（每個周期可以并行運行多個執(zhí)行單元，金沙電玩城需要高效地進行指令打包）

SIMD（一條指令同時對多個數(shù)據(jù)元素進行向量化運算）

多核架構(gòu)（需要將工作負載合理地分配到多個核心上）

這些硬核要素，都讓底層優(yōu)化變得更有趣。

這個任務(wù)是一個并行的樹遍歷問題，刻意設(shè)計成不帶深度學(xué)習(xí)背景的形式，因為大多數(shù)性能工程師并沒有做過深度學(xué)習(xí)工作，具體知識可以在入職后再學(xué)習(xí)。

該問題的靈感來自于無分支的 SIMD 決策樹推理——這是一個經(jīng)典的機器學(xué)習(xí)優(yōu)化挑戰(zhàn)。

候選人一開始拿到的是一個完全串行的實現(xiàn)，需要逐步挖掘并利用這臺機器的并行能力。

早期戰(zhàn)果：它曾完美工作

最初的效果非常好。

一位得分遙遙領(lǐng)先的候選人入職后，立即開始優(yōu)化算子，并解決了一個阻礙發(fā)布的編譯器 Bug。

在之后的一年半里，這套題幫忙組建了核心團隊，甚至發(fā)掘了幾位本科剛畢業(yè)但實力超群的天才。

許多候選人甚至因為覺得太好玩，在超時后還在繼續(xù)優(yōu)化。最強的一份提交，甚至包含了一個完整的迷你優(yōu)化編譯器。

第一輪崩潰：Claude Opus 4 進場

到了 25 年 5 月，Claude 3.7 Sonnet 已經(jīng)進化到讓一半的候選人只要把題丟給它，就能拿高分。

隨后，Tristan 用 Claude Opus 4 的預(yù)發(fā)布版本試了一下。結(jié)果令人絕望：在 4 小時內(nèi)，它的代碼比幾乎所有人類都要好。

這并非他第一次被 Claude 擊敗。早在 2023 年，Claude 3 Opus 和 3.5 Sonnet 就先后攻破了他們精心準備的現(xiàn)場面試題。

對于這次崩潰，Tristan 做了緊急修復(fù)：既然問題深度不夠，那就加碼。他重寫了啟動代碼，增加了機器特性的復(fù)雜度，并把時間縮短到 2 小時。

第二版?zhèn)戎乜疾烨擅畹膬?yōu)化洞察力，而非單純的代碼量。這招奏效了——但是，也只撐了幾個月而已。

第二輪崩潰：Claude Opus 4.5 的降維打擊

后來，當 Tristan 拿到 Claude Opus 4.5 的預(yù)發(fā)布版本時，他眼睜睜看著 Claude Code 跑了 2 小時。它像個老練的工程師，先解決了初始瓶頸，搞定了所有常規(guī)微優(yōu)化。

{jz:field.toptypename/}

然后它卡住了，遇到了一個看似不可逾越的內(nèi)存帶寬瓶頸——大多數(shù)人類也卡在這里。但當它提示「理論極限」時，它思考片刻，竟然找到了那個只有極少數(shù)人類能發(fā)現(xiàn)的巧妙技巧。

最終，它的得分與人類歷史最高紀錄持平（而那個人類考生還是在重度依賴 Claude 4 的情況下完成的）。

更可怕的是，Anthropic 在內(nèi)部的「測試時計算」框架中驗證發(fā)現(xiàn)，它不僅能在 2 小時內(nèi)擊敗人類，甚至隨著思考時間的增加，分數(shù)還在不斷上漲。

大麻煩來了：即將發(fā)布的模型，將徹底摧毀公司招聘這個模型開發(fā)者的測試題。所以，他們只能采用這個策略——把工作直接外包給 Claude Code。

艱難的抉擇

有人建議禁止 AI，但 Tristan 并未采納。因為在真實工作中，人類就是需要和 AI 協(xié)作。

也有人建議提高及格線，但這會導(dǎo)致候選人淪為 AI 的看客，甚至因跟不上 AI 的思路而不知所措。

性能工程師的真實工作其實更多是艱難的調(diào)試、系統(tǒng)設(shè)計、分析，以及讓 AI 生成的代碼更優(yōu)雅。這些很難通過客觀測試來考察。

到底該怎樣設(shè)計一個「像真實工作」的面試題？這個任務(wù)從未如此艱難。

嘗試 1：換個題型？被秒殺

首先，Tristan 試圖設(shè)計一個更難的內(nèi)核優(yōu)化問題：2D TPU 寄存器上的高效數(shù)據(jù)轉(zhuǎn)置，且要避免 Bank 沖突。這是一個非常棘手的真實難題。

然而，Claude Opus 4.5 發(fā)現(xiàn)了一個他都沒想到的絕佳優(yōu)化路徑：它重寫了整個計算過程，直接繞過了轉(zhuǎn)置的難點。即便他修補了漏洞，Claude Code 配合深度思考（Ultrathink）功能，依然能找出修復(fù) Bank 沖突的技巧。

這讓他意識到，這類問題在已有代碼庫中太常見，Claude 已經(jīng)擁有了海量的訓(xùn)練數(shù)據(jù)「經(jīng)驗」。

嘗試 2：變得更古怪

既然「真實」行不通，他只能追求「分布外（Out of distribution）」——即 AI 沒見過的數(shù)據(jù)。

他想到了 Zachtronics 的編程解謎游戲。這類游戲使用極度受限的指令集，迫使你用非傳統(tǒng)方式編程。

于是，他設(shè)計了一套全新的測試：使用微小且極度受限的指令集，目標是指令數(shù)最小化。沒有可視化工具，沒有調(diào)試器——候選人必須自己造工具（比如讓 AI 生成調(diào)試器）。

他把這套題丟給 Claude Opus 4.5，它終于失敗了。

這套新題效果不錯，分數(shù)與候選人的實際能力高度相關(guān)。但 Tristan 心中仍有遺憾：他們放棄了原版試題的「真實感」和「多樣性深度」。

但這或許就是代價。

「真實感」已經(jīng)成為了奢侈品。原版試題之所以有效，因為它像以前的工作；現(xiàn)在的試題之所以有效，因為它模擬了一個全新的、AI 尚未涉足的領(lǐng)域。

公開向人類挑戰(zhàn)：原版測試題開源！

最終，Anthropic 宣布：將原版測試題開源。雖然 Claude 很強，但在無限時間下，人類專家的極限仍高于 AI。

目前，Claude 的戰(zhàn)績?nèi)缦拢ㄖ芷跀?shù)越低越好）：

2164：Claude Opus 4

1790：Claude Opus 4.5（隨手一跑）

1487：Claude Opus 4.5（11.5 小時超長思考后）

1363：Claude Opus 4.5（改進框架后）

Tristan 表示：如果你能優(yōu)化到1487 周期以下，擊敗 Claude 的最佳表現(xiàn)，請一定聯(lián)系他們！

同時，他也歡迎大家通過常規(guī)流程申請，體驗一下人類要靠多久才能被攻破的「防 Claude」新考題。

三级片区-三级片日本韩级日日爱-三级片视频-三级片下载地址-三级片迅雷下载-三级片在线观看-三级片在线观看中文-三级片在线看-三级全大电影-三级全黄a