Copyright 2017-2025 北方報 版權所有 京ICP備16071829-1號
OpenAI發布最新研究,卻在里面夸了一波Claude。
他們提出名為GDPval的新基準,用來衡量AI模型在真實世界具有經濟價值的任務上的表現。
具體來說,GDPval覆蓋了對美國GDP貢獻最大的9個行業中的44種職業,這些職業年均創收合計達3萬億美元。任務基于平均擁有14年經驗的行業專家的代表性工作設計而成。
專業評分人員將主流模型的輸出結果與人類專家的成果進行了對比。
最終測試下來,Claude Opus 4.1成為表現最佳的模型,47.6%的產出被評定媲美人類專家成果
GPT-5 38.8%的成績和Claude還是有些差距,位居第二;GPT-4o與人類相比只有12.4%獲勝或平局。
沒能成為最優,OpenAI也給自己找補了:不同模型各有優勢,Claude Opus 4.1主要是在美學方面突出,而GPT-5在準確性上更優
OpenAI還表示,同樣值得注意的是模型的進步速度,其前沿模型在短短一年內,勝率幾乎實現了翻倍。
最后OpenAI還開源了包含220項任務的優質子集,并提供公開的自動評分服務。
網友看后紛紛表示,非常因吹斯汀的研究:
OpenAI各代模型的性能呈線性增長,以及感謝對競爭對手的認可。
還有網友認為,這也可能是奧特曼精心設計的宣傳手段,通過吹噓AI能為GDP帶來增長而籌集資金。
下面具體來看一下這項測試。
測試AI的“掙錢”能力
OpenAI指出,GDPval相比現有的AI評估,好就好在:
任務基于真實工作成果且關聯完成時間與成本,具備現實性;
涵蓋O*NET(美國職業信息網絡)追蹤的大部分職業工作活動,具有代表性廣度
任務要求處理多種格式文件并解析多個參考文件,涉及計算機使用與多模態;
除了正確性還需考慮結構、風格等主觀因素,數據集也可作為評估自動評分系統性能的測試平臺;
勝率為主要指標無上限,支持持續評估;
任務難度高,行業專業人士平均需7小時完成,復雜任務甚至耗時數周。
其任務構建流程,首先從確定核心行業與職業入手。
OpenAI先是篩選出了對美國GDP貢獻超5%的9個行業(依據2024年第二季度各行業增加值占美國國內生產總值百分比數據),再在每個行業內挑選5個貢獻工資總額最多且以數字任務為主的職業。
判斷職業是否“以數字任務為主”時,參考ONET中該職業的所有任務,借助GPT-4o對任務按“數字/非數字”分類,結合ONET中任務的相關性、重要性和頻率得分加權計算,若60%以上任務為數字任務,則將該職業納入。
最終OpenAI篩選出了44個職業,這些職業合計年創收3萬億美元