首個AI高考全卷評測結果發布:最高分303 數學全不及格
來源:快科技 編輯:非小米 時間:2024-06-19 17:30人閱讀
快科技6月19日消息,據媒體報道,上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考“語數外”全卷能力測試。OpenCompass發布了首個大模型高考全卷評測結果。
在滿分420分的三科測試中,阿里通義千問2-72B以303分的成績拔得頭籌,緊隨其后的是OpenAI的GPT-4o,獲得296分,而上海人工智能實驗室的書生·浦語2.0位列第三。
這三大模型的得分率均超過了70%,展現了不俗的實力。相比之下,來自法國大模型初創公司的Mistral則排名末尾。
參與此次評測的模型來源廣泛,包括阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模型,以及OpenAI的閉源模型GPT-4o。
為確保公平,實驗室特別指出,由于無法確定閉源模型的更新時間,評測中僅將GPT-4o作為參考,并未納入商用閉源模型。同時,所有參與評測的模型均在高考前(2024年4月-6月)開源,有效避免了“刷題風險”。
從評測結果來看,大模型在語文和英語方面的表現普遍較好,但在數學方面則普遍不及格。最高分僅為75分,由書生·浦語2.0獲得,緊隨其后的是GPT-4o的73分。語文方面,通義千問表現出色,而英語則由GPT-4o領跑。
數學成績的不理想凸顯出大模型在復雜推理能力方面的不足。這一能力是金融、工業等要求可靠場景落地所需的關鍵能力,也是大模型未來發展的重要方向。
分享到:
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com




