智源最新模型評測：百度文心大模型4.0登頂閉源榜

2024-06-19 10:32

來源：經(jīng)濟參考網(wǎng)

近日，由北京智源研究院打造的FlagEval天秤大模型評測平臺實現(xiàn)了全面升級，并公布202406期FlagEval模型評測排行榜單。最新一期榜單顯示，百度文心大模型4.0以89.72的綜合評分在閉源對話模型中排名第一。

FlagEval大語言模型評測能力榜單官網(wǎng)截圖

FlagEval天秤大模型評測平臺是智源研究院推出的科學、權(quán)威、公正、開放的大模型評測體系，自2023年發(fā)布以來，已從主要面向語言模型擴展到視頻、語音、多模態(tài)模型，實現(xiàn)多領域全覆蓋，目前已評測國內(nèi)外300余個開源和商業(yè)閉源的語言及多模態(tài)大模型。資料顯示，F(xiàn)lagEval大語言模型評測體系當前包含6大評測任務，近30個評測數(shù)據(jù)集，超10萬道評測題目。

FlagEval大語言模型評測能力榜單官網(wǎng)截圖

從榜單中可以看到，百度文心大模型4.0以89.72的綜合評分在閉源對話模型中排名第一，云雀2-Pro、豆包、GPT-4o分別位居二三四位，百川、零一萬物、kimi等追隨其后。

日前，國際數(shù)據(jù)公司IDC發(fā)布的《中國大模型市場主流產(chǎn)品評估，2024》中，百度同樣位于第一梯隊。評測顯示，百度旗下生成式AI產(chǎn)品文心一言和文心一格在問答理解類、推理類、創(chuàng)作表達類、數(shù)學類、代碼類的基礎能力，toC通用場景類、toB特定行業(yè)類的應用能力等7大維度均具備領先優(yōu)勢。其他評測廠商中，阿里獲6項優(yōu)勢維度，OpenAI GPT-4和商湯分獲5項。

IDC《中國大模型市場主流產(chǎn)品評估，2024》

公開資料顯示，2023年10月，百度文心大模型4.0正式發(fā)布，實現(xiàn)了基礎模型的全面升級，在理解、生成、邏輯和記憶能力上明顯提升。截至目前，文心一言累計用戶規(guī)模已達2億，日均調(diào)用量也達到了2億。（李妍）

責任編輯：孔德明

97人妻碰碰照片免费上线_欧美在线中文字幕乱码_无码欧美精品第一页_久久亚洲精品国产亚洲老地址_69久久

智源最新模型評測：百度文心大模型4.0登頂閉源榜

熱門推薦

2025年《半月談》

2025年《半月談內(nèi)部版》

2025年《時事資料手冊》

2025年《品讀》

97人妻碰碰照片免费上线_欧美在线中文字幕乱码_无码 欧美精品第一页_久久亚洲精品国产亚洲老地址_69久久

智源最新模型評測：百度文心大模型4.0登頂閉源榜

熱門推薦

2025年《半月談》

2025年《半月談內(nèi)部版》

2025年《時事資料手冊》

2025年《品讀》

97人妻碰碰照片免费上线_欧美在线中文字幕乱码_无码欧美精品第一页_久久亚洲精品国产亚洲老地址_69久久