2024年首份大模型報(bào)告來了!近日發(fā)布的《大語言模型能力測評報(bào)告2024》通過3000多道測試題,對國內(nèi)外主流的10個(gè)大語言模型進(jìn)行了評測,結(jié)果顯示大模型行業(yè)也存在“馬太效應(yīng)”:一直處于領(lǐng)先地位的文心一言和ChatGPT繼續(xù)領(lǐng)跑中美大模型,且優(yōu)勢愈發(fā)明顯,進(jìn)一步拉開了與其他大模型的差距。
報(bào)告顯示,GPT-4以83.32%的綜合得分率位居第一,百度文心一言緊隨其后。文心一言82.9%的得分率與 ChatGPT 得分非常接近,僅僅相差 0.42%。大模型狂奔一年之后,國內(nèi)大模型產(chǎn)品格局已經(jīng)初步形成,頭部企業(yè)呈現(xiàn)了領(lǐng)先態(tài)勢。
InfoQ《大語言模型能力測評報(bào)告2024》:頭部企業(yè)呈現(xiàn)領(lǐng)先態(tài)勢,文心一言得分率接近 ChatGPT
2023 年下半年,國內(nèi)的大型模型已經(jīng)進(jìn)入了一個(gè)顯著的成長階段。不僅模型的數(shù)量呈現(xiàn)出爆炸式的增長趨勢,而且模型的質(zhì)量也在持續(xù)提升。
報(bào)告指出,在眾多國產(chǎn)大模型中,文心一言的綜合表現(xiàn)突出,不僅在中文語義理解、邏輯推理、代碼編寫、知識問答等基礎(chǔ)能力上領(lǐng)先,更在多模態(tài)處理等方面樹立了國產(chǎn)大語言模型的新標(biāo)桿。具體來看,在編程能力、邏輯能力、上下文能力、翻譯能力、文學(xué)寫作能力等9項(xiàng)評測維度中,文心一言拿下了其中的6項(xiàng)第一,在所有評測模型中處于絕對領(lǐng)先。
截至2023年12月31日,已有兩批超過20個(gè)大模型獲得相關(guān)備案批準(zhǔn),面向公眾開放。越來越多的國產(chǎn)大模型正進(jìn)入用戶的視野和認(rèn)知中。
最新統(tǒng)計(jì)數(shù)據(jù)顯示,在目前的市場上,GPT 系列大模型和百度文心大模型已經(jīng)穩(wěn)居第一梯隊(duì),受到了廣泛的關(guān)注和應(yīng)用。近半數(shù)的受訪開發(fā)者表示,他們了解或使用過這兩款模型,充分證明兩者在行業(yè)內(nèi)的領(lǐng)先地位和影響力。
公開資料也顯示,百度文心一言用戶規(guī)模已突破1億,自2023年8月31日率先獲準(zhǔn)開放對公眾提供服務(wù)以來,文心一言的用戶提問量一路上揚(yáng),越來越多的用戶在信任和使用文心一言。
開發(fā)者調(diào)研:開發(fā)者認(rèn)知心智梯隊(duì)形成,GPT系列大模型和百度文心大模型穩(wěn)居第一梯隊(duì)
報(bào)告認(rèn)為,未來大模型產(chǎn)品有望誕生新的超級應(yīng)用,企業(yè)級需求落地將成為2024年重要的行業(yè)⻛向。無論個(gè)人用戶市場,還是企業(yè)級市場,大模型產(chǎn)品的落地都需要強(qiáng)大的基礎(chǔ)大模型,將為AI原生應(yīng)用的爆發(fā)提供驅(qū)動(dòng)。百度文心大模型4.0、GPT-4等領(lǐng)先的大模型或?qū)⒊蔀樵絹碓蕉嘤脩艉推髽I(yè)的首選,進(jìn)行AI原生應(yīng)用的開發(fā)和場景落地。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...