9.11和9.9哪個更大?一道小學(xué)生都會的數(shù)學(xué)題,卻難倒了一眾AI大模型。昨天,“大模型測不出9.11和9.9哪個大”還登上了微博熱搜。
這個難倒大多數(shù)AI大模型的數(shù)學(xué)題,其實來自于最近熱播的《歌手》。
7月13日,在最新一期《歌手》公布的排名中,國內(nèi)歌手孫楠與外國歌手香緹莫的得票率分別是13.8%和13.11%。這個得票數(shù)統(tǒng)計引發(fā)了一些網(wǎng)友對排名的質(zhì)疑。
有網(wǎng)友認為13.11%大于13.8%,因此,香緹莫的得票率比孫楠高。
隨后,關(guān)于13.8%和13.11%大小比較,一度成了網(wǎng)絡(luò)上的熱門話題。當(dāng)時也有網(wǎng)友提出,“實在不行問問AI”。
有趣的是,這道題AI大模型也不太會。有媒體記者測試了12個國內(nèi)外主流大模型,其中,一半模型答錯了,認為9.11大于9.9。橙柿互動記者們也好奇地提問了幾家AI大模型。結(jié)果發(fā)現(xiàn),有不少AI模型回答是錯的,還有一些AI在答題時不太穩(wěn)定。
比如昨天下午,當(dāng)我的兩位同事向kimi提出這個問題時,其中一位同事的kimi答案時對時錯,且反應(yīng)“冷淡”。而另外一位同事的kimi舉例分析得十分在理,直觀且很好理解。同樣的問題詢問了通義千問、文心一言、訊飛星火等AI模型,大部分AI回答正確并給出了詳細的答題過程。
為什么一道小學(xué)數(shù)學(xué)題難倒了部分AI大模型?
昨天上午,通義實驗室產(chǎn)品經(jīng)理王曉明看到這則熱搜和網(wǎng)友們的評論,第一反應(yīng)是并不覺得奇怪,更像是網(wǎng)友玩的一個“花活”。王曉明說,大語言模型雖然在語言和文本類型的任務(wù)里能超越人類普通平均水平,但對于數(shù)學(xué)、物理這種強調(diào)邏輯性的任務(wù)短板比較明顯。
也就是說,現(xiàn)在的大模型其實更像一個文科生。
“簡單來說,大模型不會把這個問題像人類一樣,當(dāng)作一個比大小的題目!
王曉明說,大模型的本質(zhì)是通過提示詞,也就是提的問題,對下一個詞進行預(yù)測,而不是做算術(shù)計算。這個跟平時的訓(xùn)練數(shù)據(jù)和大模型配置有關(guān)。
所以在處理“9.11和9.9哪個更大”這樣的對話場景時,大模型不像人類,不會天然地把這個問題視作算數(shù)比大小的題目,可能會把這當(dāng)成日期“9月11日”,拿9.11里面的11和9.9里面的9做對比!霸谶@種情況下,它就會認為11比9更大。這是由大模型處理的流程或機制決定的。有些大模型對指令識別得更好,答對概率就比較高。我們內(nèi)部測試發(fā)現(xiàn),通義絕大部分情況能答對。”
還有不少網(wǎng)友發(fā)現(xiàn),調(diào)整提示詞的順序,大模型給出的答案準確率也不一致。比如把提示詞從“9.11和9.9誰更大”換成“哪個更大:9.11和9.9”,前一種情況幾乎全軍覆沒,而后一種情況大部分大模型都能答對。
在王曉明看來,這是因為大多數(shù)模型對于后一句提示詞能更快更準確地理解這是一個比大小的問題,而不是比日期或者其他數(shù)字場景,這樣預(yù)測的概率就會大大提高。
“另外,這跟模型本身預(yù)置的數(shù)理邏輯、訓(xùn)練數(shù)據(jù)以及配置都有關(guān)系。第二種情況下,更接近于模型之前訓(xùn)練階段遇到的場景,所以答對的概率比較高!
王曉明說,使用大模型相當(dāng)于一個調(diào)教的過程。雖然預(yù)測本身帶有隨機性,存在成功的概率,也有失敗的概率。但大模型根據(jù)他的回答及你的訂正去生成一個新的回答,訂正的過程會作為下一輪的輸入。
聲明:
本文僅代表作者個人觀點,與新江南網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容,新江南網(wǎng)號系信息發(fā)布平臺,新江南網(wǎng)僅提供信息存儲空間服務(wù)。如有侵權(quán)請出示權(quán)屬憑證聯(lián)系管理員(yin040310@sina.com)刪除!
閱讀推薦
新聞爆料