9.11大還是9.9大？為什么一道小學(xué)數(shù)學(xué)題難倒了大多數(shù)AI？

文章來源：都市快報

字體：大中小

發(fā)布時間：2024-07-18 16:56:58

《新江南網(wǎng)》江南區(qū)域知名綜合門戶網(wǎng)站！

追蹤網(wǎng)絡(luò)熱點，關(guān)注民生動態(tài)，傳播江南文化，倡導(dǎo)網(wǎng)絡(luò)新時代！

http://www.yw1515.com/歡迎您！

☆ 新江南網(wǎng) ☆歡迎您

9.11和9.9哪個更大？一道小學(xué)生都會的數(shù)學(xué)題，卻難倒了一眾AI大模型。昨天，“大模型測不出9.11和9.9哪個大”還登上了微博熱搜。

這個難倒大多數(shù)AI大模型的數(shù)學(xué)題，其實來自于最近熱播的《歌手》。

7月13日，在最新一期《歌手》公布的排名中，國內(nèi)歌手孫楠與外國歌手香緹莫的得票率分別是13.8%和13.11%。這個得票數(shù)統(tǒng)計引發(fā)了一些網(wǎng)友對排名的質(zhì)疑。

有網(wǎng)友認為13.11%大于13.8%，因此，香緹莫的得票率比孫楠高。

隨后，關(guān)于13.8%和13.11%大小比較，一度成了網(wǎng)絡(luò)上的熱門話題。當(dāng)時也有網(wǎng)友提出，“實在不行問問AI”。

有趣的是，這道題AI大模型也不太會。有媒體記者測試了12個國內(nèi)外主流大模型，其中，一半模型答錯了，認為9.11大于9.9。橙柿互動記者們也好奇地提問了幾家AI大模型。結(jié)果發(fā)現(xiàn)，有不少AI模型回答是錯的，還有一些AI在答題時不太穩(wěn)定。

比如昨天下午，當(dāng)我的兩位同事向kimi提出這個問題時，其中一位同事的kimi答案時對時錯，且反應(yīng)“冷淡”。而另外一位同事的kimi舉例分析得十分在理，直觀且很好理解。同樣的問題詢問了通義千問、文心一言、訊飛星火等AI模型，大部分AI回答正確并給出了詳細的答題過程。

為什么一道小學(xué)數(shù)學(xué)題難倒了部分AI大模型？

昨天上午，通義實驗室產(chǎn)品經(jīng)理王曉明看到這則熱搜和網(wǎng)友們的評論，第一反應(yīng)是并不覺得奇怪，更像是網(wǎng)友玩的一個“花活”。王曉明說，大語言模型雖然在語言和文本類型的任務(wù)里能超越人類普通平均水平，但對于數(shù)學(xué)、物理這種強調(diào)邏輯性的任務(wù)短板比較明顯。

也就是說，現(xiàn)在的大模型其實更像一個文科生。

“簡單來說，大模型不會把這個問題像人類一樣，當(dāng)作一個比大小的題目�！�

王曉明說，大模型的本質(zhì)是通過提示詞，也就是提的問題，對下一個詞進行預(yù)測，而不是做算術(shù)計算。這個跟平時的訓(xùn)練數(shù)據(jù)和大模型配置有關(guān)。

所以在處理“9.11和9.9哪個更大”這樣的對話場景時，大模型不像人類，不會天然地把這個問題視作算數(shù)比大小的題目，可能會把這當(dāng)成日期“9月11日”，拿9.11里面的11和9.9里面的9做對比�！霸谶@種情況下，它就會認為11比9更大。這是由大模型處理的流程或機制決定的。有些大模型對指令識別得更好，答對概率就比較高。我們內(nèi)部測試發(fā)現(xiàn)，通義絕大部分情況能答對。”

還有不少網(wǎng)友發(fā)現(xiàn)，調(diào)整提示詞的順序，大模型給出的答案準確率也不一致。比如把提示詞從“9.11和9.9誰更大”換成“哪個更大：9.11和9.9”，前一種情況幾乎全軍覆沒，而后一種情況大部分大模型都能答對。

在王曉明看來，這是因為大多數(shù)模型對于后一句提示詞能更快更準確地理解這是一個比大小的問題，而不是比日期或者其他數(shù)字場景，這樣預(yù)測的概率就會大大提高。

“另外，這跟模型本身預(yù)置的數(shù)理邏輯、訓(xùn)練數(shù)據(jù)以及配置都有關(guān)系。第二種情況下，更接近于模型之前訓(xùn)練階段遇到的場景，所以答對的概率比較高�！�

王曉明說，使用大模型相當(dāng)于一個調(diào)教的過程。雖然預(yù)測本身帶有隨機性，存在成功的概率，也有失敗的概率。但大模型根據(jù)他的回答及你的訂正去生成一個新的回答，訂正的過程會作為下一輪的輸入。

聲明：
本文僅代表作者個人觀點，與新江南網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容，新江南網(wǎng)號系信息發(fā)布平臺，新江南網(wǎng)僅提供信息存儲空間服務(wù)。如有侵權(quán)請出示權(quán)屬憑證聯(lián)系管理員（yin040310@sina.com）刪除！

上一篇：義診入社區(qū) 分類進人心
下一篇：四位高一新生在學(xué)校邊租了套房媽媽們輪流陪讀！