搜索

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

admin 1年前 (2024-06-07)

按照高考打分標準來(lái)打分，國產(chǎn)大模型誰(shuí)的作文寫(xiě)的好？

一年一度的高考再次登上熱搜，去年高考，ChatGPT以及國產(chǎn)大模型首發(fā)團隊文心一言、訊飛星火、阿里通義千問(wèn)等掀起大模型寫(xiě)作文的大混戰，有的號稱(chēng)滿(mǎn)分，有的被批零分，有的文采有余情感不足……經(jīng)過(guò)一年的時(shí)間這些大模型能力是否有大幅提升？恰好今年的高考題目就與人工智能有關(guān)，我們來(lái)看看誰(shuí)家“孩子”能拿下高分？我們評測了國內知名的五家大模型產(chǎn)品：百度文心一言、科大訊飛星火、Kimi、騰訊元寶、阿里通義千問(wèn)。

先說(shuō)結論：訊飛星火，完勝。Kimi只是給了一個(gè)稿件提綱，其他則陷入了題干中關(guān)于“問(wèn)題”的陷阱中。

新課標Ⅰ卷作文題目：

隨著(zhù)互聯(lián)網(wǎng)的普及、人工智能的應用，越來(lái)越多的問(wèn)題能很快得到答案。那么，我們的問(wèn)題是否會(huì )越來(lái)越少？

以上材料引發(fā)了你怎樣的聯(lián)想和思考？請寫(xiě)一篇文章。

要求：選準角度，確定立意，明確文體，自擬標題；不要套作，不得抄襲；不得泄露個(gè)人信息；不少于800字。

訊飛星火

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

文心一言

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

騰訊元寶

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

KIMI

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

通義千問(wèn)

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

我們再看一遍這道作文題：

隨著(zhù)互聯(lián)網(wǎng)的普及、人工智能的應用，越來(lái)越多的問(wèn)題能很快得到答案。那么，我們的問(wèn)題是否會(huì )越來(lái)越少？

以上材料引發(fā)了你怎樣的聯(lián)想和思考？請寫(xiě)一篇文章。

這道題的題眼是“問(wèn)題”二字，閱讀材料里“問(wèn)題”出現了兩次，這兩個(gè)“問(wèn)題”其實(shí)是不同的內涵，根據新華詞典的解釋?zhuān)谝粋€(gè)“問(wèn)題”對應著(zhù)“答案”，是“要求回答或解釋的題目”的意思，而第二個(gè)“問(wèn)題”是“需要研究并加以解決的矛盾、疑難”的意思，可以說(shuō)第一個(gè)“問(wèn)題”是狹義的，第二個(gè)“問(wèn)題”是廣義的，類(lèi)似英文中question和problem的不同。

文心一言、騰訊元寶、通義千問(wèn)、Kimi都掉進(jìn)了第一個(gè)“問(wèn)題”的陷阱，一直在重復關(guān)于好奇、求知、解答、知識這些淺層話(huà)題，而訊飛星火明顯分辨出了兩個(gè)“問(wèn)題”的不同含義，在文章中段就將討論范圍從狹義的需要個(gè)體解答的“小問(wèn)題”延伸到了廣義的人類(lèi)社會(huì )共同面對的“大問(wèn)題”。

這體現的不是簡(jiǎn)單的“考試狀態(tài)”，其背后充分體現了星火大模型在語(yǔ)言理解這一大模型核心能力上的領(lǐng)先。

為了能更好打分，我們按照全國高考作文評分標準對幾篇文章做詳細分析

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

文心一言：

基礎等級方面，文章始終沒(méi)有對互聯(lián)網(wǎng)和人工智能對解決問(wèn)題和產(chǎn)生問(wèn)題的核心做出解讀，明顯偏離題意。結構方面，盡管有“首先……其次……再者……綜上所述”這樣看似嚴謹的結構支撐，但段落和段落之間，段落和結論之間，關(guān)系并不緊密。

發(fā)展等級方面，文心一言分別引用了愛(ài)因斯坦、牛頓的名言和一句古詩(shī)，一如既往的“掉書(shū)袋”看似有創(chuàng )意、有文采，但仔細看來(lái)，其內在邏輯其實(shí)比較混亂，比如這一段：

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

牛頓的話(huà)是關(guān)于科學(xué)傳承，對這名言的引用顯然有“驢唇不對馬嘴”的感覺(jué)。

總體打分：35分

科大訊飛

基礎等級方面，開(kāi)篇點(diǎn)題，中段在“個(gè)體體驗、信息爆炸、人工智能道德倫理”三個(gè)方面分析問(wèn)題，結尾回歸“人類(lèi)的智慧、勇氣和決心”升華價(jià)值，內容和表達無(wú)懈可擊。

發(fā)展等級方面，深刻與豐富做得很好，文采和創(chuàng )意有所欠缺，星火是唯一一個(gè)通篇沒(méi)有引用名人名言的“考生”，像是個(gè)嚴謹的理科生。

總體打分：55分

騰訊元寶

對題目的理解更加狹隘，感覺(jué)通篇一直在重復一種觀(guān)點(diǎn)“問(wèn)題是個(gè)好東西”，這是大模型語(yǔ)言理解能力欠佳的表現。每一句話(huà)都自然流暢，名言引用也比較恰當，但所有句子湊在一起產(chǎn)生了一種“廢話(huà)連篇”的感覺(jué)，這是大模型文本生成能力欠佳的表現。畢竟騰訊元寶在5月底剛剛發(fā)布，也許不能要求太高。

總體打分：32

Kimi

作為以長(cháng)文本著(zhù)稱(chēng)的大模型，高考作文理應是Kimi大顯身手的機會(huì )，但結果卻令筆者有些意外，Kimi輸出的文章在內容上并無(wú)特別之處，最大的區別是它給每一段加上了小標題，沒(méi)展示出長(cháng)文本理解和生成的核心能力，卻有類(lèi)似“標題黨”的小伎倆？不得不感慨：“Kimi真是個(gè)小機靈鬼。”

總體打分：42

通義千問(wèn)

去年的高考作文AI寫(xiě)作中，通義千問(wèn)飽受詬病，被批“空洞沒(méi)營(yíng)養”，今年的通義千問(wèn)有明顯進(jìn)步。通義千問(wèn)的優(yōu)點(diǎn)跟訊飛星火一樣，具備語(yǔ)言理解和文本表達的廣度和深度，缺點(diǎn)跟文心一樣，錯誤引用名人名言刻意展示文采，可謂集眾家所長(cháng)，及所短。

總體打分：49

Chatgpt 問(wèn)世以來(lái)，“寫(xiě)文章”成為人工智能大模型產(chǎn)品展示能力的普遍手段，高考作文有著(zhù)嚴格明確的要求，以及相對嚴謹科學(xué)的評分標準，無(wú)疑是最佳的試金石。通過(guò)本次評測明顯看出，訊飛星火大模型在語(yǔ)言理解和文本表達上的表現更勝一籌，拿高分實(shí)至名歸，你們覺(jué)得呢？當然各位也可以打開(kāi)手機或者電腦試試看，如高考作文題目所言，隨著(zhù)互聯(lián)網(wǎng)的普及、人工智能的應用，這個(gè)問(wèn)題能很快得到答案。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

admin作者

admin作者

14篇

文章總數

最新文章

“創(chuàng )”在高新！“新一代信息技術(shù)”行業(yè)賽圓滿(mǎn)落幕

倒計時(shí)14天！第十屆CDIE數字化創(chuàng )新博覽會(huì )！即將開(kāi)幕，抓住機遇，搶占席位~

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

雨漩渦”室內瀑布背后的工程設計以及挑戰 | 西門(mén)子助力新加坡機場(chǎng)核心區域

11月cippe上海石化展助力石化企業(yè)發(fā)展新質(zhì)生產(chǎn)力

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉