被寒假作業(yè)逼瘋?實(shí)測三款主流國產(chǎn)大模型,哪家輔導作業(yè)最靠譜
國產(chǎn)廠(chǎng)商們針對中文語(yǔ)境的持續優(yōu)化,也讓 AI 在教育領(lǐng)域的應用場(chǎng)景更加多元,讓更多人享受到AI帶來(lái)的價(jià)值。
寒假作業(yè),大概是每個(gè)年代的孩子都逃不過(guò)的宿命。
而自從“雙減”政策開(kāi)始落實(shí),教育回歸家庭后,家長(cháng)們也開(kāi)始迎來(lái)了他們的“酷刑”——為孩子們輔導作業(yè)。
相信不少人都能在網(wǎng)上刷到被作業(yè)整崩潰的家長(cháng),有的因為孩子心不在焉苦口婆心,有的因為孩子怎么也聽(tīng)不懂氣到捶桌,而更多家長(cháng)則因為孩子課程知識點(diǎn)越來(lái)越豐富,未必能很好地為孩子答疑解惑。
可以說(shuō),寒假作業(yè)讓家長(cháng)和孩子們都犯了難。
不過(guò),面對這個(gè)難題,家長(cháng)們可以借助當下最火的AI大模型。
目前不少國產(chǎn)大模型都號稱(chēng)自帶教育功能,最關(guān)鍵的是,這些國產(chǎn)工具都可以通過(guò)網(wǎng)頁(yè)或App免費體驗,對于大部分家長(cháng)們來(lái)說(shuō),使用門(mén)檻足夠低。
為此,筆者挑選了國內三款主流對話(huà)式大模型(訊飛星火、文心一言、通義千問(wèn))進(jìn)行了多次提問(wèn),并且將他們與目前公認最強的GPT4大模型進(jìn)行對比,看看他們在真實(shí)場(chǎng)景下輔導作業(yè)時(shí),都有哪些表現?
國產(chǎn)大模型 VS GPT4
寒假說(shuō)長(cháng)不長(cháng),說(shuō)短不短,由于中間夾雜著(zhù)春節假期,大多數學(xué)生很難完整安排學(xué)習計劃。
那如果我們以20天來(lái)計算,AI大模型會(huì )給孩子們安排什么樣的學(xué)習計劃呢?
(注:全文截圖均按照:訊飛星火、通義千問(wèn)、文心一言、GPT4進(jìn)行排序)
總結:從篇幅來(lái)看,訊飛星火給出的計劃非常詳細(因為長(cháng)度原因并未截全),并且詳細到每個(gè)學(xué)科;GPT4與文心一言給出的方案內容大致相似,但前者在內容上更加豐富,而通義千問(wèn)則具體到每個(gè)時(shí)間段。但總體來(lái)說(shuō),AI大模型生成的計劃都過(guò)于籠統。
安排好學(xué)習計劃后,下一步就是開(kāi)始輔導作業(yè)了。
語(yǔ)數外題目實(shí)測
論語(yǔ)數外三門(mén)中最難的學(xué)科,大部分人可能首先會(huì )在數學(xué)上犯了難。
那么今天我們就看看AI大模型的解題能力如何?
(1)第一道是個(gè)小學(xué)數學(xué)應用題,涉及未知數和方程式。
總結:在使用截圖時(shí),通義千問(wèn)給出了正確的方程式,但奇怪的是在計算時(shí)翻車(chē)。而其他三家大模型都因為識別數字原因列錯了公式。
而在手動(dòng)輸入題目后,四家大模型都給出了正確答案,不過(guò)文心一言“別出心裁”使用用T代表未知數,這可能不太符合一般的教學(xué)習慣。
(2)有了應用題,幾何題自然也不能錯過(guò)。
結論:由于文心一言需要多次步驟,因此筆者并未繼續操作,其他三家均給出了解題步驟。其中在觀(guān)感上,還是國產(chǎn)大模型更勝一籌,而GPT4文字描述過(guò)多,總體來(lái)說(shuō)這三家的表現都很不錯。
做完數學(xué)題,讓我們來(lái)幾道英語(yǔ)題。
對于大部分家長(cháng)來(lái)說(shuō),由于長(cháng)期遠離英語(yǔ)環(huán)境,詞匯掌握量逐年下降,當孩子升入中學(xué)后,輔導英語(yǔ)就變得十分困難。
其中,長(cháng)難句又是英語(yǔ)學(xué)習中最難的一部分,無(wú)法理解句子自然也很難選擇正確答案。
就翻譯來(lái)說(shuō),大部分AI大模型都可以給出準確的答案,但要做到“信達雅”,還是有一定的難度的。
(3)讓我們先用一句經(jīng)典的英文名句試試:
結論:不得不說(shuō),每家英翻中都很有詩(shī)意,其中GPT4和訊飛星火給出的翻譯最為對仗,不過(guò)GPT4還附帶了對原句的解釋?zhuān)x千問(wèn)則找出了原句的出處。
(4)那么換成考試真題的長(cháng)難句后,表現又如何呢?
結論:在這句話(huà)的翻譯上,之前表現平平的文心一言這一次翻譯地最為出色。而其他三家則更加貼近直譯。對于學(xué)生們來(lái)說(shuō),通俗易懂的翻譯或許更適合應試。
比起數學(xué)和英語(yǔ),語(yǔ)文學(xué)科更加考驗中文能力,也正是在這一部分,GPT4遇到了難題。
(5)首先來(lái)一段文言文的翻譯:
結論:或許是因為大模型在理解“白話(huà)文”和“文言文”時(shí)出現錯誤,目前均不支持全文翻譯。在改為短句子后,翻譯的準確性明顯高了許多,筆者個(gè)人更偏好訊飛星火的翻譯。
最后,讓我們拿出“作者都覺(jué)得離譜”的現代文閱讀,看看大模型們能不能讀懂出題人的心。
這是一篇來(lái)自2023年全國高考的散文《給兒子》,原作者陳村,該文不僅篇幅較長(cháng),并且蘊含非常多的寓意。
(6)首先讓大模型總結一下文章的內容:
(7)接著(zhù)我們讓大模型們來(lái)嘗試下高考真題,看看他們是否可以理解段落背后的含義。
總結:從個(gè)人主觀(guān)判斷,三款國產(chǎn)大模型在中文理解能力還是強于GPT4,不過(guò)后在理解段落的回答上,表現也稱(chēng)得上超出預期。
結語(yǔ)
從以上的實(shí)測來(lái)看,對于家長(cháng)們來(lái)說(shuō),國產(chǎn)大模型已經(jīng)足夠應對孩子們的日常作業(yè)。
而國產(chǎn)廠(chǎng)商們針對中文語(yǔ)境的持續優(yōu)化,也讓 AI 在教育領(lǐng)域的應用場(chǎng)景更加多元,讓更多人享受到AI帶來(lái)的價(jià)值。
例如今天下午舉行的星火認知大模型發(fā)布會(huì )上,科大訊飛董事長(cháng)劉慶峰、研究院院長(cháng)劉聰正式發(fā)布基于首個(gè)全國產(chǎn)算力訓練的訊飛星火V3.5,多個(gè)核心能力得到全面提升,其中在數學(xué)、語(yǔ)言理解、語(yǔ)音交互能力上已經(jīng)超越GPT-4 Turbo。
在發(fā)布會(huì )上,劉慶峰著(zhù)重介紹了通用人工智能對教育領(lǐng)域的賦能,他表示:“教育是人類(lèi)進(jìn)步的根本,關(guān)乎每一位個(gè)體,是真正的全民剛需。”
隨著(zhù)大模型的全新提升,新版本在視覺(jué)問(wèn)答、聯(lián)想推理等方面實(shí)現了高分應對,理解更加精確,表述也更好。
除了教育領(lǐng)域以外,國產(chǎn)廠(chǎng)商正利用大模型賦能千行百業(yè),把大模型技術(shù)的創(chuàng )造力轉化為促進(jìn)產(chǎn)業(yè)高質(zhì)量發(fā)展的新質(zhì)生產(chǎn)力,正在成為行業(yè)的共同選擇。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
