搜索

網(wǎng)傳Gemini用文心一言訓練？可能谷歌也是受害者！

jh 1年前 (2023-12-18)

AI可以污染互聯(lián)網(wǎng)，也能被互聯(lián)網(wǎng)污染。

熱鬧的AI圈，今天又傳出一個(gè)大瓜：谷歌Gemini的中文回答自曝自己是文心一言？

據科技媒體量子位報道，有網(wǎng)友爆料：在谷歌Vertex AI平臺使用該模型進(jìn)行中文對話(huà)時(shí)，Gemini-Pro直接表示自己是百度語(yǔ)言大模型。

圖源 | 量子位

緊接著(zhù)，微博大V@闌夕發(fā)布微博表示，在A(yíng)I聚合網(wǎng)站Poe上進(jìn)行測試時(shí)，Gemini模型同樣在多次問(wèn)答里把自己當成了文心一言。

為了驗證，量子位分別在Peo、Bard以及谷歌AI Studio都進(jìn)行了三輪測試。

最后證明：Gemini-Pro確實(shí)在中文的訓練數據上使用了百度文心。

但當事情曝光之后，我們又挖掘到一些有趣的信息。

AI犯錯后，谷歌緊急修復？

在闌夕以及量子位的測試里，都提到了Poe這個(gè)AI聚合網(wǎng)站。

這是一個(gè)由知名問(wèn)答平臺Quora推出的AI聊天機器人應用。

雖然名頭不小，但實(shí)際上這只是一個(gè)聚合了多種主流的AI模型的網(wǎng)站，包含了GPT、Claude、PaLM等大廠(chǎng)模型，包括此次的Gemini-Pro，都能在該網(wǎng)站上進(jìn)行免費體驗。

當筆者在Poe上對Gemini-Pro進(jìn)行提問(wèn)后，大模型給出的答案其實(shí)并沒(méi)有提到任何與文心一言相關(guān)的內容。

緊接著(zhù)，筆者加上了“文心一言”的關(guān)鍵詞進(jìn)行追問(wèn)后，Gemini-Pro依然否認自己與文心一言的關(guān)系。

可見(jiàn)，即使是“釣魚(yú)式提問(wèn)”，Gemini-Pro還是努力在避免不上當。

不過(guò)在回答里，Gemini-Pro提到了文心一言的底層模型是谷歌的Transformer模型。

而文心一言的官方表述是：百度飛槳開(kāi)源深度學(xué)習平臺中的基礎模型庫。

既然Poe的回答很正常，那么谷歌官方平臺是否修復了呢？

在谷歌AI Studio里，筆者同樣圍繞“文心一言”關(guān)鍵詞提了幾個(gè)問(wèn)題。

與量子位測試的結果進(jìn)行對比來(lái)看，Gemini大模型否認了自己使用文心一言來(lái)訓練中文模型。

但在答案里，Gemini提到了不少中文訓練集的數據來(lái)源，并提到自己可以從ERNIE、阿里巴巴達摩院M6以及騰訊優(yōu)圖實(shí)驗室GLM等中文語(yǔ)言模型中進(jìn)行預訓練。

由此可見(jiàn)，在曝光數小時(shí)后，谷歌技術(shù)人員緊急修復了這個(gè)“bug”。

不只是文心一言？

雖然按照正常流程沒(méi)有釣魚(yú)成功，但筆者還是挖到了一個(gè)彩蛋：

在Poe網(wǎng)站上新建一次對話(huà)后，Gemini-Pro竟然把自己介紹成“小愛(ài)同學(xué)”，回答也是非常離譜。

而在多次反問(wèn)“你不是Gemini-Pro嗎”后，Gemini-Pro再次給出了離譜的答案。

雖然不清楚是不是網(wǎng)站接口出現了問(wèn)題，但可以肯定的是，目前的AI聊天機器人并沒(méi)有想象地那么神奇，免費的AI聚合網(wǎng)站更是“圖一樂(lè )”。

實(shí)際上被互聯(lián)網(wǎng)污染了？

這不是谷歌Gemini第一次“闖禍”。

在該模型剛發(fā)布當天，就有人質(zhì)疑演示視頻的真實(shí)性。

結果，谷歌官方真就承認了Gemini演示視頻是經(jīng)特殊剪輯處理，非實(shí)時(shí)畫(huà)面，但否認視頻系“造假”。

事實(shí)上，為了避免現場(chǎng)演示翻車(chē)，絕大多數科技公司都會(huì )稍微對演示視頻進(jìn)行調整，這非常普遍。

但為了與GPT-4進(jìn)行對比，從而進(jìn)行夸大剪輯，只能說(shuō)谷歌的營(yíng)銷(xiāo)手段還是“翻車(chē)”了。

而在今天爆出的“文心一言訓練中文語(yǔ)言模型”這件事上，我們同樣可以看出谷歌Gemini其實(shí)并不是有意。

對于中文數據來(lái)說(shuō)，百度確實(shí)算得上一個(gè)重要來(lái)源，但缺點(diǎn)在于：中文互聯(lián)網(wǎng)上存在大量低質(zhì)量?jì)热?，讓人眼花繚亂。

自從AI火爆之后，不少快速生成的劣質(zhì)內容開(kāi)始充斥互聯(lián)網(wǎng)，并逐漸造成數據污染。

對于互聯(lián)網(wǎng)獲取數據的AI模型來(lái)說(shuō)，在無(wú)法很好地辨別信息的真實(shí)性和可信度的情況下，極有可能產(chǎn)生造成“AI被互聯(lián)網(wǎng)污染，再生產(chǎn)更劣質(zhì)信息”的惡性循環(huán)，最終出現不可逆的缺陷。

這里筆者做了假設：谷歌Gemini在訓練中文時(shí)“偷懶”使用了未經(jīng)辨別與篩選后的中文數據，最終造成了這次“翻車(chē)”。

只能說(shuō)，作為一款對標GPT-4的重磅產(chǎn)品，Gemini背負著(zhù)“再次領(lǐng)跑AI浪潮”的使命，所以谷歌的技術(shù)人員還是用點(diǎn)心吧。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

jh運營(yíng)

jh運營(yíng)

1039篇

文章總數

最新文章

電池管理芯片：新能源時(shí)代的 “心臟”

硅光子芯片，AMD不想缺席

NVIDIA 發(fā)布 2026 財年第一季度財務(wù)報告

宇樹(shù)人形機器人全球“格斗秀” ，AI“拳王”硬核破圈

代工巨頭臺積電，在歐洲設計汽車(chē)芯片

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉