AI算法入駐Google搜索引擎,詞條再冷也可手到擒來(lái)!
近期,Google搜索引擎引入一種新的算法,在此基礎上,哪怕搜索詞條再冷門(mén),用戶(hù)也可以搜到自己滿(mǎn)意的信息。
互聯(lián)網(wǎng)的能力是強大的,它幾乎囊括了一切我們日常生活中想要獲得的信息,但有時(shí)候因搜索詞條過(guò)于冷門(mén)而找不到信息時(shí),大多數人也只能雙手攤開(kāi),表達自己的無(wú)奈。在這個(gè)bug的前提下,搜索引擎人工智能化成為目前不可阻擋的趨勢。
日前,搜索引擎巨頭Google在自家搜索引擎中引入一種名為RankBrain的基于人工智能技術(shù)開(kāi)發(fā)的算法,以?xún)?yōu)化搜索引擎的網(wǎng)頁(yè)排名。具體是怎么操作的呢?
網(wǎng)頁(yè)排名操作步驟
一般來(lái)講,搜索引擎的網(wǎng)頁(yè)排名基本分為4個(gè)步驟:
爬行抓?。?/strong>搜索引擎蜘蛛(一個(gè)能夠在網(wǎng)上發(fā)現新網(wǎng)頁(yè)并抓文件的程序)從已知的數據庫出發(fā),像正常用戶(hù)的瀏覽器一樣訪(fǎng)問(wèn)網(wǎng)頁(yè)并抓取文件。另外,蜘蛛還會(huì )爬行跟蹤網(wǎng)頁(yè)中的鏈接以訪(fǎng)問(wèn)更多的網(wǎng)頁(yè),再重復以上抓取過(guò)程。
索引:這些頁(yè)面文件被蜘蛛抓取后,將會(huì )被進(jìn)行分解、分析,并以巨大表格的形式存入數據庫。其中,網(wǎng)頁(yè)文字內容,關(guān)鍵詞出現的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應記錄。
搜索詞處理:用戶(hù)在搜索框內輸入關(guān)鍵詞并單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進(jìn)行處理,如中文特有的分詞處理,判斷是否需要啟動(dòng)整合搜索、是否有錯別字等情況。
排序:在上述三個(gè)步驟完成后,根據搜索詞,搜索引擎將會(huì )從索引數據庫中找出所有包含搜索詞的網(wǎng)頁(yè),然后根據排名算法計算出哪些網(wǎng)頁(yè)應該排在前面,最后按照一定格式返回到"搜索"頁(yè)面。
網(wǎng)頁(yè)排名影響因素
在網(wǎng)頁(yè)排名關(guān)鍵中,網(wǎng)頁(yè)的排名先后受到諸多因素的影響,就拿Google的排名公式來(lái)看:Google分數=(相關(guān)關(guān)鍵詞分數X0.3)+(域名權重X0.25)+(外鏈分數X0.25)+(用戶(hù)數據X0.1)+(內容質(zhì)量分數X0.1)+(人工加分)–(自動(dòng)或人工降分)。
從公式中我們可以看出,針對搜索引擎網(wǎng)頁(yè)排名,最為直觀(guān)的影響因素就有6個(gè),分別是關(guān)鍵詞、域名權重、外鏈分數、用戶(hù)數據、內容質(zhì)量以及人工干預,而在這6大因素下面,又有著(zhù)各自其他的小因素,例如在用戶(hù)數據這一塊上,搜索引擎就要考慮到搜索引擎結果頁(yè)面(SERPs)的點(diǎn)擊率、用戶(hù)在網(wǎng)頁(yè)上呆的時(shí)間、域名或URL搜索量、訪(fǎng)問(wèn)量及其他Google可以監測到的數據(工具條、GA之類(lèi))等4個(gè)小因素,至于這4個(gè)因素下面還有多少其他的小小因素,這就不得而知了。
RankBrian的工作原理
搜索引擎網(wǎng)頁(yè)排名的的基本工作原理已大概知曉,雖然搜索引擎的數據庫很強大,但仍然會(huì )有一絲瑕疵的存在,比如冷門(mén)關(guān)鍵詞的相關(guān)搜索。由于關(guān)鍵詞的邏輯排列以及固定詞匯等因素,搜索引擎給出的信息難免會(huì )有局限性,從而不能正確或全面得對關(guān)鍵詞進(jìn)行理解,以給出用戶(hù)所需要的信息。
Google在搜索引擎中引入的RankBrain算法,其目的就在于優(yōu)化搜索引擎的網(wǎng)頁(yè)排名。目前,在 Google 用來(lái)決定網(wǎng)頁(yè)排名的數百個(gè)因素中,RankBrain的重要性已經(jīng)位居第三。
而在冷門(mén)詞條搜索方面,RankBrain算法也確實(shí)有效的給出了一個(gè)解決方案。通過(guò)RankBrian,Google可以對這部分冷門(mén)詞條進(jìn)行分析和重新匹配,從而使得搜索結果更加準確。舉個(gè)例子:在 Google 中輸入“best flower shop in Los Angeles”一類(lèi)冷門(mén)的搜索,RankBrian會(huì )通過(guò)語(yǔ)義分析和詞庫聯(lián)想,識別出搜索關(guān)鍵詞的重點(diǎn)意義。比如這句話(huà),RankBrian就會(huì )判別出其與搜索頻率更高的“best LA flower shops”比較像,然后給出后者的搜索結果。
從RankBrian的工作原理可以看出,其最為關(guān)鍵的人工智能技術(shù)就是“語(yǔ)義理解”,只要將這部分做好,那么在將來(lái),哪怕是再冷門(mén)、再繁瑣的搜索詞條,Google都能給予用戶(hù)最準確的信息反饋。
據悉,早在2015年年初,Google就逐漸推出了RankBrain,但也僅限于一部分搜索結果。目前,Google已將該算法應用于每天每一次的搜索中,每天提供的搜索服務(wù)多達55多億次。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
