如何用簡(jiǎn)單易懂的語(yǔ)言描述樸素貝葉斯分類(lèi)器?

韓平 7年前 (2018-01-30)

簡(jiǎn)單來(lái)說(shuō),它是基于出現概率進(jìn)行粗略的分類(lèi)

初次接觸到這個(gè)概念是在大學(xué)選修數據挖掘的時(shí)候,貝葉斯分類(lèi)基于貝葉斯定理,屬于分類(lèi)中的基本概念。

簡(jiǎn)單來(lái)說(shuō),它是基于出現概率進(jìn)行粗略的分類(lèi),比說(shuō),要將若干電影分類(lèi),一個(gè)電影出現親吻的鏡頭以及一男一女單獨的鏡頭概率大,就將此分為愛(ài)情片,如果打斗場(chǎng)面出現的概率大就將電影分為動(dòng)作片。聽(tīng)上去不太“靠譜”,但是分類(lèi)算法的比較研究發(fā)現,樸素貝葉斯分類(lèi)法可以與決策樹(shù)和經(jīng)過(guò)挑選的神經(jīng)網(wǎng)絡(luò )媲美。用于大型數據庫,貝葉斯分類(lèi)法也已表現出高準確率和高速度。

樸素貝葉斯分類(lèi)法假定一個(gè)屬性值在給定類(lèi)上的影響獨立于其他屬性的值。這一假定稱(chēng)為類(lèi)條件獨立性。做此假定是為了簡(jiǎn)化計算,并在此意義下稱(chēng)為“樸素的”。

工作流程:

第一階段——準備工作階段,這個(gè)階段的任務(wù)是為樸素貝葉斯分類(lèi)做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個(gè)特征屬性進(jìn)行適當劃分,然后由人工對一部分待分類(lèi)項進(jìn)行分類(lèi),形成訓練樣本集合。這一階段的輸入是所有待分類(lèi)數據,輸出是特征屬性和訓練樣本。這一階段是整個(gè)樸素貝葉斯分類(lèi)中唯一需要人工完成的階段,其質(zhì)量對整個(gè)過(guò)程將有重要影響,分類(lèi)器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓練樣本質(zhì)量決定。

第二階段——分類(lèi)器訓練階段,這個(gè)階段的任務(wù)就是生成分類(lèi)器,主要工作是計算每個(gè)類(lèi)別在訓練樣本中的出現頻率及每個(gè)特征屬性劃分對每個(gè)類(lèi)別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類(lèi)器。這一階段是機械性階段,根據前面討論的公式可以由程序自動(dòng)計算完成。

第三階段——應用階段。這個(gè)階段的任務(wù)是使用分類(lèi)器對待分類(lèi)項進(jìn)行分類(lèi),其輸入是分類(lèi)器和待分類(lèi)項,輸出是待分類(lèi)項與類(lèi)別的映射關(guān)系。這一階段也是機械性階段,由程序完成。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到