南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

韓璐 9年前 (2016-11-30)

基于第一印象 表象的性格自動(dòng)分析是計算機視覺(jué)和多媒體領(lǐng)域中一類(lèi)非常重要的研究問(wèn)題。

英文中有句諺語(yǔ)叫:“You never get a second chance to make a first impression.”(你永遠沒(méi)有第二個(gè)機會(huì )去改變你的第一印象。)一個(gè)人的第一印象可以用來(lái)快速判斷其性格特征(Personal traits)及其復雜的社交特質(zhì),如友善、和藹、強硬和控制欲等等。因此,在人工智能大行其道的當下,基于第一印象/表象的性格自動(dòng)分析也成為計算機視覺(jué)和多媒體領(lǐng)域中一類(lèi)非常重要的研究問(wèn)題。

前不久,歐洲計算機視覺(jué)大會(huì )(ECCV 2016)ChaLearn Looking at People Workshop 就舉辦了一場(chǎng)全球范圍的(視頻)表象性格分析競賽(Apparent personality analysis)。歷時(shí)兩個(gè)多月,我們的參賽隊(NJU-LAMDA)在86個(gè)參賽者,其中包括有印度“科學(xué)皇冠上的瑰寶”之稱(chēng)的 Indian Institutes of Technology (IIT)和荷蘭名校Radboud University等勁旅中脫引而出,斬獲第一。在此與大家分享我們的競賽模型和比賽細節。

問(wèn)題重述

本次ECCV競賽提供了平均長(cháng)度為15秒的10000個(gè)短視頻,其中6000個(gè)為訓練集,2000個(gè)為驗證集,剩余2000個(gè)作為測試。比賽要求通過(guò)對短視頻中人物表象(表情、動(dòng)作及神態(tài)等)的分析來(lái)精確預測人的五大性格特質(zhì),即Big Five Traits,其中包括:經(jīng)驗開(kāi)放性(Openness to experience)、盡責性(Conscientiousness)、外向性(Extraversion)、親和性(Agreeableness)和情緒不穩定性(Neuroticism)。視頻示例如下所示:

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

競賽數據中五大性格特質(zhì)的真實(shí)標記(Ground truth)通過(guò)Amazon Mechanical Turk人工標注獲得,每個(gè)性格特質(zhì)對應一個(gè)0~1之間的實(shí)值。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

我們的方法

由于競賽數據為短視頻,我們很自然的把它作為雙模態(tài)(Bimodal)的數據對象來(lái)進(jìn)行處理,其中一個(gè)模態(tài)為音頻信息(Audio cue),另一個(gè)則為視覺(jué)信息(Visual cue)。同時(shí),需預測的五大性格特質(zhì)均為連續值,因此我們將整個(gè)問(wèn)題形式化為一個(gè)回歸問(wèn)題(Regression)。我們將提出的這個(gè)模型框架稱(chēng)作雙模態(tài)深度回歸(Deep Bimodal Regression,DBR)模型。下面分別從兩個(gè)模態(tài)的處理和最后的模態(tài)融合來(lái)解析DBR。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

視覺(jué)模態(tài)

在視覺(jué)模態(tài)中,考慮到對于短視頻類(lèi)數據,時(shí)序信息的重要程度并不顯著(zhù),我們采取了更簡(jiǎn)單有效的視頻處理方式,即直接將視頻隨機抽取若干幀(Frame),并將其作為視覺(jué)模態(tài)的原始輸入。當然,在DBR中,視覺(jué)模態(tài)的表示學(xué)習部分不能免俗的使用了卷積神經(jīng)網(wǎng)絡(luò )(Convolutional Neural Networks,CNN)。同時(shí),我們在現有網(wǎng)絡(luò )基礎上進(jìn)行了改進(jìn),提出了描述子融合網(wǎng)絡(luò )(Descriptor Aggregation Networks,DAN),從而取得了更好的預測性能。

以VGG-16為例,傳統CNN經(jīng)過(guò)若干層卷積(Convolutional)、池化(Pooling)的堆疊,其后一般是兩層全鏈接層(Fully connected layers)作為網(wǎng)絡(luò )的分類(lèi)部分,最終輸出結果。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

受到我們最近工作[2]的啟發(fā),在DBR視覺(jué)模態(tài)的CNN中,我們扔掉了參數冗余的全鏈接層,取而代之的是將最后一層卷積層學(xué)到的深度描述子(Deep descriptor)做融合(Aggregation),之后對其進(jìn)行L2規范化(L2-normalization),最后基于這樣的圖像表示做回歸(fc+sigmoid作為回歸層),構建端到端(End-to-end)的深度學(xué)習回歸模型。另外,不同融合方式也可視作一種特征層面的集成(Ensemble)。如下圖,在DAN中,我們對最后一層卷積得到的深度描述子分別進(jìn)行最大(Max)和平均(Average)的全局池化(Global pooling)操作,之后對得到的融合結果分別做L2規范化,接下來(lái)將兩支得到的特征級聯(lián)(concatenation)后作為最終的圖像表示(Image representation)。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

傳統CNN中,80%的參數存在于全鏈接層,而DAN摒棄了全鏈接,使得DAN相比傳統CNN模型擁有更少的參數,同時(shí)大幅減少的參數可加速模型的訓練速度。另外,全局池化帶來(lái)了另一個(gè)優(yōu)勢即最終的圖像表示(512維)相比傳統全鏈接層(4096維)有了更低的維度,有利于模型的可擴展性以處理海量(Large-scale)數據。

此外,為了集成多層信息(Multiple layer ensemble),在DAN基礎上我們提出了可端到端訓練的DAN+。具體而言,是對ReLU5_2層的深度描述子做上述同樣操作,得到對應于 ReLU5_2的圖像表示,將其與Pool5層的DAN得到的圖像表示進(jìn)行二次級聯(lián),最終的向量維度為 2048 維。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

除DAN和DAN+外,在視覺(jué)模態(tài)中,我們還利用了著(zhù)名的殘差網(wǎng)絡(luò )(Residual Networks)作為模型集成的另一部分。

音頻模態(tài)

語(yǔ)音處理中的一種常用的特征為MFCC特征,在競賽模型中,我們首先從視頻中提取原始語(yǔ)音作為輸入數據,之后對其抽取MFCC特征。在此需要指出的是,抽取MFCC過(guò)程的一個(gè)副產(chǎn)品是一種名為logfbank特征,如下圖所示:

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

在抽取logfbank和MFCC特征后,我們同樣采取mini-batch形式的訓練方式訓練線(xiàn)性回歸器(Linear regression)。在競賽中,我們發(fā)現logfbank相比MFCC有更優(yōu)秀的預測效果,如下圖所示。其縱軸為回歸錯誤率(越低越好),其橫軸為訓練輪數,可以發(fā)現logfbank在最終的回歸錯誤率上相比MFCC有近0.5%的提升。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

于是我們選取 logfbank特征作為音頻模態(tài)的特征表示以預測音頻模態(tài)的回歸結果。由于競賽時(shí)間和精力有限,我們在比賽中未使用語(yǔ)音處理領(lǐng)域的深度學(xué)習模型。不過(guò),這也是后續可以提高模型性能的一個(gè)重要途徑。

模態(tài)融合(Modality ensemble)

待兩個(gè)模態(tài)的模型訓練完畢,可以得到不同模態(tài)不同模型的性格特質(zhì)預測結果,比賽中我們將其無(wú)權重的平均作為該視頻最終的性格特質(zhì)預測結果,如圖:

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

競賽結果

比賽中,我們對一個(gè)視頻抽取100 幀/張圖像作為其視覺(jué)模態(tài)的輸入,對應的原始音頻作為抽取logfbank特征的語(yǔ)料。訓練階段,針對視覺(jué)模態(tài),其100張圖像共享對應的性格特質(zhì)真實(shí)標記;預測階段,其100張圖像的平均預測值將作為該視頻視覺(jué)模態(tài)的預測結果。

經(jīng)下表對比,可以清楚看到,DAN相比VGG-Face,由于沒(méi)有了冗余的全鏈接層,其參數只有VGG-Face的約十分之一,而回歸預測準確率卻優(yōu)于傳統VGG模型,同時(shí)特征維度大大減少。此外,相比ResNet,我們提出的模型DAN和DAN+也有不俗表現。此外,在模型預測速度上,DAN和DAN+也快于VGG和ResNet。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

模態(tài)集成后,我們在五個(gè)性格特質(zhì)預測上取得了四個(gè)結果的第一,同時(shí)我們也取得了總成績(jì)的冠軍。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

模型分析

最后,我們將模型最后一層卷積/池化的特征做了可視化??梢园l(fā)現ResNet僅僅將“注意力”聚焦在了視頻中的人物上,而我們的DAN和DAN+不僅可以“注意”到人,同時(shí)可以將環(huán)境和動(dòng)作信息結合起來(lái)進(jìn)行表象性格預測。另外值得一提的是,其余參賽隊均做了人臉檢測等預處理操作,從而將人物從視頻中“摳”出,但是這樣的操作反而降低了整個(gè)性格特質(zhì)預測的性能。俗話(huà)說(shuō)“氣由心生”,一個(gè)人所處的環(huán)境(尤其是臥室、辦公室等私人場(chǎng)所)往往可以從側面反映一個(gè)人的性格特性。

南京大學(xué)機器學(xué)習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享

參考文獻

[1]Victor Ponce-Lopez, Baiyu Chen, Marc Oliu, Ciprian Cornearu, Albert Clapes, Isabelle Guyon, Xavier Baro, Hugo Jair Escalante and Sergio Escalera. ChaLearn LAP 2016: First Round Challenge on First Impressions - Dataset and Results. European Conference on Computer Vision, 2016.

[2]Xiu-Shen Wei, Chen-Wei Xie and Jianxin Wu. Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition. arXiv:1605.06878, 2016.

[3]Chen-Lin Zhang, Hao Zhang, Xiu-Shen Wei and Jianxin Wu. Deep Bimodal Regression for Apparent Personality Analysis. European Conference on Computer Vision, 2016.

【編者按】本文轉自新智元。來(lái)源:深度學(xué)習大講堂,作者:魏秀參

作者簡(jiǎn)介:魏秀參,為本次競賽NJU-LAMDA參賽隊Team Director。南京大學(xué)計算機系機器學(xué)習與數據挖掘所(LAMDA)博士生,研究方向為計算機視覺(jué)和機器學(xué)習。曾在國際頂級期刊和會(huì )議發(fā)表多篇學(xué)術(shù)論文,并多次獲得國際計算機視覺(jué)相關(guān)競賽冠亞軍,另撰寫(xiě)的「Must Know Tips/Tricks in Deep Neural Networks」受邀發(fā)布于國際知名數據挖掘論壇 KDnuggets 等。 微博ID:Wilson_NJUer

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到