愛(ài)數智慧張晴晴:采用人機協(xié)作模式,為智能世界提供充足數據生產(chǎn)力
在張晴晴看來(lái),數據服務(wù)商若想很好的在市場(chǎng)存活,需要做到“多快好省+專(zhuān)業(yè)”。
“大數據本身處于一個(gè)原始狀態(tài),那些還沒(méi)有經(jīng)過(guò)清洗和整理的非結構化數據是價(jià)值極低的,只有經(jīng)過(guò)結構化處理,數據才能夠被真正用起來(lái)。”愛(ài)數智慧創(chuàng )始人兼CEO張晴晴表示。
圖 | 愛(ài)數智慧創(chuàng )始人兼CEO張晴晴
眾所周知,AI的發(fā)展需要滿(mǎn)足三個(gè)基本(必要)條件:算法、算力和數據。數據作為其中重要的一環(huán),隨著(zhù)5G時(shí)代到來(lái),重要性愈加凸顯。促進(jìn)AI行業(yè)的發(fā)展,用好數據很重要。但是在這之前還有一個(gè)環(huán)節不可忽視,即數據采集和標注,目的是讓數據變得“能用”。
增速快,數據采集與標注市場(chǎng)未來(lái)可期
什么是數據采集與標注?簡(jiǎn)單來(lái)講,就是收集包括文本、圖像、視頻、、語(yǔ)音等在內的數據,繼而對這些數據進(jìn)行清洗和標注。
數據顯示,2018年我國數據標注行業(yè)的市場(chǎng)規模已達到60億元。對于數據采標的市場(chǎng)規模,張晴晴表示,短期來(lái)看,數據采集標注市場(chǎng)可能只是百億量級,但從長(cháng)遠角度來(lái)看,讓數據從非結構化進(jìn)化到結構化的精加工過(guò)程是一個(gè)非常龐大的市場(chǎng),預計將達到千億。
“現如今,大家對智能化、信息化、標準化需求的滲透率還沒(méi)有那么高,隨著(zhù)滲透率的逐步擴大,數據采標的市場(chǎng)也會(huì )越來(lái)越大。”
落實(shí)到具體的需求,客戶(hù)究竟想得到怎樣的服務(wù)、達到什么樣的目的?對于這個(gè)問(wèn)題,張晴晴也給出了答案。她表示客戶(hù)的核心需求主要有兩個(gè),一個(gè)是搭建系統用的基礎數據庫,另一個(gè)則是數據的精加工。“公司會(huì )從我們這里購買(mǎi)一些標準化的數據產(chǎn)品,來(lái)搭建基礎系統。隨著(zhù)系統搭建完成,源源不斷的新數據開(kāi)始產(chǎn)生,這些數據是非結構化的,而企業(yè)需要收集它們并進(jìn)行精加工,去做結構化的標注,公司這時(shí)候也會(huì )需要我們的服務(wù)。”
充分利用人機協(xié)作優(yōu)勢,為智能世界提供數據生產(chǎn)力
張晴晴介紹,她本人之前所從事的是聲學(xué)研究,而團隊的背景也多在語(yǔ)音語(yǔ)義領(lǐng)域,因此在業(yè)務(wù)層面,愛(ài)數智慧主要集中在語(yǔ)音方面,包括智能客服、智能家居、智能教育等等。另外在圖像、文本等領(lǐng)域,他們在主營(yíng)業(yè)務(wù)之外也有所涉獵。
按照屬性來(lái)劃分,愛(ài)數智慧應該歸類(lèi)于專(zhuān)門(mén)做數據采標的第三方公司,而一些公司往往還會(huì )選擇在內部設立標注部門(mén)。對此,張晴晴認為從公司角度出發(fā),出于數據安全考慮,這種做法是合理的。但是“公司自己來(lái)做的話(huà),往往在數據結構化的專(zhuān)業(yè)度等方面會(huì )有所損失。”她指出,現在的企業(yè)自己做數據大多是利用純人工的方式對數據進(jìn)行采集和標注,這樣處理數據具有四個(gè)特點(diǎn),就是少(處理數據少)、慢(速度慢)、貴(成本高)、差(質(zhì)量差)。
鎂客網(wǎng)采訪(fǎng)過(guò)程中,張晴晴強調“愛(ài)數智慧是一家專(zhuān)業(yè)數據服務(wù)商,能充分利用人機協(xié)作的優(yōu)勢,將人在數據處理上舉一反三的能力與機器良好的記憶能力相結合,讓數據處理的過(guò)程更快且處理效果更好“。“人機協(xié)作”是愛(ài)數智慧的最大優(yōu)勢,而這一模式能夠節省數據處理的時(shí)間和成本,并提高數據處理的精度。
“數據采標過(guò)程中有很多環(huán)節是可以由機器來(lái)完成的,但是在精度方面會(huì )存在一些問(wèn)題,尤其是當數據存在異常的情況下,機器的精度是完全不能夠保證的。”張晴晴表示。當機器不能解決問(wèn)題時(shí),就需要人工進(jìn)行介入。“總體來(lái)看,人工介入的比例還是比較少的,可以這樣理解,人工更多承擔的是‘質(zhì)檢工作’,是對機器的結果進(jìn)行質(zhì)檢,而不是從零開(kāi)始對數據進(jìn)行標注。”
目前,愛(ài)數智慧的智能化數據處理平臺包括智能采集判斷、標注效率優(yōu)化、智能質(zhì)檢、智能任務(wù)拆解技術(shù)、智能畫(huà)像技術(shù)等。人工方面,這一平臺在全世界各地擁有30萬(wàn)C端數據處理員,基于用戶(hù)畫(huà)像技術(shù),平臺能夠“知悉”每位數據處理員的長(cháng)處,繼而通過(guò)智能任務(wù)拆解技術(shù)將項目分拆,并分發(fā)給最適合某子項目的數據處理員,做到人員的配置最優(yōu)化。
“我們的定位是為智能世界提供充足的數據生產(chǎn)力。”張晴晴表示。
最后
在張晴晴看來(lái),要想能夠很好地站立在數據采標市場(chǎng),除了做到“多快好省”,還需要做到“足夠專(zhuān)業(yè)”。“做到多快好省中的一兩點(diǎn)還不能夠獲得一個(gè)明確的勝利,如果同時(shí)做到四點(diǎn),那是非常不容易的。另外作為一家數據服務(wù)公司,還需要在數據處理維度上體現自己的專(zhuān)業(yè)度,做到給客戶(hù)提供更加專(zhuān)業(yè)的方案建議。”
目前,愛(ài)數智慧已經(jīng)與微軟、阿里、騰訊、滴滴等簽署了長(cháng)期戰略合作計劃,也曾為中國移動(dòng)、聯(lián)想、百度等八大行業(yè)的近百家客戶(hù)提供過(guò)數據服務(wù)。
可以看到,愛(ài)數智慧過(guò)往所服務(wù)的公司多是行業(yè)內頭部企業(yè),而在接下來(lái),“我們將會(huì )為發(fā)展中的AI企業(yè)及其他布局AI的傳統企業(yè)客戶(hù)提供數據服務(wù),為智能世界提供充足的數據生產(chǎn)力,為國內外AI企業(yè)發(fā)展助力,為傳統企業(yè)智能化賦能”。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
