數據將井噴式增長(cháng),多模數據庫被“提名”,或助力AI更“智慧”

韓璐 5年前 (2020-09-22)

面對新基建驅動(dòng)而即將造成的數據量井噴現象,當下的數據庫模式將不能夠足以支撐,尤其考慮到AI正逐步落地的情況。

--全球每天生產(chǎn)的數據有多少?

--非常多。

依據Raconteur統計的數據,到2025年,全球每天預計有463 EB數據產(chǎn)生,相當于每天產(chǎn)出約2.1億張DVD碟;IDC發(fā)布的《數據時(shí)代2025》報告中也預測,全球每年產(chǎn)生的數據從2018年的33 ZB增長(cháng)到175 ZB(1 ZB=1024 EB),以25 MB/秒的網(wǎng)速進(jìn)行下載,需要的時(shí)間為18億年。

隨著(zhù)數據量的暴增,問(wèn)題逐漸暴露。

數據將井噴式增長(cháng),多模數據庫被“提名”,或助力AI更“智慧”

數據規模大、類(lèi)型多,一站式服務(wù)需求激增

截至目前,針對海量數據的處理,業(yè)內既有的數據產(chǎn)品多只能解決某一類(lèi)問(wèn)題,譬如Hive應用于結構化數據、面向數據存儲的文檔數據庫MongDB、專(zhuān)注于復雜搜索需求的ElasticSearch以及圖數據庫Neo4J等等。與此同時(shí),圍繞多種數據類(lèi)型的存儲與處理需求,業(yè)內也搭建了一種混搭架構,涉及多種不同的數據庫技術(shù),以解決不同的數據問(wèn)題。

只不過(guò),我們也可以注意到,各個(gè)數據庫可以說(shuō)是各自為政的,這也使得客戶(hù)在需要使用多種數據庫產(chǎn)品時(shí),需要自己重新架設一層,以解決需求被滿(mǎn)足時(shí)所產(chǎn)生的附加問(wèn)題,包括數據如何在不同數據庫之間導進(jìn)導出、數據在不同庫中的一致性保持、整體運維等等。

僅從文字的描述來(lái)看,就可以知道,數據庫的單一獨立使用和混合使用各有優(yōu)劣,前者操作簡(jiǎn)單但供給不足以滿(mǎn)足實(shí)際應用場(chǎng)景的多樣化需求,后者雖然能夠滿(mǎn)足客戶(hù)圍繞數據產(chǎn)生的多樣化需求,但是操作不便、運維復雜等問(wèn)題也是不可忽視的。

就當下而言,混合架構或許尚能夠應對來(lái)自產(chǎn)業(yè)內的多樣化數據需求,但是長(cháng)久以往下去并不是一個(gè)辦法,尤其是隨著(zhù)新基建的到來(lái),于國內數據庫的發(fā)展也帶來(lái)了極大的挑戰。針對這個(gè)問(wèn)題,騰訊云數據庫副總經(jīng)理王義成指出了三點(diǎn):

1、數據量出現全面井噴,如何滿(mǎn)足相應運算與分析的實(shí)時(shí)進(jìn)行?

2、業(yè)務(wù)融合多樣化發(fā)出挑戰,數據庫是否能夠接受在不同的業(yè)務(wù)中心、數據中心、基礎設施之間去做相應的部署和融合?

3、老齡化逐步演進(jìn),數據庫人才缺口可能更大,數據庫供應商如何為用戶(hù)提供多種自動(dòng)化服務(wù),以及能否為用戶(hù)的多種服務(wù)需求提供自動(dòng)運維服務(wù),實(shí)現整個(gè)數據的自動(dòng)化治理?

數據將井噴式增長(cháng),多模數據庫被“提名”,或助力AI更“智慧”

圖 |騰訊云數據庫副總經(jīng)理王義成

從這些挑戰來(lái)看,鑒于數據庫與數據庫之間的不兼容,為了避免復雜操作性、實(shí)現成本有效降低等目的,一個(gè)面向數據層面的一站式服務(wù)平臺顯然成為一個(gè)剛需。簡(jiǎn)單來(lái)講,在這個(gè)一站式數據服務(wù)平臺或數據庫中,用戶(hù)希望能夠以簡(jiǎn)單的操作方式調用多數據庫的資源,并處理多種數據模型等等。

數據庫未來(lái)趨勢?提名“多模數據庫”

在提及數據庫在新基建背景下將面臨的挑戰時(shí),他也指出了這一產(chǎn)品的兩點(diǎn)趨勢,一點(diǎn)關(guān)乎數據庫分配模式,“在數據量再擴幾倍的情況下,還能保持TP與AP的整體穩定性和性能,這是一個(gè)大趨勢,大家也會(huì )在這個(gè)點(diǎn)上繼續去深耕。”

第二點(diǎn)上,王義成則表示隨著(zhù)5G的到來(lái),可能會(huì )有更多模式的數據庫會(huì )出來(lái),包括圖數據庫或是更為稀奇的數據模式。

“數據庫的下一個(gè)模式會(huì )向多模方向發(fā)展。數據庫的存儲模式是不同的,但真正對于應用訪(fǎng)問(wèn)來(lái)說(shuō),或者對于應用處理來(lái)說(shuō),需要一個(gè)更加經(jīng)典化、更加統一的標準接口讓上層應用能夠去訪(fǎng)問(wèn)。”王義成表示,“我認為,應對5G帶來(lái)的應用爆發(fā)、數據爆發(fā),多??赡苁且粋€(gè)大的趨勢點(diǎn)。”

多模數據庫究竟是怎樣的?與現有的混合架構模式而言,它的優(yōu)勢體現在哪里?

簡(jiǎn)單來(lái)講,多模數據庫最終體現的是一種數據模式的統一,主要形式有兩種:

一種是數據存儲為統一模式,可以在這一層面暴露多種協(xié)議接口類(lèi)型,比如一套數據存儲,可以暴露Mongo的訪(fǎng)問(wèn)模式,暴露MySQL的訪(fǎng)問(wèn)模式;

另一種則是集中存儲,將不同類(lèi)型的數據庫存儲道一個(gè)整體通用的數據平臺,再用一個(gè)up層,或者用一個(gè)接口層去兼容多種協(xié)議,讓所有的應用都能夠更為方便的集中于自身的數據處理跟統一。

相較于混合架構而言,多模數據庫在進(jìn)行統一整合、將操作極簡(jiǎn)化的同時(shí),也降低了數據在不同庫之間來(lái)回遷移的成本和風(fēng)險等。“多模數據庫有可能是未來(lái)中長(cháng)期相對比較的趨勢。”王義成說(shuō)到。

數據將井噴式增長(cháng),多模數據庫被“提名”,或助力AI更“智慧”

多模數據庫驅動(dòng)下,助力AI逼近“人類(lèi)智能

從前面行業(yè)內人士的講解來(lái)看,在數據庫賽道中,利好多多的多模數據庫已然成為被看好的下一個(gè)趨勢。當前,在多模數據庫賽道中,包括騰訊在內,華為、阿里等大型云服務(wù)商也已經(jīng)推出或即將推出有關(guān)產(chǎn)品。

在一些行業(yè)賽道中,尤其是那些傳統行業(yè),他們的數據多是分散在各個(gè)業(yè)務(wù)系統中,這也為他們的數據化、智能化變革道路中增添了難度。如果一個(gè)產(chǎn)品能夠幫助他們更快地整合數據,并能夠提供抽象化的應用接口,這必然是利好的。

用王義成的話(huà)來(lái)說(shuō),使用多模數據庫的目的之一,是解決用戶(hù)不同調用的使用習慣,助力用戶(hù)使用。而當談及落地,“多模數據庫”于A(yíng)I的智能提升而言可謂一大助力。

數據將井噴式增長(cháng),多模數據庫被“提名”,或助力AI更“智慧”

眾所周知,AI與人類(lèi)智能差距之一就是“多模態(tài)信息的智能化理解”,這其中包括視覺(jué)、聲音、符號語(yǔ)言、嗅覺(jué)和觸覺(jué)等信息。如果能夠像人類(lèi)利用多模態(tài)數據學(xué)習知識一樣,讓AI也擁有多模態(tài)數據的學(xué)習能力,AI的智能程度必然將大大獲得提升。

然而,就目前而言,多模態(tài)AI還存在不少技術(shù)難點(diǎn),其中就涉及到多模態(tài)數據的融合。具體來(lái)看,一個(gè)軟件或算法模型的進(jìn)步是較為容易的,但當多個(gè)算法疊加在一起,難度的升級將會(huì )是成倍的,尤其在面對圖像、語(yǔ)音、觸感等非文本數據時(shí)。

就這一點(diǎn)來(lái)看,多模數據庫與AI可以看作是相輔相成的:利用AI算法,數據庫將能夠在現有基礎上獲得進(jìn)一步的優(yōu)化;反過(guò)來(lái),正是因為能夠調用多個(gè)數據庫,以及兼具的統一性,多模數據庫將能夠為AI算法模型提供訓練平臺,以及融合數據處理平臺,讓AI系統的決策更為全面和智能。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到