數據來(lái)的太兇猛!關(guān)于2017年大數據的十大預測

韓璐 8年前 (2017-02-17)

數據如何變現,價(jià)值怎么挖掘?2017大數據十大趨勢,興許給你驚艷的解答~

隨著(zhù)對不同類(lèi)型、不同體量數據的結構化存儲、批量處理以及價(jià)值挖掘需求的增多,2016年注定是大數據里程碑式的一年。

2017年,支持大量結構化和非結構化數據的系統將繼續增長(cháng)。市場(chǎng)需要數據平臺來(lái)幫助數據管理人員管理和保護大數據,同時(shí)允許最終用戶(hù)進(jìn)行數據分析。這些系統將逐步成熟,在企業(yè)內部的IT系統中更好地運行。

1.數據處理變得更加快速,數據也變得更加易于使用

選項擴展將加速Hadoop

當然,你可以在Hadoop上執行機器學(xué)習和情緒分析,但人們常常會(huì )問(wèn)的第一個(gè)問(wèn)題是:交互式SQL(結構化查詢(xún)語(yǔ)言,一種數據庫查詢(xún)和程序設計語(yǔ)言,用于存取數據以及查詢(xún)、更新和管理關(guān)系數據庫系統)究竟有多快?畢竟,SQL相當于企業(yè)用戶(hù)的“導管”——他們希望使用Hadoop數據來(lái)更快的獲得可復用的BI儀表盤(pán)(一種向企業(yè)展示度量信息和關(guān)鍵業(yè)務(wù)指標即KPI現狀的數據虛擬化工具),或者是進(jìn)行一些探索性分析。

這種對速度的需求促使用戶(hù)采用訪(fǎng)問(wèn)速度更快和執行效率更高的數據庫,如Exasol、MemSQL,或者是類(lèi)似于Kudu這種基于Hadoop的商店,當然還需要能夠更快查詢(xún)數據的技術(shù)。諸如SQL-on-Hadoop引擎(ApacheImpala,HiveLLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技術(shù)(AtScale,JethroData和KyvosInsights)這樣的數據查詢(xún)加速器將進(jìn)一步模糊傳統數據庫與大數據世界的邊界。

2.大數據不再只是Hadoop

專(zhuān)門(mén)基于Hadoop開(kāi)發(fā)的工具已過(guò)時(shí)

在過(guò)去的幾年中,隨著(zhù)大數據浪潮來(lái)襲,數種為了滿(mǎn)足Hadoop分析需求的技術(shù)興起。但是,身處復雜,異構環(huán)境中的企業(yè)不再希望僅為一個(gè)數據源(Hadoop)采用孤立的BI訪(fǎng)問(wèn)點(diǎn)。他們需要的答案被埋沒(méi)在一大堆數據源中,從記錄系統到云端,再到來(lái)自Hadoop和非Hadoop源的結構化和非結構化數據。(順便說(shuō)一句,甚至連關(guān)系型數據庫也正在為大數據趨勢做準備。例如,SQLServer2016于近日添加了JSON支持)。

在2017年,客戶(hù)將會(huì )需要對所有數據都進(jìn)行分析。不依賴(lài)于數據源的平臺將會(huì )茁壯成長(cháng),而專(zhuān)為Hadoop而設計的平臺和未能跨應用部署的平臺將被棄用。Platfora的退出便是這一趨勢的預示。

3.相關(guān)組織將利用數據湖(DataLake)來(lái)實(shí)現價(jià)值

數據湖就像一個(gè)人造水庫。首先你要建造一個(gè)水壩(構建一個(gè)集群),然后填滿(mǎn)水(數據)。一旦建立了湖泊,你將開(kāi)始因為各種目的而使用這些水資源(數據),如發(fā)電,飲用以及各種消遣(預測分析,機器學(xué)習,網(wǎng)絡(luò )安全等)。

而今,保有數據湖里的數據已經(jīng)變成了一種為了保留而保留的行為。在2017年,這將隨著(zhù)Hadoop業(yè)務(wù)的收緊而改變。各個(gè)組織要求可重復的并且敏捷地使用數據湖,以便更快地獲得響應。在確定對人事、數據和基礎設施的相應投資之前,企業(yè)會(huì )更加慎重的考慮業(yè)務(wù)成果。這將促進(jìn)業(yè)務(wù)和IT之間的強力耦合。而自助服務(wù)平臺作為分析大數據資產(chǎn)的工具將獲得更深入的認可。

另外,公司還將關(guān)注業(yè)務(wù)驅動(dòng)型應用,避免數據湖陷入困境。在2017年,企業(yè)機構將從“構建未來(lái)”的數據湖應用轉向業(yè)務(wù)驅動(dòng)型數據應用。當今世界需要分析和操作能力去觸及客戶(hù)、處理索賠并且連接到個(gè)體的不同設備。

舉例而言,任何商業(yè)網(wǎng)站需要提供實(shí)時(shí)的個(gè)性化推薦和價(jià)格查詢(xún)。醫療健康型企業(yè)必須處理有效的索賠并且運用分析運營(yíng)系統來(lái)防止索賠欺詐。媒體公司需要通過(guò)機頂盒提供個(gè)性化的內容。汽車(chē)制造商和汽車(chē)共享公司則要交互運營(yíng)其車(chē)輛和司機。這些案例的實(shí)施交付均需要由一個(gè)敏捷平臺來(lái)實(shí)現,同時(shí)提供分析和運營(yíng)的處理,跨越后臺分析和前臺運營(yíng)進(jìn)行整合,提升了商業(yè)價(jià)值。

4.成熟的架構拒絕通用型框架

Hadoop不再只是一個(gè)用于數據科學(xué)用例的批處理平臺。它已經(jīng)成為一種專(zhuān)為特殊分析而架設的多用途分析引擎,甚至被用于日常工作負載的操作報告——傳統上這項任務(wù)是由數據倉庫(大量數據提取和分析的工具)來(lái)處理的。

在2017年,各個(gè)組織將通過(guò)特定的用例的架構設計來(lái)滿(mǎn)足現存的混合需求。他們將研究一系列的因素,包括用戶(hù)角色模型、訪(fǎng)問(wèn)頻率、數據速度和聚合級別等,然后才能提交合適的數據策略。這些現代化的參考架構由需求驅動(dòng),他們將以某種方式將最好的自助服務(wù)數據準備工具Hadoop核心和最終用戶(hù)分析平臺結合起來(lái),以便可以根據這些需求進(jìn)行重新配置。這些架構的靈活性將最終推動(dòng)技術(shù)選擇。

5.推動(dòng)大數據投資的是數據的多樣性,而不是體量和速

Gartner將大數據定義為“三高”:高容量,高速率,高品類(lèi)的信息資產(chǎn)。正如NewVantagePartners最近的一項調查結果所示:雖然三個(gè)特性都在凸顯,但其中,多元化無(wú)疑正成為大數據投資的主導推動(dòng)力。

隨著(zhù)企業(yè)尋求整合更多來(lái)源并關(guān)注大數據的“長(cháng)尾”,這一趨勢將更加明顯。從自由模式的JSON到嵌入式的數據庫(如關(guān)系數據庫和非關(guān)系數據庫),到非平面數據(如Avro,Parquet,XML),數據格式正在成倍增長(cháng),連接器變得至關(guān)重要,它將不同格式的數據變成統一的表達/它讓不同格式的數據之間實(shí)現互通。在2017年,為零散的、不同的資源提供即時(shí)連接的能力,將成為評估一個(gè)平臺能力的重要方面。

6.Spark和機器學(xué)習打通大數據的任督二脈

ApacheSpark曾是Hadoop生態(tài)系統的一個(gè)組件,現在正成為大數據平臺企業(yè)的首選。

在對數據架構師、IT經(jīng)理和BI分析師的調查中,近70%的受訪(fǎng)者表示,現有的MapReduce里邊最青睞Spark,它是批量導向的并行處理,但不適合交互式應用程序或實(shí)時(shí)流處理。

這些以大數據為基礎的超級計算能力為計算密集型的平臺提供了極大的助力,如:機器學(xué)習(ML)、人工智能(AI)、圖形算法等。尤其對于MicrosoftAzure機器學(xué)習,由于上述計算能力也完全適用于初學(xué)者,并能迅速集成到現有的Microsoft平臺。向大眾開(kāi)放機器學(xué)習將有助于創(chuàng )建更多的模型和應用程序來(lái)生成PB級數據。隨著(zhù)機器學(xué)習和系統日益智能化,自助服務(wù)軟件提供商們是時(shí)候要挖掘一下大數據的力量如何變現到最終用戶(hù)身上。

7.物聯(lián)網(wǎng)、云服務(wù)和大數據集結起來(lái)便是自助服務(wù)的新機遇

在2017年,似乎一切都將有一個(gè)傳感器把信息送回主體。

IoT正在生成大量的結構化和非結構化數據,而且越來(lái)越多的數據部署在云服務(wù)上。數據通常是異構的,并且存在于多個(gè)關(guān)系和非關(guān)系系統中,如Hadoop集群、非關(guān)系數據庫等。

雖然存儲和管理服務(wù)的創(chuàng )新加快了數據獲取的步伐、進(jìn)程程,但訪(fǎng)問(wèn)和理解數據本身仍然是棘手的“最后一米”。因此,對于無(wú)縫連接和組合各種云托管數據源的分析工具的需求正在增長(cháng)。這樣的工具使企業(yè)實(shí)現了大數據庫的即時(shí)調取和可視化管理,,從而幫助物聯(lián)網(wǎng)投資者挖掘隱藏的機會(huì )。

------ 【iot101君插播】------

Hadoop大數據技術(shù)案例

讓Hadoop和其他大數據技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問(wèn)題的答案,而在此之前他們甚至不知道問(wèn)題是什么。包括谷歌,Facebook、LinkedIn還在內的諸多巨頭,都在幫助Hadoop改善運營(yíng)效率。具體包括包括:

情感分析: Hadoop與先進(jìn)的文本分析工具結合,分析社會(huì )化媒體和社交網(wǎng)絡(luò )發(fā)布的非結構化的文本,包括Tweets和Facebook,以確定用戶(hù)對特定公司,品牌或產(chǎn)品的情緒。分析既可以專(zhuān)注于宏觀(guān)層面的情緒,也可以細分到個(gè)人用戶(hù)的情緒。

風(fēng)險建模: 財務(wù)公司、銀行等公司使用Hadoop和下一代數據倉庫分析大量交易數據,以確定金融資產(chǎn)的風(fēng)險,模擬市場(chǎng)行為為潛在的“假設”方案做準備,并根據風(fēng)險為潛在客戶(hù)打分。

欺詐檢測: 金融公司、零售商等使用大數據技術(shù)將客戶(hù)行為與歷史交易數據結合來(lái)檢測欺詐行為。例如,信用卡公司使用大數據技術(shù)識別可能的被盜卡的交易行為。

客戶(hù)流失分析: 企業(yè)使用Hadoop和大數據技術(shù)分析客戶(hù)行為數據并確定分析模型,該模型指出哪些客戶(hù)最有可能流向存在競爭關(guān)系的供應商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶(hù)。

用戶(hù)體驗分析: 面向消費者的企業(yè)使用Hadoop和其他大數據技術(shù)將之前單一 客戶(hù)互動(dòng)渠道(如呼叫中心,網(wǎng)上聊天,微博等)數據整合在一起, 以獲得對客戶(hù)體驗的完整視圖。這使企業(yè)能夠了解客戶(hù)交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶(hù)生命周期的用戶(hù)體驗。

8.在最終用戶(hù)驅動(dòng)下,自助數據預處理走向主流

Hadoop數據如何走進(jìn)企業(yè)用戶(hù),是當下最大的挑戰之一。自助服務(wù)分析平臺的興起改善了這一過(guò)程。但企業(yè)用戶(hù)希望進(jìn)一步簡(jiǎn)化數據分析的流程,尤其在處理多種數據類(lèi)型和格式時(shí),這一訴求更加明顯。

敏捷的自助服務(wù)數據預處理工具不僅可以在源處預處理Hadoop數據,而且還使數據作為快照來(lái)用,從而進(jìn)行簡(jiǎn)易便捷的進(jìn)一步處理。

我們已經(jīng)看到了的一大批面向終端用戶(hù)的大數據預處理創(chuàng )新, Alteryx、Trifacta和Paxata。這些工具降低了后期Hadoop采用者和初學(xué)者的進(jìn)入門(mén)檻,并將在2017年體現更大價(jià)值。

9.大數據成長(cháng):Hadoop增加了企業(yè)標準

Hadoop將逐漸成為企業(yè)IT環(huán)境的核心部分。在2017年,我們將看到圍繞企業(yè)系統的安全、管理成為投資熱地的更多投資。ApacheSentry提供了一個(gè)系統,在這個(gè)系統中,我們可以強制對元數據進(jìn)行細致的、按需分配的授權。

作為數據管理的一項重大創(chuàng )舉,Apache Atlas,讓企業(yè)可以在繁雜的數據生態(tài)系統中實(shí)行統一的數據分類(lèi)。Apache Ranger為Hadoop提供集中式安全管理。

客戶(hù)開(kāi)始期望從企業(yè)級RDBMS平臺獲得這些類(lèi)型的功能。這些功能走在新興大數據技術(shù)的前沿,從而消除了企業(yè)關(guān)于技術(shù)迭代而被淘汰方面的擔憂(yōu)。

------ 【iot101君插播】------

Hadoop對數據進(jìn)行細致管理、按需分配的實(shí)例

Last.fm創(chuàng )建于2002年,是提供網(wǎng)絡(luò )電臺和音樂(lè )服務(wù)的社交網(wǎng)絡(luò )。每個(gè)月有2500萬(wàn)人使用,產(chǎn)生大量數據。2006年初,Last.fm開(kāi)始使用Hadoop。Hadoop是Last.fm基礎平臺的關(guān)鍵組件,有2個(gè)Hadoop集群,運行數百種各種日常作業(yè),包括日志文件分析,A/B測試評測,即時(shí)處理和圖表生成。

圖表生成:圖表生成是Hadoop在Last.fm的第一個(gè)應用。

數據從哪里來(lái):Last.fm有兩種收聽(tīng)信息:用戶(hù)播放自己的音樂(lè ),如pc或者其他設備mp3,這種信息通過(guò)Last.fm的客戶(hù)端或者第三方應用發(fā)送到Last.fm,這一類(lèi)叫scrobble收藏數據;用戶(hù)收聽(tīng)Last.fm網(wǎng)絡(luò )電臺的節目,以及聽(tīng)節目時(shí)候的喜愛(ài),跳過(guò),禁止等操作信息,這一類(lèi)叫radio listen電臺收聽(tīng)數據。

數據存儲:收聽(tīng)數據被發(fā)送到Last.fm,經(jīng)歷驗證和轉換,形成一系列有空格分隔的文本文件,包含用戶(hù)id-userid,音樂(lè )id-trackid,這首音樂(lè )被收藏的次數scrobble,這首音樂(lè )在電臺中收聽(tīng)的次數radio,被跳過(guò)的次數skip。真實(shí)數據達到GB級別,有更多屬性字段。

數據處理:

Unique Listeners作業(yè):統計收聽(tīng)某一首歌的不同用戶(hù)數,也就說(shuō)說(shuō),有多少個(gè)用戶(hù)聽(tīng)過(guò)某個(gè)歌,如果用戶(hù)重復收聽(tīng),只算一次。

Sum作業(yè):每首歌的收聽(tīng)總數,收藏總數,電臺收聽(tīng)總數,被跳過(guò)的總數。

合作作業(yè):每首歌被多少用戶(hù)收聽(tīng)總數,收聽(tīng)總數,收藏總數,電臺收聽(tīng)總數,被跳過(guò)的總數等。

最后,這些數據會(huì )被作為周排行榜等在Last.fm主站上顯示出來(lái)。

10.元數據目錄的建立幫助篩選出具有分析價(jià)值的數據

很長(cháng)一段時(shí)間以來(lái),公司拋棄了數據,因為他們認為海量的數據處理起來(lái)確實(shí)無(wú)從下手。用Hadoop當然也可以處理大量的數據,但是這些數據仍然沒(méi)有一個(gè)清晰的分類(lèi)、易追溯的架構。

元數據目錄可以幫助用戶(hù)發(fā)現和理解哪些數據需要使用自助服務(wù)工具進(jìn)行分析??蛻?hù)的這種需求正被Alation和Waterline這樣的公司填補,它們使用機器學(xué)習來(lái)自動(dòng)篩選Hadoop需要分析的數據:

如,使用標簽對文件進(jìn)行編目,標明數據資產(chǎn)之間的關(guān)聯(lián),必要時(shí)還會(huì )提供搜索UI給出的查詢(xún)建議。這大大縮短了數據使用者和管理者取得信任、查找以及準確查詢(xún)數據的時(shí)間。在2017年,作為自助服務(wù)的自然延伸,我們將看到更多企業(yè)意識到自助分析的重要性,以及對其迫切的需求。

?【編者按】本文轉自物聯(lián)網(wǎng)智庫,文章來(lái)源:Tableau,編譯:iot101君。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到