頂級開(kāi)源項目蛻變:狂飆的Flink與崛起的中國開(kāi)發(fā)者

IM2MakerOpr 2年前 (2023-03-21)

事實(shí)也表明,領(lǐng)先的云廠(chǎng)商正在成為開(kāi)源的引領(lǐng)者,以云+開(kāi)源構筑數字世界的根基,支撐各行各業(yè)開(kāi)發(fā)者擁抱云與開(kāi)源,加速邁向數智未來(lái)。

2018至2019年,在那風(fēng)起“云”涌的日子里,傳統IT企業(yè)和云服務(wù)提供商紛紛盯上了開(kāi)源這塊富饒的土地。繼微軟75億美元收購素有“開(kāi)發(fā)者神器”之稱(chēng)的GitHub后,藍色巨人IBM斥資340億美元拿下開(kāi)源界“一哥”Red Hat,阿里巴巴也以9000萬(wàn)歐元攬得Flink背后的創(chuàng )業(yè)新星Data Artisans (后更名為Ververica),代表中國企業(yè)參與全球化開(kāi)源開(kāi)發(fā)者生態(tài)的布局與角逐。

短短數年后,這些當年多多少少都曾被詬病“商業(yè)公司破壞開(kāi)源生態(tài)”的收購案,如今恰恰證明商業(yè)巨頭介入對于開(kāi)源生態(tài)的持續繁榮是何等重要。種種跡象表明,在時(shí)代變革的浪潮下,迅速發(fā)展的公有云廠(chǎng)商不僅不是開(kāi)源的“攔路虎”,反而還能促進(jìn)開(kāi)源軟件生態(tài)快速成長(cháng),正在成為開(kāi)源的引領(lǐng)者。

僅2022年我們看到,Github 新增了2050萬(wàn)開(kāi)發(fā)人員,總數達到 9400萬(wàn),同比大增27%。Flink的Github Star數和貢獻者人數也在以同比超30%的速度增長(cháng),如今Star數已超2萬(wàn)個(gè),擁有上千名貢獻者 (contributors),有超過(guò)20萬(wàn)開(kāi)發(fā)者關(guān)注、超過(guò)100家國內外知名公司參與代碼貢獻,月下載量峰值突破1400萬(wàn)次,已連續兩年蟬聯(lián)Apache基金會(huì )財年報告最活躍項目。

這些事實(shí)無(wú)疑再次印證了開(kāi)源軟件領(lǐng)域那些“金玉良言”——開(kāi)源與商業(yè)并不矛盾:開(kāi)源項目背后的商業(yè)公司,往往是推動(dòng)開(kāi)源項目生態(tài)繁榮的關(guān)鍵;開(kāi)源項目后面的商業(yè)公司若不在,開(kāi)源項目本身必然走向衰落或滅亡。

單以Flink這一開(kāi)源項目從“技術(shù)領(lǐng)先”到“生態(tài)領(lǐng)先”的蛻變之旅來(lái)看,這種“鐵律”到云時(shí)代不僅沒(méi)有失效,反而得到了發(fā)揚光大。阿里的深度介入,為這個(gè)誕生于歐洲的項目注入了來(lái)自中國的雄厚的技術(shù)、人才和應用生態(tài),推動(dòng)Flink全球化社區快速演進(jìn),支撐各行各業(yè)規模商用,一路狂飚成為全球大數據實(shí)時(shí)計算業(yè)界的事實(shí)標準!

生于歐洲爆發(fā)于中國,中國開(kāi)發(fā)者推動(dòng)Flink狂飆

Flink最早誕生于德國柏林工業(yè)大學(xué)大數據研究項目Stratosphere。2014年,Stratosphere項目組核心成員孵化出Flink,將Flink定位為主攻流處理計算 (Streaming) 的大數據引擎;同年,將Flink捐贈給Apache軟件基金會(huì )。2015年,Flink成為Apache頂級項目。

在Flink橫空出世之前,上一代流式計算引擎的名字叫Storm。Flink取而代之的關(guān)鍵在于它是一款有狀態(tài)的流計算,而Storm沒(méi)有。換句話(huà)說(shuō),除了低延遲、高吞吐的流計算能力,Flink還能夠將流計算與狀態(tài)存儲進(jìn)行有機融合,從而在框架層支持整個(gè)流計算狀態(tài)的精準數據一致性。正因為如此,Flink很快擊敗Storm,受到開(kāi)發(fā)者青睞,迅速成為Apache頂級項目。

不過(guò),Flink真正的爆發(fā)始于2019年。彼時(shí),Flink技術(shù)路線(xiàn)最早的擁躉之一——阿里收購了Flink背后的公司,成為Flink社區最大的推動(dòng)者;同年,阿里將內部自研并演進(jìn)多時(shí)的Flink分支Blink開(kāi)源,一舉為Flink貢獻超百萬(wàn)行代碼。特別是Stream SQL的注入,使得Flink社區也有了一套非常易用的Stream SQL,開(kāi)發(fā)者們無(wú)需再寫(xiě)高難度的Java代碼,大幅降低了開(kāi)發(fā)門(mén)檻。

自那以后阿里在核心技術(shù)、人才培養、社區運營(yíng)以及應用落地等維度持續發(fā)力,中國開(kāi)發(fā)者大量涌入,推動(dòng)Flink全球化生態(tài)實(shí)現爆發(fā)式增長(cháng)。數據顯示,Flink迄今已有超過(guò)20萬(wàn)開(kāi)發(fā)者關(guān)注、超過(guò)100家國內外知名公司參與代碼貢獻,月度下載量峰值已突破1400萬(wàn)次,形成了龐大的用戶(hù)和開(kāi)發(fā)者生態(tài)。其中2022年阿里、騰訊、字節跳動(dòng)等中國企業(yè)貢獻了超過(guò)一半的代碼;Flink社區在Github上產(chǎn)生的Pull Request有45%來(lái)自于中國開(kāi)發(fā)者,表明中國開(kāi)發(fā)者已經(jīng)成為Flink全球化社區的中堅力量。

在中國開(kāi)發(fā)者力量的大力驅動(dòng)下,Flink從2020年開(kāi)始已成為全球范圍內大數據實(shí)時(shí)計算業(yè)界的事實(shí)標準。如今只要想到實(shí)時(shí)流計算,基本上都會(huì )選擇Apache Flink。其應用也從早期的互聯(lián)網(wǎng)行業(yè)逐步擴展到政務(wù)、金融、制造、零售、交通出行、傳媒、游戲、科技等更多行業(yè)。短短數年間,Flink完成了一個(gè)開(kāi)源項目從技術(shù)領(lǐng)先到生態(tài)領(lǐng)先的蛻變之旅!

從使用者到主導者,阿里引領(lǐng)Flink社區快速演進(jìn)

眾所周知,開(kāi)源社區是開(kāi)源生態(tài)發(fā)展壯大的根基。中國不缺開(kāi)發(fā)者,但長(cháng)期以來(lái)在開(kāi)源軟件領(lǐng)域的形象是世界開(kāi)源大國,而不是開(kāi)源強國,其中最顯著(zhù)的標志是缺乏擁有主導權的開(kāi)源社區,無(wú)法定義和掌控核心項目的走向。近些年在政策及市場(chǎng)需求的驅動(dòng)下,領(lǐng)先企業(yè)紛紛邁出了構建具有主導權的開(kāi)源社區的步伐。阿里之于Flink社區,正是其中的典型。

熟悉阿里業(yè)務(wù)的都知道,大數據實(shí)時(shí)計算可謂是阿里最顯著(zhù)的標簽之一。比如每年雙11我們看到天貓交易大屏幕上顯示的那些跳動(dòng)的實(shí)時(shí)成交數字,就是實(shí)時(shí)流計算的結果。那些瞬息變化的數字,需要匯總各個(gè)地方的海量報表、數據庫等數據,在毫秒級別的時(shí)間延遲內進(jìn)行計算,并將計算結果匯總為單一的視圖呈現。此外諸如實(shí)時(shí)廣告、推薦、欺詐檢測、服務(wù)質(zhì)量監控等等,背后都有實(shí)時(shí)流計算的身影。

所以早在2015年阿里就開(kāi)始調研Flink,并于2016年在雙11搜索推薦場(chǎng)景中首次使用,隨后利用Flink實(shí)現了搜索推薦和在線(xiàn)學(xué)習全鏈路實(shí)時(shí)化。2017年,Flink成為阿里集團內實(shí)時(shí)計算的標準解決方案。

2018年,阿里將Flink上云,開(kāi)啟阿里云上基于Flink的商業(yè)化產(chǎn)品供給,以更好地為中小企業(yè)服務(wù)。同年,阿里將Flink的標桿大會(huì )Flink Forward引入中國并連續舉辦,讓廣大中國開(kāi)發(fā)者與這個(gè)大數據領(lǐng)域的頂級技術(shù)大會(huì )零距離接觸,加速了Flink社區在中國的滲透。

然后是關(guān)鍵的2019年,阿里收購Flink背后的公司,并開(kāi)源自己在Flink技術(shù)路線(xiàn)上潛心打造的Blink回饋社區,以超百萬(wàn)行代碼的貢獻在Runtime、SQL、PyFlink、ML等多個(gè)維度大幅提升了Flink的表現,隨后開(kāi)始主導推進(jìn)Flink的版本發(fā)布,攜手中國開(kāi)發(fā)者力量開(kāi)啟全球化社區建設之旅。同年阿里云推出全球統一的Flink企業(yè)版平臺Ververica Platform,持續在開(kāi)源產(chǎn)品化方面發(fā)力。

2020年,阿里將“壓箱底”的Blink內核也合并到Flink內核中,同時(shí)發(fā)起Apache Flink中文社區,全面支持開(kāi)源社區的全球化發(fā)展。當年雙11,Flink包攬了阿里集團內部所有的全鏈路實(shí)時(shí)化解決方案,規模達到百萬(wàn)級CPU Core,實(shí)時(shí)數據處理峰值創(chuàng )下40億條記錄/秒的新紀錄。自那時(shí)起,隨著(zhù)阿里云的產(chǎn)品和內部服務(wù)都基于開(kāi)源的Flink內核來(lái)實(shí)現,AWS、Cloudera等云計算和大數據廠(chǎng)商均將Flink內置為標準的云產(chǎn)品,Flink成為事實(shí)上的全球實(shí)時(shí)計算標準!

數據顯示,截至目前阿里與Ververica共同主導了211個(gè)FLIP,貢獻了Flink 70%以上的核心改進(jìn);累計培養了近70位Flink核心貢獻者 (含項目管理委員會(huì )PMC成員和活躍貢獻者committer),占比超70%;連續舉辦了4屆FFA大會(huì ) (Flink Forward Asia)及各種開(kāi)發(fā)者活動(dòng),大力推廣Flink生態(tài);通過(guò)阿里云上的Flink云產(chǎn)品和Flink企業(yè)版平臺Ververica Platform,推動(dòng)了Flink在各行各業(yè)的規模落地……可以說(shuō)在方方面面都發(fā)揮了關(guān)鍵推手的作用。

至此,阿里從使用開(kāi)源、貢獻開(kāi)源到主導開(kāi)源,蹚出了一條構建具有主導權的開(kāi)源社區的成功路徑,向世界證明了中國的技術(shù)、人才和應用生態(tài)不僅可以和世界開(kāi)源社區接軌,而且還能引領(lǐng)全球化開(kāi)源社區的快速演進(jìn)、蓬勃發(fā)展。

向“流式數倉”演進(jìn),加速“流批一體”時(shí)代到來(lái)

當然必須意識到,開(kāi)源世界的技術(shù)更迭是無(wú)比迅捷的。從Hadoop、Hive到Storm再到Spark、Flink,從批處理到流計算再到“流批一體”,技術(shù)架構與市場(chǎng)需求總是在做雙向選擇,稍不留神就有可能被“后浪”拍死在沙灘上??傮w來(lái)看,如今無(wú)論是批處理還是流計算出生的技術(shù)架構,都在將流批一體作為努力方向,力爭以一套引擎同時(shí)滿(mǎn)足實(shí)時(shí)和離線(xiàn)計算需求。

有鑒于此,阿里在2019年將Blink代碼貢獻給Flink后,便著(zhù)手從1.9版本開(kāi)始主導推動(dòng)Flink流批一體融合,包括在A(yíng)PI層面實(shí)現SQL與DataStream的流批統一,用戶(hù)只需寫(xiě)一份代碼即可運行在流模式或是批模式;在架構層面實(shí)現一個(gè)作業(yè)同時(shí)處理有限數據集和無(wú)限數據集,并且同時(shí)對接流式存儲和批式存儲,一套代碼處理兩套數據源;在運行層面做到一套調度框架同時(shí)適用于流和批的作業(yè)……

在阿里巴巴開(kāi)源委員會(huì )副主席、阿里云開(kāi)源大數據平臺負責人、Flink中文社區發(fā)起人王峰看來(lái),下一階段Flink社區新的機會(huì )點(diǎn)是繼續提升一體化的體驗,解決存儲層割裂的問(wèn)題,來(lái)實(shí)現一套實(shí)時(shí)數據鏈路。通過(guò)Flink流批一體的SQL和流批一體的存儲,構建一套真正一體化體驗的流式數倉 (Streaming Warehouse)。

頂級開(kāi)源項目蛻變:狂飆的Flink與崛起的中國開(kāi)發(fā)者

而實(shí)現流式數倉的關(guān)鍵在于打造生產(chǎn)可用的流批一體存儲,同時(shí)支持高效的流讀、流寫(xiě)、批讀、批寫(xiě),讓數倉的數據流動(dòng)起來(lái)。為此阿里在2022年發(fā)起Flink Table Store (現已更名為Paimon)項目,旨在實(shí)現流批一體的存儲能力,推動(dòng)Flink從流式計算走向流式數倉,使得用戶(hù)在整個(gè)全鏈路的開(kāi)發(fā)過(guò)程中都可以擁有全增量一體化的開(kāi)發(fā)體驗,以及統一的數據存儲和管理體系,實(shí)現“終極”的流批一體。

毋庸諱言,以流式數倉為代表的流批一體時(shí)代一旦到來(lái),將不僅意味著(zhù)業(yè)務(wù)開(kāi)發(fā)效率和計算性能的進(jìn)步,也會(huì )讓計算集群的資源利用率得到進(jìn)一步提升。畢竟,批和流一套引擎,運行在一套資源底座上,不僅會(huì )節省開(kāi)發(fā)和運維成本,同時(shí)也會(huì )大幅節省計算所耗的資源成本——這在算力昂貴的數智經(jīng)濟時(shí)代別提有多重要。阿里引領(lǐng)下的Flink社區以此為演進(jìn)目標,足見(jiàn)背后的雄心壯志。

小結:

“中國開(kāi)發(fā)群體走向哪里,哪里就有可能成為制高點(diǎn)。”中國科學(xué)院院士王懷民在2022開(kāi)放原子開(kāi)源峰會(huì )上指出,“中國開(kāi)發(fā)者在世界開(kāi)源領(lǐng)域所扮演的角色,正在從項目主要參與者演變?yōu)橐恍┚哂写硇缘拈_(kāi)源項目的發(fā)起者和主導者。”從Flink這個(gè)阿里代表性的開(kāi)源實(shí)踐案例看,這一論斷正在被現實(shí)驗證,崛起的中國開(kāi)發(fā)者推動(dòng)了Flink的狂飆,正在全球開(kāi)源舞臺扮演更重要的角色!

深究這一切發(fā)生的底層邏輯,正如開(kāi)篇所說(shuō),商業(yè)巨頭主導是推動(dòng)開(kāi)源項目生態(tài)繁榮的關(guān)鍵。當云與開(kāi)源在新的計算時(shí)代互相吸引,浪潮之巔的云巨頭有能力也有責任構建具有主導權的開(kāi)源社區,將先進(jìn)的開(kāi)源技術(shù)以更低的門(mén)檻推向更廣闊的市場(chǎng)。事實(shí)也表明,領(lǐng)先的云廠(chǎng)商正在成為開(kāi)源的引領(lǐng)者,以云+開(kāi)源構筑數字世界的根基,支撐各行各業(yè)開(kāi)發(fā)者擁抱云與開(kāi)源,加速邁向數智未來(lái)。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到