谷歌上線(xiàn)“新型冠狀病毒公共數據集”,可免費使用到9月15日

伶軒 5年前 (2020-03-31)

開(kāi)放可獲取、完整、細顆粒、及時(shí)、可機讀、結構化數據,對疫情防控尤為重要。

疫情防控,科技公司一直在行動(dòng)。

在全球疫情蔓延的情況下,3月31日,谷歌啟動(dòng)了一項名為“COVID-19 Public Datasets(新型冠狀病毒公共數據集)”的項目,托管一個(gè)與疫情相關(guān)的公共數據資料庫,并免費向外界開(kāi)放,用戶(hù)可以自由訪(fǎng)問(wèn),以及自由分析其中的數據信息。

谷歌上線(xiàn)“新型冠狀病毒公共數據集”,可免費使用到9月15日

“COVID-19 Public Datasets”是什么?

據項目官方解釋?zhuān)?ldquo;COVID-19 Public Datasets”中的數據,囊括了JHU CSSE(約翰·霍普金斯大學(xué)系統科學(xué)與工程中心)數據集、世界銀行的全球健康數據和OpenStreetMap數據,它們都被存儲在了Google Cloud 上,并帶有“COVID-19 ”標簽,研究人員可以免費訪(fǎng)問(wèn)和查詢(xún),并通過(guò)BigQuery ML服務(wù)(一個(gè)完全托管的數據倉庫)直接在內部使用這些數據訓練高級機器學(xué)習模型,直至2020年9月15日。

谷歌上線(xiàn)“新型冠狀病毒公共數據集”,可免費使用到9月15日

谷歌方面表示,“COVID-19 Public Datasets”的啟動(dòng)是為了更好的為‘以教育和研究為目的’的工作者提供賦能服務(wù),我們不會(huì )加入或管理PHI(一個(gè)致病菌的數據庫)或PII(個(gè)人驗證信息)數據,希望盡最大努力阻止疫情蔓延。

不過(guò)需要注意的是,如果用戶(hù)要將“COVID-19 Public Datasets”和其它非新冠病毒數據集結合使用,那么BigQuery Sandbox將以字節為計,在每月的免費額僅有10GB存儲空間和1TB查詢(xún)空間之外,超出部分則按量收費。

疫情之下,開(kāi)放數據集意味著(zhù)什么?

數據統計顯示,截至到昨日下午2點(diǎn),全球COVID-19病毒確診感染人數已超72萬(wàn)人,死亡人數達3.4萬(wàn)人。

但與此同時(shí),正因數據量龐大、分散,研究人員面臨著(zhù)極高強度的數據分析工作。除此之外,數據信息的不完整和部分不公開(kāi),也在一定程度上讓大眾對疫情了解不夠全面。也因此,開(kāi)放可獲取、完整、細顆粒、及時(shí)、可機讀、結構化數據尤為重要。

此前,為加強全球疫情防控聯(lián)動(dòng),多個(gè)科技界、學(xué)術(shù)界機構便聯(lián)合推出了一個(gè)公開(kāi)數據集“CORD-19”,其中涵蓋了截至3月13日之前的近3萬(wàn)篇新型冠狀病毒相關(guān)論文,以及針對文本進(jìn)行優(yōu)化的文本處理工具包SciSpacy、在科學(xué)文本上進(jìn)行預訓練的BERT模型SciBERT、開(kāi)放研究語(yǔ)料庫和API等。

谷歌上線(xiàn)“新型冠狀病毒公共數據集”,可免費使用到9月15日

而針對谷歌的“COVID-19 Public Datasets”數據集,Descartes Labs的工程主管Sam Skillman評論稱(chēng),“谷歌在BigQuery中開(kāi)放并提供COVID-19數據將極大的推動(dòng)研究人員進(jìn)行數據分析,特別是免費查詢(xún)服務(wù)的推出,會(huì )吸引更多人參與到這一項目中來(lái),這對全球數據共享、提升數據分析能力、普及病毒信息非常有幫助。”

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到