深度學(xué)習遇上基因組,診斷疾病或迎來(lái)突破

鎂客 9年前 (2016-05-05)

深度學(xué)習在基因組醫學(xué)領(lǐng)域的應用已經(jīng)邁出通往希望的第一步,這一應用可以對診斷、重癥護理、制藥和保險方面產(chǎn)生影響。

編者按:本文是O'Reilly 對 Brenda Frey 的專(zhuān)訪(fǎng),他是 Deep Genomics 聯(lián)合創(chuàng )始人,多倫多大學(xué)教授,也是該大學(xué)機器學(xué)習團隊的聯(lián)合創(chuàng )始人,CIFAR 神經(jīng)計算項目的高級學(xué)者,加拿大皇家科學(xué)院成員。

深度學(xué)習遇上基因組,診斷疾病或迎來(lái)突破

這篇訪(fǎng)談要點(diǎn)如下:

深度學(xué)習在基因組醫學(xué)領(lǐng)域的應用已經(jīng)邁出通往希望的第一步,這一應用可以對診斷、重癥護理、制藥和保險方面產(chǎn)生影響。

「基因型—表現型」鴻溝——我們能將基因組學(xué)與疾病表現型聯(lián)系起來(lái)——正阻礙基因組學(xué)深入挖掘醫學(xué)領(lǐng)域的潛力。

深度學(xué)習可以彌合「基因型—表現型」鴻溝,通過(guò)吸收指數級增長(cháng)的數據量,解釋將基因型與表現型關(guān)聯(lián)起來(lái)的復雜生物過(guò)程中的多層結構。

深度學(xué)習已經(jīng)成功應用于人類(lèi)天生擅長(cháng)的領(lǐng)域,比如,圖像、文本以及語(yǔ)音理解。然而,人類(lèi)意識卻不能理解基因組。為此,需要使用「超人智能」來(lái)解決這個(gè)問(wèn)題。

這一領(lǐng)域的研究必須能夠解釋深層生物學(xué)機制;過(guò)度簡(jiǎn)化或者「黑箱」研究方法,價(jià)值都將有限。

從你的背景開(kāi)始談起吧?

1997年,我在 Hinton 的指導下完成了自己的博士學(xué)位。我們合著(zhù)了一篇關(guān)于深度學(xué)習的論文(1995年發(fā)表在《科學(xué)》上),也是最早的深度學(xué)習研究論文之一。這篇文章可以說(shuō)是近期許多無(wú)監督學(xué)習以及自動(dòng)編碼器研究的先驅。當時(shí),我關(guān)注的是計算機視覺(jué),語(yǔ)音識別以及文本分析。也研究深度結構中的信息傳遞算法。1997年,David MacKay 和我合作了第一篇有關(guān)「環(huán)路信念傳播(loopy belief propagation)」或 「合積算法( sum-product algorithm )」的文章,這篇文章出現在了頂級機器學(xué)習會(huì )議 NIPS 上。

1999年,我成為 Waterloo 大學(xué) 的一名計算機科學(xué)教授。2001年,加入多倫多大學(xué),與其他幾位教授一起,共同成立了機器學(xué)習小組。我們的團隊研究深度結構中的學(xué)習和推論,使用的是以變分方法、信息傳送以及馬爾可夫鏈蒙特卡爾理論(MCMCA)模擬為基礎的算法。多年來(lái),我教授了十二門(mén)有關(guān)機器學(xué)習和貝葉斯網(wǎng)絡(luò )的課程,學(xué)生總計一千多人。

2005年,我成為 CIFAR 神經(jīng)計算項目的高級學(xué)者,這是一個(gè)與業(yè)內帶頭人分享與合作的良機,比如,Yann LeCun,、Yoshua Bengio、Yair Weiss, 以及項目主管 Geoff Hinton 。

為什么從基因組學(xué)入手?

與個(gè)人經(jīng)歷有關(guān)。2002 年,也就是履新多倫多大學(xué)教授幾年后,當時(shí)我得知我妻子懷著(zhù)的胎兒在基因上可能存在問(wèn)題。但是,我們的顧問(wèn)也沒(méi)把這個(gè)問(wèn)題解釋清楚:她只是暗示說(shuō),要么沒(méi)什么問(wèn)題,要么可能會(huì )有嚴重問(wèn)題。那次經(jīng)歷,因為很多原因而變得極其困難,也給我職業(yè)生涯植入一條深深的信念:我主要研究如何識別 YouTube 視頻里的貓,但是,全面考慮一下,它似乎不那么重要。

我從中得到兩個(gè)啟示:首先,我想使用機器學(xué)習改善那些面臨類(lèi)似基因問(wèn)題人群的生活。第二,減少不確定性,價(jià)值巨大:給某個(gè)人一些信息,好或者壞,讓他們做出相應計劃。相反,人們很難處理不確定性。因此,我調整了研究目標。我們轉向關(guān)注使用機器學(xué)習理解基因組運作原理。

為什么你會(huì )認為機器學(xué)習再加上基因組生物學(xué)會(huì )很重要?

基因組生物學(xué)這個(gè)領(lǐng)域,正在生成大量數據。很快,你就能通過(guò)手機大小的設備給自己的基因組排序,整個(gè)過(guò)程也不長(cháng),就是走到街角商店的時(shí)間。然而,基因組只是一部分,還有海量描述細胞與組織的數據。我們,作為人類(lèi),無(wú)法很好領(lǐng)會(huì )所有這種數據,仍不十分了解生物學(xué)。機器學(xué)習有助于解決這個(gè)難題。

同時(shí),機器學(xué)習界的其他人也承認這一需求。去年機器學(xué)習頂級會(huì )議上,Yann LeCun、Demis Hassabis、Neil Lawrence(謝菲爾德大學(xué)教授)以及 Kevin Murphy(谷歌)也認為,醫學(xué)領(lǐng)域會(huì )是下一個(gè)深度學(xué)習前沿。

為了成功,我們需要彌合「基因型—表現型的鴻溝」?;蚪M和表現型數據很豐富。不幸的是,有意義地聯(lián)接這些數據的最先進(jìn)的研究,卻讓文獻檢索以及濕實(shí)驗室試驗的過(guò)程變得緩慢,昂貴而且不準確。為了完成這一閉環(huán),我們需要可以確定間接表現型(亦即,分子表現型 molecular phenotypes)的系統,作為從基因型走向疾病表現型的墊腳石。為此,機器學(xué)習必不可少。

相關(guān)概念

基因型(Genotype)指的是一個(gè)生物體內的DNA所包含的基因,也就是說(shuō)該生物的細胞內所包含的、它所特有的那組基因?;蛐蛯σ粋€(gè)生物的發(fā)展有極大的影響,但是它不是唯一的因素。

表型(Phenotype),又稱(chēng)表現型,對于一個(gè)生物 而言,表示它某一特定的物理外觀(guān)或成分。一個(gè)人是否有耳珠、植物的高度、人 的血型 、蛾的顏色 等等,都是表型的例子。表型主要受生物的基因型和環(huán)境影響,表型可分為連續變異或不連續變異的。前者較易受環(huán)境因素影響,基因型上則會(huì )受多個(gè)等位基因 影響,如體重 、智力和身高 ;后者僅受幾個(gè)等位基因影響,而且很少會(huì )被環(huán)境改變,如血型、眼睛顏色 和卷舌的能力。

分子表型(molecular phenotype)。我們可以從不同層次的窗口觀(guān)察生命的表現,從原子水平、分子水平、細胞水平、個(gè)體水平、群體水平、生態(tài)水平等。通常,觀(guān)察的記錄可以叫做表型(phenotype)。近年來(lái),從我們肉眼看得見(jiàn)或常規儀器可測的表型(比如身高、體重),到肉眼看不到、需要特殊儀器測定的表型,表型的內涵已經(jīng)有了極大的發(fā)展。統計/數學(xué)下的表型機理 ,就是分子表型。

新一代年青的研究人員出現了,他們使用機器學(xué)習研究基因如何影響分子表現型,比如,斯坦福的 Anshul Kundaje 團隊。這里僅提及幾個(gè)未來(lái)的帶頭人:多倫多大學(xué)和哈佛大學(xué)的 Andrew Delong、Babak Alipanahi 以及 David Kelley ,他們研究蛋白質(zhì)和 DNA 的相互作用;MIT 的 Jinkuk Kim 研究基因表達以及華盛頓大學(xué)的 Alex Rosenberg ,他正在研究試驗方法,檢測數以百萬(wàn)的突變及其對剪接的影響。我也很激動(dòng)地看到,這個(gè)領(lǐng)域創(chuàng )業(yè)公司正在興起,比如 Atomwise, Grail 及其他公司。

當你開(kāi)始基因組領(lǐng)域的研究時(shí),當時(shí)的研究現狀如何?

研究人員使用著(zhù)各種簡(jiǎn)單的「線(xiàn)性」機器學(xué)習方法,比如支持向量機和線(xiàn)性回歸,后者可以根據病人的基因表達模式預測癌癥。這些技術(shù),從設計上看,比較「淺顯」。易言之,針對某個(gè)類(lèi)別標簽,每個(gè)模型輸入都會(huì )得到一個(gè)非常簡(jiǎn)單的「支持」或者「不支持」。那些方法并不能解釋生物學(xué)的復雜性。二十世紀九十年代和二十一世紀早期,隱馬爾科夫模型和相關(guān)分析序列的技術(shù)開(kāi)始流行起來(lái)。Richard Durbin 和 David Haussler 帶領(lǐng)著(zhù)這一領(lǐng)域的研究團隊。

與此同時(shí),MIT 的 Chris Burge 團隊開(kāi)發(fā)了一款馬爾科夫模型,可以檢測基因,推斷基因的開(kāi)始以及不同部分(基因內區和外顯子)的界限。這些方法僅對低層次的「序列分析」有用,無(wú)法彌合基因型與表現型之間的鴻溝。一般說(shuō)來(lái),當時(shí)的研究狀態(tài)就是這些根本淺顯的方法驅動(dòng)的,這些技術(shù)無(wú)法充分解釋深層次的生物學(xué)機制,比如基因組文本如何轉變?yōu)榧毎?、組織和器官。

開(kāi)發(fā)足以解釋深層生物學(xué)的計算模型,意味著(zhù)什么?

將基因型與表現型關(guān)聯(lián)起來(lái)的最受歡迎的方式之一,就是在所謂的全基因組關(guān)聯(lián)研究( a genome-wide association study , GWAS)中,尋找與疾病相關(guān)的變異。這種方法也比較淺顯,在某種意義上,讓從某個(gè)突變到基因表現型之間還有許多生物學(xué)步驟大打折扣。這種研究方法能夠識別出可能重要的 DNA 區域,但是,他們識別出的幾乎所有突變都不是偶然的。在絕大多數情況下,如果可以糾正突變,它就不會(huì )影響到表現型。

還有另一種非常不同的辦法,可以解釋間接的分子表現型。比如基因表達。在一個(gè)活體細胞中,當蛋白質(zhì)以某種方式與基因的上游序列互動(dòng) ——比如,啟動(dòng)子(promoter)。一個(gè)尊重生物學(xué)的計算模型就能吸收這個(gè)啟動(dòng)基因表達的偶然性鏈條。2004年, Beer 和 Tavazoie 寫(xiě)了一篇論文,我認為這篇文章很有啟發(fā)性。他們試圖根據啟動(dòng)子序列,通過(guò)被當做源自啟動(dòng)子序列的輸入特征的邏輯回路,預測每個(gè)酵母基因表達水平。最終,他們的方法沒(méi)有成功,但是一次很棒的嘗試。

我們團隊的研究方法就是受到這兩位研究人員的啟發(fā),但是,有三方面的不同:我們檢測了哺乳動(dòng)物細胞,我們使用了更先進(jìn)的機器學(xué)習技術(shù),關(guān)注剪接,而不是轉錄?;叵肫饋?lái),這一最后區別是一次偶然的轉變。轉錄要比剪接難模擬得多。剪接是一個(gè)生物學(xué)過(guò)程,基因的某些部分(基因內區)被去除,剩余的部分(外顯子,基因中有編碼蛋白質(zhì)功能的部分)聯(lián)系在一起。有時(shí),外顯子也被敲掉了,這能對表現型產(chǎn)生主要影響 ,包括神經(jīng)功能障礙和癌癥。

為了用機器學(xué)習破解剪接規則,我們的團隊與優(yōu)秀實(shí)驗生物學(xué)家 Benjamin Blencowe 領(lǐng)導的團隊合作。我們建立了一個(gè)框架,從基因序列中提取生物學(xué)特征,預處理噪音性質(zhì)的實(shí)驗數據,訓練機器學(xué)習技術(shù)預測 DNA 的剪接模式。這項研究工作很成功,有些成果都發(fā)表在了《自然》和《科學(xué)》上。

基因組學(xué)與其他應用領(lǐng)域有什么不同?

我們發(fā)現,較之視覺(jué)、語(yǔ)音以及文本處理,基因組學(xué)面對的挑戰,與眾不同。許多視覺(jué)方面的挑戰依賴(lài)這樣一個(gè)假設:要被分類(lèi)的目標占據輸入圖像的大部分面積。在基因組學(xué)方面,相關(guān)目標僅占據微小部分——比如,輸入的百萬(wàn)分之一,因此,會(huì )產(chǎn)生問(wèn)題。易言之,分類(lèi)器按照信號總量起作用。其他任何事情都是噪音——有很多噪音。更糟糕的是,這是相對結構化的噪音,包含了其他、更大的與分類(lèi)任務(wù)無(wú)關(guān)的目標。那就是基因組學(xué)給出的難題。

還有更加讓人擔心的復雜性,我們自己都不清楚基因組。當檢查一個(gè)典型圖像時(shí),我們自然而然地識別出其中的物體,我們也知道想讓算法識別什么。這也被應用于文本分析和語(yǔ)音處理,這些領(lǐng)域中,我們都在處理真相問(wèn)題。與此形成鮮明對比的是,人類(lèi)本身并不善于解釋基因組。實(shí)際上,這方面表現的很糟糕。所有這些都是在說(shuō),我們必須向真實(shí)的超人人工智能求助,克服自身局限性。

能多介紹一點(diǎn)你在醫學(xué)領(lǐng)域的研究工作嗎?

我們開(kāi)始訓練系統,讓它在不包括任何疾病數據的情況下,預測分子表現型。然而,一旦系統得到訓練,我們意識到,我們的系統實(shí)際上可以準確預測疾??;它明白細胞如何讀取DNA序列,如何將它轉變?yōu)殛P(guān)鍵分子。一旦有了關(guān)于這些情況如何正常運作的計算模型,那么,你就能通過(guò)它來(lái)偵測什么時(shí)候情況走偏了。

然后,我們將系統轉向用于大規模的疾病突變數據組。猜測DNA里存在某種特殊突變。我們輸入了突變的 DNA 序列及其對應的非突變部分,然后比對兩組輸出,也就是分子表現型。如果觀(guān)測到了一個(gè)大的變化,我們會(huì )將這個(gè)突變標簽為具有潛在致病性。結果表明,這種方法很管用。

但是,當然,這個(gè)辦法并非完美無(wú)缺。首先,變異可能改變分子表現型,但是不會(huì )致命。第二,突變可能不會(huì )影響我們正在模擬的分子表現型,但會(huì )以其他方式致病。第三,當然,我們的系統不是百分百正確。盡管存在這些不足,我們的方法能夠準確區分疾病與良性突變。去年我們在《科學(xué)》和《自然 生物技術(shù)》上發(fā)表了論文,證實(shí)這一研究方法比其他競爭方法的準確性要高得多。

你們公司(Deep Genomics)的目標是?

背景知識

2015年夏天,Brendan Frey 教授的實(shí)驗室創(chuàng )立 Deep Genomics 公司。他領(lǐng)導的實(shí)驗室能使用深度學(xué)習技術(shù),篩選海量以前未知的基因突變,找出致病的基因突變。2015年11月,Deep Genomics 公司宣布完成370萬(wàn)美元的種子輪融資,由位于灣區 True Ventures 領(lǐng)投,Bloomberg Beta 和其它投資方跟投。目前,這家公司已經(jīng)與醫院,生物科技創(chuàng )業(yè)公司以及制藥公司展開(kāi)合作,使用基因疾病患者的基因數據測試公司系統。Human Longevity 也于2015年8月成為 Deep Genomics 的客戶(hù),公司還與 SynapDx,多倫多應用基因組學(xué)中心建立了「合作伙伴」關(guān)系。

我們的工作需要各個(gè)領(lǐng)域的專(zhuān)業(yè)技術(shù),包括深度學(xué)習、卷積神經(jīng)網(wǎng)絡(luò ),隨機森林,GPU 計算,基因組學(xué),轉錄組學(xué),高通量實(shí)驗生物學(xué)以及分子診斷學(xué)。比如,我們有 Hui Xiong , 發(fā)明了一種貝葉斯深度學(xué)習算法,預測剪接作用;還有Daniele Merico ,他研發(fā)了完整基因組測序診斷系統,這個(gè)系統已被用于兒童醫院。我們也將繼續招募這些領(lǐng)域的人才。

一般說(shuō)來(lái),我們的技術(shù)能從許多方面影響醫學(xué),包括:基因診斷,精煉藥物靶點(diǎn),藥物研發(fā),個(gè)性化施藥,改善健康保險制度甚至合成生物學(xué)。目前,我們關(guān)注的是診斷方面,因為它是我們技術(shù)的直接應用。我們的引擎提供了一個(gè)豐富的信息來(lái)源,能以更低的成本做出更加可靠的診斷決策。

這個(gè)領(lǐng)域里,許多新興技術(shù)會(huì )要求具有理解基因組內部工作原理的能力。比如,使用 Cas9 系統進(jìn)行基因編輯。這個(gè)能讓我們給 DNA「寫(xiě)信」的技術(shù)會(huì )是件大事。也就是說(shuō),知道如何書(shū)寫(xiě)并不等于知道寫(xiě)的內容。編輯 DNA 可能讓疾病更糟糕。試想一下,如果你能用一種計算「引擎」顯而易見(jiàn)地確定基因編輯后果。平心而論,那還很遙遠。然而,那就是我們最終想要做到的。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到