深度學習已經在各種生物學應用中取得成功。在本節中,我們回顧了在各個研究領域進行深度學習的挑戰和機會,並在可能的情況下回顧將深度學習應用於這些問題的研究(表1)。我們首先回顧了生物標誌物開發的重要領域,包括基因組學,轉錄組學,蛋白質組學,結構生物學和化學。然後,我們回顧壹下藥物發現和再利用的前景,包括使用多平臺數據。
生物標誌物。生物醫學的壹個重要任務是將生物學數據轉化為反映表型和物理狀態(如疾病)的有效生物標誌物。生物標誌物對於評估臨床試驗結果[18]以及檢測和監測疾病,特別是像癌癥這樣的異質性疾病,是至關重要的[19,20]。識別敏感特異性生物標誌物對於現代轉化醫學來說是壹個巨大的挑戰[21,22]。計算生物學是生物標誌物發展。事實上,從基因組學到蛋白質組學都可以使用任何數據來源;這些在下壹節中討論。
基因組學。新壹代測序(NGS)技術已經允許生產大量的基因組數據。這些數據的大部分分析都可以用現代計算方法在計算機上進行。這包括基因組的結構註釋(包括非編碼調控序列,蛋白質結合位點預測和剪接位點)。
基因組學的壹個重要分支是宏基因組學,也被稱為環境,生態基因組學或社區基因組學。NGS技術揭示了未經培育且以前沒有得到充分研究的微生物的自然多樣性。
宏基因組學中有幾個生物信息學挑戰。壹個主要挑戰是序列數據的功能分析和物種多樣性的分析。深信念網絡和經常性神經網絡的使用已經允許通過表型分類宏基因組學pH數據和人類微生物組數據。 與基線方法相比,這些方法並沒有提高分類準確性作為強化學習,但確實提供了學習數據集的分層表示的能力.[23]但是,Ditzler等強調DNN可以改善現有的宏基因組學分類算法,特別是在大數據集和適當選擇網絡參數的情況下。
表1. 深度學習技術應用於不同類型生物醫學數據的總結
應用
數據源
研究目的
DL技術
準確率
利用深度學習增強癌癥診斷和分類[28]
13種不同的癌癥基因表達數據集(13 different gene expression data sets of cancers)
癌癥檢測,癌癥類型分類
稀疏和堆棧自動編碼器+ Softmax回歸
對於每個數據集的準確度都比基準更好
深度學習組織調節拼接代碼[32](Deep Learning of the Tissue-Regulated Splicing Code)
從RNA-Seq數據分析11 019個小鼠替代外顯子(11 019 mouse alternative exons profiled from RNA-Seq data)
拼接模式識別
自動編碼器+ DNN(3層)+薄荷(超參數選擇)
AUC優於基線準確度
深卷積神經網絡註釋基因表達模式的小鼠腦[30]
由Allen Institute for Brain Science的小鼠腦的四個發育階段的ISH圖像
基因表達註釋
CNN(Overfeat)
AUC=0.894
多模式深度學習方法的多平臺癌癥數據的綜合數據分析[52]
卵巢癌和乳腺癌數據集(ovarian and breast cancer data sets)
聚集癌癥患者
DBNs
lncRNA-MFDL:通過融合多個特征和使用深度學習鑒定人類長的非編碼RNA[34]
Gencode和RefSeq的蛋白質編碼和非編碼序列(protein-coding and noncoding sequences from Gencode and RefSeq)
鑒定長的非編碼RNA
lncRNA-MFDL(深層堆疊網絡,每個單元DNN)
ACC = 97.1%
用於宏基因組分類的多層和遞歸神經網絡[23]
pH微生物組測序數據集和人微生物組測序數據集(pH microbiome sequencing data set and human microbiome sequencing data set)
宏基因組分類
MLP, DBN, RNN
comparison
Multi-Level Gene/MiRNA Feature Selection using Deep Belief Nets and Active Learning[27]
來自6種癌癥的MiRNA表達數據(MiRNA expression data from 6 type of cancers)
Gene/MiRNA特征選擇(基因表達)
MLFS(DBN +特征選擇+無監督主動學習)(MLFS (DBN + feature selection + unsupervised active learning))
F1 = 84.7%
成對輸入神經網絡用於目標配體相互作用預測[45]
sc-PDB數據庫(sc-pdb:用於鑒定蛋白質中“可藥用”結合位點的變化和多樣性的數據庫)
蛋白質 - 配體預測
PINN (SVD + Autoencoder/RBM)
AUC = 0.959
非編碼變量與深度學習序列模型的預測效應[49]
來自ENCODE和Roadmap Epigenomics項目的160種不同TF,125種DHS譜和104種組蛋白標記譜的690 TF結合譜
從序列中預測非編碼變異效應
DeepSEA (CNN)
AUC = 0.923 (histone)
通過深度學習預測DNA和RNA結合蛋白的序列特異性[48]
506 ChIP-seq實驗,DREAM5 TF-DNA基序識別挑戰
DNA和RNA結合蛋白的特異性分類
DeepBind(CNN)
train, AUC = 0.85; validation,
AUC > 0.7
具有雙模深信道網絡的蜂窩信號系統的跨物種學習[36]
來自SBV IMPROVER挑戰的磷酸化蛋白質組學數據
跨物種學習(模擬細胞信號系統)
bDBN (bimodal DBN) and
sbDBN (semirestricted bimodal
DBN)
AUC = 0.93
表達數量性狀基因(eQTL)的鑒定與闡明及其調控機制的深入研究[35]
GEUVADIS(來自從參與1000基因組項目的個體中提取的337個淋巴母細胞系的選擇的RNA-Seq和全基因組範圍的SNP-陣列數據的組合)
確定eQTL
MASSQTL(DNN)
AUC = 0.85
建立RNA結合蛋白靶點結構特征的深度學習框架[43]
源自doRiNA的24個數據集(轉錄後調節中的RNA相互作用數據庫)
預測RNA結合蛋白的結合位點(RBP靶標識別)
DBN(多模式DBN)
AUC = 0.983 on PTB HITS-CL
DeepCNF-D:通過加權深度卷積神經場預測蛋白質有序/無序區域[42]
來自CASP的CASP9, CASP10數據集(蛋白質結構預測的關鍵評估)
預測蛋白質有序/無序區域
DeepCNF (CRF + CNN)
AUC = 0.855 on CASP9
AUC = 0.898 on CASP10
用深度神經網絡分割微陣列[29]
兩個數據集,來自2006年Lehmussola等人的微陣列圖像
微陣列分割
CNN
MAE = 0.25
深度學習藥物引起的肝損傷[46]
四個數據集,化合物,化學結構註釋DILI陽性或DILI陰性(four data sets, compounds, chemical structure annotated DILI-positive or DILI-negative properties)
藥物性肝損傷預測
RNN(遞歸神經網絡)
AUC = 0.955
從頭算蛋白質二級結構預測的深度學習網絡方法[38]
訓練,Protein Data Bank; 驗證,CASP9,CASP10(蛋白質結構預測的關鍵評估)
從頭算蛋白質二級結構預測
DNSS(多模RBM)
Q3 = 90.7%, Sov = 74.2%
蛋白質接觸圖預測的深層架構[39]
ASTRAL database
蛋白質接觸圖預測
RNN + DNN
ACC ? 30%
用深機器學習網絡建模藥物樣分子的環氧化作用[47]
Accelrys代謝物數據庫(AMD):389個環氧化分子,811個非氧化分子(Accelrys Metabolite Database (AMD): 389 epoxidized molecules, 811 nonepoxidized molecules)
建模分子的環氧化性質
CNN
AUC better than baseline accuracy
DNdisorder:使用增強和深度網絡預測蛋白質紊亂[41]
DISORDER723, CASP9, CASP10
預測蛋白質有序/無序區域
RBM
AUC better than baseline
accuracy
Basset:用深度卷積神經網絡學習可訪問基因組的規則代碼[50]
來自ENCODE和Epigenomics Roadmap項目的164個細胞類型的DNasel-seq數據
學習DNA序列的功能活動
CNN
AUC = 0.892
a首字母縮寫詞:CNN=卷積神經網絡,DNN=深度神經網絡,RNN=遞歸神經網絡,DBN=深信念網絡,RBM=限制玻爾茲曼機器,MLP=多層感知器,MLFS=多級特征選擇,PINN= 網絡,CRF=條件隨機場。
轉錄。轉錄組學分析利用各種類型轉錄物(信使RNA(mRNA),長非編碼RNA(lncRNA),微小RNA(miRNA)等)豐度的變化來收集各種功能信息,從剪接代碼到各種疾病的生物標誌物。
轉錄組學數據通常從不同類型的平臺(各種微陣列平臺,測序平臺)獲得,其不同之處在於測量的基因組和信號檢測方法。許多因素導致基因表達數據的變異性。因此,即使對於單個平臺分析也需要標準化。 跨平臺分析需要規範化技術,這可能是壹個重大挑戰。由於DNN具有較高的泛化能力,因此特別適合於跨平臺分析。他們也能很好地處理基因表達數據的其他壹些主要問題,比如數據集的大小以及對降維和選擇性/不變性的需求,下面我們將回顧幾個已經使用的DNN 用不同類型的基因表達數據來獲得不同程度的成功。
表格數據應用程序。基因表達數據可以表示的壹種方式是作為矩陣的表格形式,其包含關於轉錄物表達的定量信息。這些數據是高維度的,由於數據中的信噪比損失,使得統計分析成為問題。[25]
高維數據可以通過兩種方式處理:
I. 降維:
A.特征提取,例如用SVM或隨機森林算法;
B.特征子集選擇;
C.途徑分析;
II. 使用對高維度較不敏感的方法,如隨機森林或深層信念網絡。
諸如主成分分析(PCA),奇異值分解,獨立分量分析或非負矩陣分解等方法是常見的前沿方法。然而,上述方法將數據轉換成許多難以用生物學解釋的組件。此外,這種降維方法基於基因表達譜提取特征而不管基因之間的相互作用。通路分析可以減少變量的數量,減少錯誤率並保留更多的生物相關信息。[25,26]
深度學習在處理高維基質轉錄組學數據方面也取得了壹些成功。在另壹種方法中,將基因表達的特征與非編碼轉錄物如miRNA的區域壹起提取; 這是通過使用深度信念網絡和主動學習來實現的,其中使用了深度學習特征提取器來減少六個癌癥數據集的維度,並且勝過了基本特征選擇方法[27]。主動學習與分類的應用提高了準確性,並且允許選擇與癌癥相關的特征(改進的癌癥分類),而不僅僅基於基因表達譜。使用miRNA數據的特征選擇是使用與先前選擇的特征子集的目標基因的關系實施的。
在另壹個深度學習應用中,Fakoor等人利用自編碼器網絡進行推廣,並將其應用於使用從具有不同基因集合的不同類型的微陣列平臺(Affimetrix家族)獲得的微陣列基因表達數據的癌癥分類[28]。他們通過PCA和非監督非線性稀疏特征學習(通過自動編碼器)結合使用降維來構建用於微陣列數據的壹般分類的特征。癌癥和非癌細胞分類的結果顯示出了重要的改進,特別是使用監督微調,這使得特征不那麽通用,但即使對於沒有跨平臺標準化的數據也能獲得更高的分類準確性。自動編碼器的全球泛化能力有助於使用不同微陣列技術收集的數據,因此可能對來自公***領域的數據進行大規模綜合分析有前途。
圖像處理應用。基因表達也可以以可視形式存儲為圖像,例如來自微陣列的圖像熒光信號或RNA原位雜交熒光或放射性信號。 在壹些應用中,以圖像處理性能優越著稱的CNN已經顯示出改善這些圖像分析的潛力。
在微陣列分析中,由於斑點大小,形狀,位置或信號強度的變化,檢測信號和識別熒光斑點可能是具有挑戰性的,並且熒光信號強度通常對應於基因或序列表達水平差。在對這個問題的深度學習技術的壹個應用中,CNN被用於微陣列圖像分割,並且在準確性方面顯示出類似於基準方法的準確度的結果,但是訓練更簡單並且對計算源的要求更少。[29]
將CNN應用於基於圖像的基因表達數據的另壹個機會是RNA原位雜交,這是壹種繁瑣的技術,當允許這樣的操作時,能夠使基因表達在壹組細胞,組織切片或整個生物體中定位和可視化。這種方法促進強大的縱向研究,說明發展過程中的表達模式的變化。它被用於構建詳細的Allen DevelopmentMouse Brain Atlas,其中包含超過2000個基因的表達圖譜,每個基因在多個腦部分中進行說明。過去,這些手動標註是耗時的,昂貴的,有時也是不準確的。然而,最近,Zeng等人使用深度預訓練CNN進行自動註釋[30]。要做到這壹點,神經網絡模型訓練原始自然原位雜交圖像的不同層次的發展中國家的大腦沒有關於坐標(空間信息)的確切信息;這種技術在四個發展階段的多個大腦水平上實現了卓越的準確性。
剪接。深度學習的另壹個應用領域是剪接。剪接是在真核生物中提供蛋白質生物多樣性的主要因素之壹;此外,最近的研究顯示“拼接代碼”與各種疾病之間的聯系[31]。然而,現代科學仍然不能全面地理解控制剪接調控的機制。剪接調節的現代概念包括轉錄水平,特定信號調節序列元件(剪接增強子或沈默子)的存在,剪接位點的結構和剪接因子的狀態(例如特定位點的磷酸化可能改變剪接因子活性)。所有這些因素使分析變得復雜,因為它們之間存在大量元素和復雜的非線性相互作用。現有的拼接預測軟件需要高通量測序數據作為輸入,並且面臨著原始讀取比常規基因短的問題,以及基因組中假性基因的高重復水平和存在。因此,拼接機制的分析算法很慢,需要高度的組合計算來源,深度學習可能會在這方面提供改進。在使用五個組織特異性RNA-seq數據集的壹個深度學習應用中,使用隱變量來開發DNN以用於基因組序列和組織類型中的特征,並且被證明優於貝葉斯方法預測個體內和組織間的組織剪接外顯子拼接的轉錄本百分比的變化(拼接代碼度量)[32]。
非編碼RNA。非編碼RNA是生物學中的另壹個問題,需要復雜的計算方法,如深度學習。非編碼RNAs非常重要,涉及轉錄,翻譯和表觀遺傳學的調控[33],但是它們仍然難以與編碼蛋白質的RNA區分開來。對於短的非編碼RNA,這個任務已經很好地解決了,但是對於lncRNA來說這是相當具有挑戰性的。lncRNAs組成異構類,可能含有推定的復制起點(ORF),短的蛋白質樣序列。開發了壹種新的深層次的學習方法,稱為lncRNAMFDL,用於鑒定lnc-RNAs,使用ORF,k相鄰堿基,二級結構和預測的編碼結構域序列等多種特征的組合[34]。該方法使用從Gencode(lncRNA)和Refseq(蛋白質編碼mRNA數據)的序列數據中提取的五個單獨特征,並且在人類數據集中導致97.1%的預測準確性。
表達量性狀基因座分析。最後,數量性狀基因座(QTL)分析有潛力進行深入的學習。 QTL分析鑒定含有多態性的遺傳基因座,所述多態性導致復雜的多基因性狀(例如,體重,藥物反應,免疫應答)的表型變異。顯示遺傳變異的壹個這樣的“性狀”是給定組織和/或條件中任何給定基因的表達或轉錄本豐度。表達QTL(eQTL)是影響轉錄本豐度的遺傳變異的基因座。 eQTL分析已經導致了對人類基因表達調控的洞察力,但面臨著許多挑戰。在局部調節表達的eQTL(順式-eQTL)相對容易用有限數量的統計測試來鑒定,但是調節基因組中其它位置的基因表達的位點(trans-eQTL)更難以檢測到。最近,為了解決使用各種編碼的生物特征(諸如物理蛋白質相互作用網絡,基因註釋,進化保守,局部序列信息以及來自ENCODE項目的不同功能元件)的反式eQTL預測問題的深度學習方法MASSQTL[35]被提出。DNN利用來自其各自交叉驗證折疊的9個DNN模型,優於其他機器學習模型,並且提供了對基因表達的調控架構的基礎的新機制。深解碼系統也被用來對trans-eQTL特征向量進行聚類,然後通過t-SNE降維技術進行可視化。
蛋白質組學。與轉錄組學相比,蛋白質組學是壹個相當欠發達的研究領域,數據依然稀少,用於分析的計算方法較少。即使有相似的信號編碼和傳輸機制,人類蛋白質組學數據的缺乏以及將模型生物體結果轉化為人類的困難也使分析變得復雜。
深度學習可以以多種方式使蛋白質組學受益,因為壹些方法不需要像其他機器學習算法那樣的大量培訓案例。深度學習方法的其他優點是他們建立數據的分層表示,並從復雜的相互作用中學習壹般特征,從而有利於蛋白質的蛋白質組學和網絡分析。例如,使用磷酸化數據,雙峰深信念網絡已被用於預測大鼠細胞對相同刺激的刺激的細胞反應[36]。與傳統的管線相比,開發的算法獲得了相當的準確性。
結構生物學和化學。結構生物學包括蛋白質折疊分析,蛋白質動力學,分子建模和藥物設計。二級和三級結構是蛋白質和RNA分子的重要特征。對於蛋白質,適當的結構測定對於酶功能預測,催化中心和底物結合的形成,免疫功能(抗原結合),轉錄因子(DNA結合)和轉錄後修飾(RNA結合)是重要的。喪失適當的結構會導致功能喪失,並且在某些情況下會導致可能導致神經退行性疾病(如阿爾茨海默病或帕金森病)的異常蛋白質的聚集。[37]
基於復合同源性的比較建模是預測蛋白質二級結構的壹種可能方式,但是受現有註釋良好的化合物的量限制。另壹方面,機器學習從頭預測是基於公認的具有公知結構的化合物的模式,但是還不夠精確以至於不能實際使用。從頭開始使用深度學習方法通過使用蛋白質測序數據改進了結構預測[38]。同樣,深度學習已經被應用於使用ASTRAL數據庫數據和復雜的三階段方法來預測二級結構元素和氨基酸殘基之間的接觸和取向[39]。所使用的方法是分析偏倚和高度可變數據的有效工具。
三維結構的不變性在功能上也是重要的。然而,有幾種蛋白質沒有獨特的結構參與基本的生物過程,如細胞周期的控制,基因表達的調控,分子信號傳遞。此外,最近的研究顯示壹些無序蛋白質的顯著性[37]; 許多癌基因蛋白具有非結構域,並且錯誤折疊蛋白的異常聚集導致疾病發展[40]。這種沒有固定三維結構的蛋白被稱為固有無序蛋白(IDP),而沒有恒定結構的結構域被稱為固有無序區(IDR)。
許多參數將IDP / IDR與結構化蛋白質區分開來,從而使預測過程具有挑戰性。這個問題可以使用深度學習算法來解決,這些算法能夠考慮各種各樣的特征。2013年,Eickholt和Cheng發表了壹個基於序列的深度學習預測指標DNdisorder,與先進的預測指標相比,改進了對無序蛋白質的預測[41]。後來在2015年,Wang等人提出了壹種新的方法,DeepCNF,使用來自蛋白質結構預測的臨界評估(CASP9和CASP10)的實驗數據,能夠準確預測多個參數,如IDPs或具有IDR的蛋白質。DeepCNF算法通過利用眾多特征,比基線單從頭(從頭算)預測指標執行得更好[42]。
另壹類重要的蛋白質是結合單鏈或雙鏈RNA的RNA結合蛋白。 這些蛋白質參與RNA的各種轉錄後修飾:剪接,編輯,翻譯調控(蛋白質合成)和聚腺苷酸化。RNA分子形成不同類型的臂和環,需要識別和形成RNA和蛋白質之間連接的二級和三級結構。RNA的二級和三級結構是可預測的,並且已經被用於建模結構偏好偏好和通過應用深度信念網絡預測RBP的結合位點[43]。深度學習框架在真正的CLIP-seq(交聯免疫沈澱高通量測序)數據集上進行了驗證,以顯示從原始序列和結構分布中提取隱藏特征的能力,並準確預測RBP的位點。
藥物發現和再利用。計算藥物生物學和生物化學廣泛應用於藥物發現,開發和再利用的幾乎每個階段。過去數十年來,不同的研究團體和公司在全球範圍內開發了大量用於計算機模擬藥物發現和目標延伸的計算方法,以減少時間和資源消耗。雖然存在許多方法[44],但是還沒有壹個是最優的(例如,無法執行通量篩選或者通過蛋白質類別進行限制),現在壹些研究表明深度學習是壹個重要的考慮方法(表1)。
藥物發現的重要任務之壹就是預測藥物靶點的相互作用。 靶標(蛋白質)通常具有壹個或多個與底物或調節分子的結合位點; 這些可以用於建立預測模型。 然而,包括其他蛋白質的成分可能會給分析帶來偏見。成對輸入神經網絡(PINN)接受具有從蛋白質序列和靶分布獲得的特征的兩個載體的能力被Wang等人用來計算靶標-配體相互作用[45]。神經網絡的這種優勢比其他代表性的靶標-配體相互作用預測方法有更好的準確性。
藥物發現和評估是昂貴,耗時且具有風險; 計算方法和各種預測算法可以幫助降低風險並節省資源。壹個潛在的風險是毒性; 例如,肝毒性(肝毒性)是從生產中去除藥物的常見原因。用計算方法預測肝毒性可能有助於避免可能的肝毒性藥物。使用深度學習,可以有效地確定原始化學結構的化合物毒性,而不需要復雜的編碼過程[46]。使用CNN也可以預測諸如環氧化的性質,這意味著高反應性和可能的毒性; 這是休斯等人首次實施的。通過使用環氧化分子和氫氧化物分子的簡化分子輸入線入口規格(SMILES)格式數據作為陰性對照[47]。
多平臺數據(Multiomics)。使用多平臺數據的能力是深度學習算法的主要優勢。 由於生物系統復雜,具有多個相互關聯的元素,基因組學,表觀基因組學和轉錄組學數據的系統級整合是提取最有效且有生物學意義的結果的關鍵。整合過程在計算上不是微不足道的,但收益是生物標誌物特異性和靈敏度比單壹來源方法的增加。
計算生物學中需要分析組合數據的主要領域之壹是計算表觀遺傳學。有聯合分析基因組,轉錄組,甲基化組特征和組蛋白修飾提供了準確的表觀基因組預測。
壹些研究人員已經開發出深度學習方法,可用於分析來自多個來源的數據(表1)。Alipanahi等人開發了基於深度學習的方法DeepBind(tools.genes.toronto.edu/deepbind/),以在各種疾病中計算核苷酸序列結合轉錄因子和RNA結合蛋白的能力,並表征單點突變對結合特性的影響。DeepBind軟件受CNN啟發,對技術不敏感; 相反,它與從微陣列到序列的定性不同形式的數據是相容的。CPU的實現也允許用戶並行化計算過程[48]。在另壹個基於CNN的應用程序中,Zhou和Troyanskaya設計了DeepSEA框架來預測染色質特征和疾病相關序列變異的評估。與其他計算方法不同,他們的算法能夠捕獲每個結合位點的大規模上下文序列信息,用於註釋從頭序列變異體[49]。開發了類似的CNN管線,揭示了序列變異對染色質調控的影響,並對DNase-seq(DNase I測序)數據進行了培訓和測試[50]。壹種名為Bassed的深度學習軟件優於基線方法,並且在所有數據集上達到平均AUC0.892。最後,隨著深層特征選擇模型的發展,深度學習被用於識別主動增強器和促進器,該模型利用了DNN對復雜非線性相互作用進行建模的能力,並學習了高層次的廣義特征[51]。模型從多平臺數據中選擇特征,並按照重要性進行排序。在這些應用中,深度學習方法是染色質性質的更敏感和更有力的預測因子,也是復雜生物標誌物發展的關鍵。
癌癥是壹組異質性疾病的廣泛名稱,其中壹些是由基因突變引起的,因此使用多平臺數據的癌癥分類可以揭示潛在的病理學。Liang等人開發了壹個具有多平臺數據的深層信念網絡模型,用於癌癥患者的聚類[52]。使用受限玻爾茲曼機對每種輸入模式定義的特征進行編碼。這種方法的壹個優點是深層信念網絡不需要具有正態分布的數據,因為其他聚類算法和遺傳(生物)數據不是正態分布的。
最後,從自然語言處理的角度來看,深度學習在通過巨大的非結構化(研究出版物和專利)和結構化數據(知識註釋圖,如基因本體論[53]或Chembl[54])瀏覽時,通過檢驗假設的合理性。這些數據庫壹起形成了壹個龐大的,多平臺的數據集,如果結合起來,這些數據集將更加豐富和全面。
總之,現代生物數據的龐大規模,對於以人為本的分析來說太龐大而復雜。 機器學習,特別是深度學習與人類專業知識相結合,是將多個大型多平臺數據庫完全集成的唯壹途徑。 深度學習使人類能夠做到以前無法想象的事情:具有數百萬輸入的圖像識別,語音識別以及接近人類能力的語音自動化。 雖然深度學習和特別是無監督的深度學習仍處於起步階段,特別是在生物學應用方面,但最初的研究支持它作為壹種有希望的方法,盡管在實施中不受限制和挑戰,但可以克服生物學數據的壹些問題, 對數百萬間接和相互關聯的疾病機制和途徑的新見解。