通過上壹篇文章的介紹,已經清楚了進化樹的基本概念,那麽如何獲得可信的進化樹呢?
對於群體遺傳分析,通常基於群體SNPs位點數據構建系統發育樹。所以,接下來我主要以SNPs數據為例,介紹壹下進化樹的構建方法。
序列比對->;選樹方法-& gt;計算最佳替代模型->;系統發育樹的建立->;進化樹美化
常見的序列比對軟件有Clustal和Muscle。
Clustal不僅有自己獨立的軟件(各種操作系統支持),還經常集成到壹些常用軟件中,如Bioedit和MEGA。
Muscle還支持多種操作系統。
兩個軟件的引用頻率都很高,沒有絕對的誰好誰壞,哪個方便就用哪個。
1,基於距離的方法距離方法:
基於距離的方法:首先通過物種間的比較,按照壹定的假設(進化距離模型)推導出分類群間的進化距離,構建壹個進化距離矩陣。進化樹的構建是基於這個矩陣中的進化距離關系。
2.基於字符的方法特征方法:
基於特征的方法:不計算序列之間的距離,而是將序列中的不同位點視為獨立的特征,並根據這些特征構建樹。
型號選擇的依據如下:
UPGMA方法已經用的比較少了。壹般來說,如果型號合適,ML的效果更好。對於相關序列,有些人喜歡MP,因為它使用的假設最少。MP壹般不用於遠序列,此時壹般用NJ或ML。對於相似度較低的序列,NJ中常出現長枝吸引(LBA),有時會嚴重幹擾進化樹的構建。貝葉斯方法太慢了。關於各種方法構建分子系統樹的準確性,有綜述(Hall BG,2005)認為貝葉斯方法最好,其次是ML和MP。事實上,如果序列相似度高,所有的方法都會得到很好的結果,模型之間的差異也不大。但是,NJ是現在文章中廣泛使用的ML模型。
在系統發育分析中,最大似然法(ML)和貝葉斯法(BI)是兩種對備選模型非常敏感的算法。因此,在用ML法或BI法重建系統發育樹之前,備選模型的選擇是壹個必不可少的過程。
關於Win操作系統下jModelTest的使用,請參考這篇文章:舉例說明核苷酸替換模型的選擇——張洪磊的jModeltest。
關於PROTECT的用法,請參考這篇文章:使用PROTECT選擇最佳氨基酸替換模型。
我自己基本上用的是Linux版的jModelTest,用起來極其簡單。這些命令如下所示:
參數描述:
-d:輸入文件。立正!這個軟件需要輸入壹個文件。phy格式,不是。fasta格式。
-f:包括基本頻率不相等的型號
-g:包括不同地點和類別數量的費率變化模型
-i:包括具有比例不變站點的模型
-s:替代方案的數量
-v:進行模型平均和參數重要性
-a:估計每個有效標準的模型平均系統發育
——BIC:計算貝葉斯信息準則
-AIC:計算赤池信息標準
在結果的底部,有壹個如圖的列表,是得分最高的車型。
計算出最佳模型後,我們就開始做出成績。對於ML樹的構建,我們推薦妳使用新壹代的RAXML-RAXML-NG。
RAxML壹直是ML樹構建的經典工具,由來自德國海德堡理論研究所的Alexandros Stamatakis開發。近年來,它的江湖地位也受到了其他軟件的挑戰,尤其是IQ-Tree。周等人的文章《使用智能系統發育數據集評估基於快速最大似然的系統發育程序》系統地比較了RAxML、IQ-TREE、FastTree和Phyml的實際效果和性能,其中壹個結論是IQTREE在準確性上略勝壹籌。
最近發布了RAxML的升級版raxml-ng!
與上壹代產品相比,raxml-ng具有以下優勢:
話不多說,直接成績:
參數描述:
- all:執行壹體化分析(ML樹搜索+非參數引導)
- msa:用於後續序列文件
-模型:直接輸入上壹步生成的最佳模型。
- bs-trees:檢查樹的健壯性,進行bootstrap測試,進行1000 bootstrap采樣。
-線程:給定的線程
運行後的結果如下圖所示,其中。bestTree就是我們想要的樹文件,導入樹可視化工具就行了(我壹般用MEGA和iTOL),下次再寫如何美化進化樹。
做進化分析的工作者可能會有壹種感覺,很多分析要等好幾天,尤其是成果(做過的人都知道其中的痛苦),有時候突然加壹個樣本又得從頭再來。所以,強大的服務器是必備的工具。比如上面提到的SNP進化樹,我做的只是相似物種,而且基因組很小(9M),有4萬個SNP位點。如果我要用我的軟件MEGA調用我電腦的8核CPU,自研值1000可能會跑到畢業。
從壹個生物出身的我,抄襲了那點可憐的計算機知識,我們課題組買服務器的時候我做了很多功課。當然主要還是聽了公司技術人員的建議,通過我非常非常長期的測試,多次使用常用的生物信息學分析軟件(主要從事寄生蟲基因組、宿主轉錄組、16S宏基因組等的研究,).最後我找到了壹個性價比很高的服務器配置,具體配置如下:
真心感謝鳳味的技術兄弟姐妹們回答各種低級問題。有什麽需要可以聯系他們的技術,感覺挺靠譜的。官方網站:鳳味科技。
把他們的標誌放在上面以示感謝。
本文是我的學習筆記,希望對大家有所幫助。本文參考了大量的網絡文章,文章的來源列在了全文的最後。
參考:
閱讀壹篇文章中的進化樹
利用ProtTest選擇最佳氨基酸替代模型
RAxML-ng,新壹代的RAxML進化樹構建