隨機森林是指使用多棵樹來訓練和預測樣本的分類器。該分類器首先由Leo Breiman和Adele Cutler提出,並註冊為商標。
在機器學習中,隨機森林是壹個包含多個決策樹的分類器,其輸出的類別由各個樹輸出的類別的模式決定。Leo Breiman和Adele Cutler開發了壹種算法來推斷隨機森林。“隨機森林”是他們的商標。?
這個術語來自於Bell Laboratories的Tin Kam Ho在1995中提出的隨機決策森林。
這種方法結合了Breimans的“引導聚集”思想和Ho的“隨機子空間方法”來建立壹組決策樹。
學習算法:
每個樹都是根據以下算法構建的:
1.n代表訓練案例(樣本)的數量,M代表特征的數量。
2.輸入特征數m,用於確定決策樹上壹個節點的決策結果;其中m應該比m小很多。
3.以放回樣本的方式從n個訓練用例(樣本)中抽取n次,形成壹個訓練集(bootstrap sampling),用未抽取的用例(樣本)進行預測,並評估其誤差。
4.對於每個節點,隨機選擇M個特征,決策樹中每個節點的決策都是基於這些特征的。根據這m個特征,計算出最佳分裂方式。
5.每棵樹都將在沒有修剪的情況下完全生長,這可以在建立正常的樹分類器之後被采用。