在機器學習中,隨機森林是壹個包含多個決策樹的分類器,其輸出的類別由各個樹輸出的類別的模式決定。Leo Breiman和Adele Cutler開發了壹種算法來推斷隨機森林。“隨機森林”是他們的商標。?
這個術語來自於Bell Laboratories的Tin Kam Ho在1995中提出的隨機決策森林。
這種方法結合了Breimans的“引導聚集”思想和Ho的“隨機子空間方法”來建立壹組決策樹。
學習算法
每個樹都是根據以下算法構建的:
1.n代表訓練案例(樣本)的數量,M代表特征的數量。
2.輸入特征數m,用於確定決策樹上壹個節點的決策結果;其中m應該比m小很多。
3.以放回樣本的方式從n個訓練用例(樣本)中抽取n次,形成壹個訓練集(bootstrap sampling),用未抽取的用例(樣本)進行預測,並評估其誤差。
4.對於每個節點,隨機選擇M個特征,決策樹中每個節點的決策都是基於這些特征的。根據這m個特征,計算出最佳分裂方式。
5.每棵樹都將在沒有修剪的情況下完全生長,這可以在建立正常的樹分類器之後被采用。
?
擴展數據:
基於隨機森林的無監督學習
作為構建的壹部分,隨機森林預測值自然會導致測量觀測值之間的差異。您還可以定義未標記數據之間的隨機森林差異度量:其思想是構建壹個隨機森林預測器來區分“觀察到的”數據和適當生成的合成數據。
觀測數據是原始的未標記數據,合成數據是從參考分布中提取的。隨機森林的相異度度量是有吸引力的,因為它可以很好地處理混合變量類型,對輸入變量的單調變換不敏感,並且在存在異常值的情況下測量結果仍然是可靠的。
由於其固有變量的選擇,隨機森林相異可以很容易地處理大量的半連續變量。
參考資料:
百度百科-隨機森林