什麽是隨機森林算法？

隨機森林是指使用多棵樹來訓練和預測樣本的分類器。該分類器首先由Leo Breiman和Adele Cutler提出，並註冊為商標。

在機器學習中，隨機森林是壹個包含多個決策樹的分類器，其輸出的類別由各個樹輸出的類別的模式決定。Leo Breiman和Adele Cutler開發了壹種算法來推斷隨機森林。“隨機森林”是他們的商標。？

這個術語來自於Bell Laboratories的Tin Kam Ho在1995中提出的隨機決策森林。

這種方法結合了Breimans的“引導聚集”思想和Ho的“隨機子空間方法”來建立壹組決策樹。

學習算法

每個樹都是根據以下算法構建的:

1.n代表訓練案例(樣本)的數量，M代表特征的數量。

2.輸入特征數m，用於確定決策樹上壹個節點的決策結果；其中m應該比m小很多。

3.以放回樣本的方式從n個訓練用例(樣本)中抽取n次，形成壹個訓練集(bootstrap sampling)，用未抽取的用例(樣本)進行預測，並評估其誤差。

4.對於每個節點，隨機選擇M個特征，決策樹中每個節點的決策都是基於這些特征的。根據這m個特征，計算出最佳分裂方式。

5.每棵樹都將在沒有修剪的情況下完全生長，這可以在建立正常的樹分類器之後被采用。

？

擴展數據:

基於隨機森林的無監督學習

作為構建的壹部分，隨機森林預測值自然會導致測量觀測值之間的差異。您還可以定義未標記數據之間的隨機森林差異度量:其思想是構建壹個隨機森林預測器來區分“觀察到的”數據和適當生成的合成數據。

觀測數據是原始的未標記數據，合成數據是從參考分布中提取的。隨機森林的相異度度量是有吸引力的，因為它可以很好地處理混合變量類型，對輸入變量的單調變換不敏感，並且在存在異常值的情況下測量結果仍然是可靠的。

由於其固有變量的選擇，隨機森林相異可以很容易地處理大量的半連續變量。

參考資料:

百度百科-隨機森林