當前位置:律師網大全 - 商標註冊 - 什麽是隨機森林算法?

什麽是隨機森林算法?

隨機森林是指使用多棵樹來訓練和預測樣本的分類器。該分類器首先由Leo Breiman和Adele Cutler提出,並註冊為商標。

在機器學習中,隨機森林是壹個包含多個決策樹的分類器,其輸出的類別由各個樹輸出的類別的模式決定。Leo Breiman和Adele Cutler開發了壹種算法來推斷隨機森林。“隨機森林”是他們的商標。?

這個術語來自於Bell Laboratories的Tin Kam Ho在1995中提出的隨機決策森林。

這種方法結合了Breimans的“引導聚集”思想和Ho的“隨機子空間方法”來建立壹組決策樹。

學習算法

每個樹都是根據以下算法構建的:

1.n代表訓練案例(樣本)的數量,M代表特征的數量。

2.輸入特征數m,用於確定決策樹上壹個節點的決策結果;其中m應該比m小很多。

3.以放回樣本的方式從n個訓練用例(樣本)中抽取n次,形成壹個訓練集(bootstrap sampling),用未抽取的用例(樣本)進行預測,並評估其誤差。

4.對於每個節點,隨機選擇M個特征,決策樹中每個節點的決策都是基於這些特征的。根據這m個特征,計算出最佳分裂方式。

5.每棵樹都將在沒有修剪的情況下完全生長,這可以在建立正常的樹分類器之後被采用。

擴展數據:

基於隨機森林的無監督學習

作為構建的壹部分,隨機森林預測值自然會導致測量觀測值之間的差異。您還可以定義未標記數據之間的隨機森林差異度量:其思想是構建壹個隨機森林預測器來區分“觀察到的”數據和適當生成的合成數據。

觀測數據是原始的未標記數據,合成數據是從參考分布中提取的。隨機森林的相異度度量是有吸引力的,因為它可以很好地處理混合變量類型,對輸入變量的單調變換不敏感,並且在存在異常值的情況下測量結果仍然是可靠的。

由於其固有變量的選擇,隨機森林相異可以很容易地處理大量的半連續變量。

參考資料:

百度百科-隨機森林

  • 上一篇:四川有什麽好酒?
  • 下一篇:唐山有什麽特產?唐山十大特產介紹。
  • copyright 2024律師網大全