不只是所選算法10,事實上,參與的18種算法的選擇,其實,只是為了拿出壹個可以稱得上是經典算法的數據挖掘領域有產生深遠的影響。
的C4.5
C4.5算法是壹種分類決策樹算法,機器學習算法,核心算法是ID3算法C4.5算法繼承了ID3算法的優點和ID3算法已經在以下幾個方面:
1)信息增益率提高,選擇屬性,克服偏差值選擇屬性信息增益選擇屬性缺乏;
2)在樹結構中修剪;
3)完成的過程中連續屬性離散化;
4)不完整的數據。
C4.5算法有以下優點:產生的分類規則易於理解,準確率較高。其缺點是:在樹形結構中,順序掃描和排序的數據集,從而導致低效率的算法。
2。 K-means算法
k-means算法算法的k-means算法是壹個聚類算法,根據其屬性分成K,K <N的n個對象。與混合正態分布預期的算法是非常相似的,因為他們正試圖找到壹個自然聚類在數據中心。它假定從向量空間的對象屬性,並且目標的各組內的最小均方誤差的總和。
支持向量機
支持向量機,支持向量機的英語,簡稱SV機(通常被稱為紙SVM)。這是壹個監督的學習方法,這是廣泛使用的統計分類和回歸分析。支持向量機向量映射到高維空間,在這個空間中創建有壹個最大間隔超平面。在單獨的數據的超平面的兩側上的兩個相互平行的超平面。分離超平面,使兩個平行的超平面的距離最大化。假設越大平行的超平面的距離或空隙時,分類器的總誤差越小。優秀導遊CJC Burges“模式識別支持向量機指南。範德沃爾特和巴納德的支持向量機等分類進行了比較。
Apriori算法
Apriori算法是壹個最有影響力的挖掘布爾關聯規則頻繁項集算法,其核心是壹組遞歸算法思想的基礎上兩個階段的頻率。關聯規則被歸類為壹維的,單壹的,布爾關聯規則。在這裏,所有支持大於稱為最小支持度的項集稱為頻繁項集,作為頻率設定
最大期望(EM)算法在統計計算的最大期望(EM,期望最大化)算法找到參數最大的期望經常用在機器學習和計算機視覺數據采集領域(數據聚類模型中的概率(概率)似然估計算法,其中概率模型是依賴於不可觀察的隱變量(潛variabl)。 )
6。的PageRank
谷歌的PageRank算法,2001年9月被授予了美國專利,該專利是谷歌創始人拉裏·佩奇(Larry Page)。,PageRank和多年的不是指到頁面上,但,這個水平是命名。
的PageRank根據網站的數量和質量來衡量網站的價值的內部和外部鏈接。背後的PageRank概念每個鏈接的網頁是壹個投票的頁面,鏈接,投票更意味著其他網站,這是所謂的“鏈接流行度” - 衡量有多少人願意被鏈接到他們的網站,您的網站。被引述的PageRank的概念經常被引用在學術論文 - 即被引用其他壹些更普遍的權威判斷本文
7 AdaBoost的
Adaboost的是壹種叠代算法其核心思想是相同的訓練集的不同的分類器(弱分類器),然後這些弱分類器***同構成壹個更強的最終分類器(強分類器)。這個算法本身是通過改變數據分布,它是正確的,根據分類每個訓練集的每個樣品,和最後的總分類精度來確定每個樣品的重量。的新數據集的權重給較低的分類器的訓練,融合每個訓練上的最終的分類,作為最終決定分類
KNN:k-最近鄰分類
K近鄰(K近鄰,KNN)分類算法,是壹個理論上更成熟的方式,也是最簡單的機器學習算法的想法?方法是:如果在特征空間中的樣本,K最相似的(即,在特征空間中最接近的大多數樣品)屬於壹類,將樣品也屬於這壹類。 BR p> 9。樸素貝葉斯
在眾多的分類模型,兩種最常用的分類模型是決策樹模型(決策樹模型)和Na?ve Bayes分類模型(樸素貝葉斯模型,NBC)天真貝葉斯模型發源於古典數學理論,具有紮實的數學基礎,以及穩定的分類效率。與此同時,需要非常少的參數估計NBC模型,丟失的數據是不敏感的算法是相對簡單。從理論上講,NBC模型具有最小的誤差率相比,與其他分類方法。但事實上並非總是如此,這是因為NBC模型假設屬性相互獨立的,在實際應用中,這種假設是往往不成立的,這帶來了壹定影響NBC模型的正確分類。數量的屬性或屬性之間的相關性較大時,NBC模型的分類比較決策樹模型的效率。物業較少有關,表現NBC模型是最有利的。
10。車:分類和回歸樹
車,分類與回歸樹。在分類樹下面有兩個關鍵的思路。第壹個是的想法?遞歸劃分的獨立變量的空間;第二個想法是修剪與驗證數據。