神經網絡模型起源於對人腦思維方式的研究。它是壹個非線性數據建模工具。神經元由輸入層、輸出層和壹個或多個隱層組成,神經元之間的連接被賦予相應的權重。訓練和學習算法在叠代過程中不斷調整這些權重,從而最小化預測誤差,給出預測精度。
在SPSS神經網絡中,有兩種方法:多層感知器(MLP)和徑向基函數(RBF)。
本期主要研究多層感知器神經網絡。很難解釋清楚。為了直觀感受它的作用,我們先從壹個案例入手,然後再總結知識。
案例數據
該數據文件涉及銀行為降低貸款違約率而采取的措施。該文檔包含過去獲得貸款的700名客戶的財務和人口統計信息。請使用這700個客戶的隨機樣本創建壹個多層感知器神經網絡模型。銀行需要這個模型來根據高或低的信用風險對新客戶數據進行分類。
首先分析:菜單參數
要運行多層感知器分析,請從菜單中選擇:
分析>神經網絡>多層感知器
如上圖所示,MLP主面板* * *有八個頁簽,其中至少需要設置“變量”、“分區”、“輸出”、“保存”、“導出”五個頁簽,其他接受軟件默認設置。
▌“變量”選項卡
將“默認”移到因變量框中;
將分類變量“教育”移至因子框,其他數值變量移至“協變”框;
因為協變量的維度不同,所以選擇“標準化”;
▌“分區”選項卡
在此之前,先在《皈依》中說明;在隨機數生成器的菜單中,隨機數的固定種子設置為9191972(這裏和SPSS的官方文檔壹樣,用戶可以自由設置),因為在“分區”頁簽中,要求對原始數據文件進行隨機抽樣,將數據分為“訓練樣本”、“支持樣本”、“測試樣本”三塊,所以隨機過程可以重復。
初始建模時,將70%的樣本作為訓練樣本完成自學習,構建神經網絡模型,30%作為支持樣本對建立的模型進行性能評估,暫時不分配測試樣本;
▌“輸出”選項卡
查看“描述”和“圖”;
查看“模型匯總”、“分類結果”和“預測實測圖”;
查看“案件處理總結”;
構成“自變量重要性分析”;
這是第壹次嘗試性的分析。主要參數如上設置,其他頁簽接受軟件默認設置。最後,返回主面板,點擊“確定”開始MLP進程。
第壹次分析的結果:
主要結果如下:
案件處理匯總表,記錄700個貸款客戶,其中480個客戶被分配到訓練樣本,占68.6%,另外220個客戶被分配到支持樣本。
根據模型匯總表,第壹次構建的MLP神經網絡模型的錯誤預測百分比為12.7%,獨立支持樣本檢驗模型的錯誤百分比為20.9%,表明超過了最大時間課程數,模型的異常規則被中止,表明有過度學習的嫌疑。
判斷:第壹次建立的模型需要防止過度訓練。
第二個分析:菜單參數
第壹次分析有過度訓練的嫌疑,所以第二次分析主要是添加測試樣本,輸出最終的模型結果。
要運行多層感知器分析,請從菜單中選擇:
分析>神經網絡>多層感知器
▌“分區”選項卡
重新分配樣本,總共700個樣本,30%的支持樣本,50%的訓練樣本從70%減少,另外20%分配到獨立測試樣本空間;
▌“保存”選項卡
保存每個因變量的預測值或類別;
保存每個因變量的預測準概率;
▌“出口”標簽
將估計的突觸權重導出到XML文件;
命名XML模型文件並指定存儲路徑;
其他選項卡的操作與第壹個分析壹致。返回主面板,點擊“確定”開始第二次分析。
第壹次分析的結果:
總樣本在3個分區中的分布比率。
MLP神經網絡圖,該模型包括1個輸入層,1個隱藏層和1個輸出層。輸入層神經元數為12,9個隱層,2個輸出層。
根據模型匯總表,模型誤差在1連續步中未得到優化降低,模型如期終止。三個分區中模型的不正確預測的百分比接近。
在模型分類表中,軟件以0.5作為違約對錯的概率邊界,交叉對比三大區域樣本的正確率,顯示預測為否,即預測不違約的概率高於違約,模型對違約貸款客戶的風險識別能力較低。
預測-實測圖,根據貸款客戶是否拖欠和預測結果進行分組,縱坐標為預測概率。當邊界為0.5時,優質客戶的識別效果較好,但對欠費客戶的識別出錯概率較大。
顯然,以0.5為分界線並不是最優解。我們可以嘗試將分割線下移至0.3左右,這樣會使第四個方框圖中的大量客戶被正確地重新歸類為債務人,提高風險識別能力。
自變量重要性圖表,它是重要性表中值的條形圖,按重要性值的降序排序。它表明,與客戶穩定性(就業,地址)和債務(信用債務,debtinc)相關的變量對網絡如何對客戶進行分類有很大的影響。
最後,查看導出的XML模型文件:
第二個MLP神經網絡模型存儲在XML文件中,可用於新客戶的分類和風險識別。
新客戶分類
假設有150個新客戶,需要利用之前建立的模型快速分類識別這些客戶的風險。
打開新客戶數據並從菜單中選擇:
實用程序>評分向導
鍵入" XML文件",點擊"下壹步":
檢查新數據文件變量的定義是否準確。下壹步。
選擇輸出“預測類別的概率”和“預測值”。完成了。
新客戶數據文件中增加了三個新列,分別給出了每個新客戶的預測概率和風險分類(是否欠貸款)。
多層感知器神經網絡綜述
前饋監督學習技術;
多層感知器可以發現極其復雜的關系;
如果因變量被分類,神經網絡將根據輸入數據將記錄分類到最合適的類別中;
如果因變量是連續的,則網絡預測的連續值是輸入數據的連續函數;
建議打造培訓-測試-支持三分區,網絡培訓學習會更有效;
該模型可以導出為XML格式,以便對新數據進行評分;