SPSS統計分析案例:多層感知器神經網絡

神經網絡模型起源於對人腦思維方式的研究。它是壹個非線性數據建模工具。神經元由輸入層、輸出層和壹個或多個隱層組成，神經元之間的連接被賦予相應的權重。訓練和學習算法在叠代過程中不斷調整這些權重，從而最小化預測誤差，給出預測精度。

在SPSS神經網絡中，有兩種方法:多層感知器(MLP)和徑向基函數(RBF)。

本期主要研究多層感知器神經網絡。很難解釋清楚。為了直觀感受它的作用，我們先從壹個案例入手，然後再總結知識。

案例數據

該數據文件涉及銀行為降低貸款違約率而采取的措施。該文檔包含過去獲得貸款的700名客戶的財務和人口統計信息。請使用這700個客戶的隨機樣本創建壹個多層感知器神經網絡模型。銀行需要這個模型來根據高或低的信用風險對新客戶數據進行分類。

首先分析:菜單參數

要運行多層感知器分析，請從菜單中選擇:

分析>神經網絡>多層感知器

如上圖所示，MLP主面板* * *有八個頁簽，其中至少需要設置“變量”、“分區”、“輸出”、“保存”、“導出”五個頁簽，其他接受軟件默認設置。

▌“變量”選項卡

將“默認”移到因變量框中；

將分類變量“教育”移至因子框，其他數值變量移至“協變”框；

因為協變量的維度不同，所以選擇“標準化”；

▌“分區”選項卡

在此之前，先在《皈依》中說明；在隨機數生成器的菜單中，隨機數的固定種子設置為9191972(這裏和SPSS的官方文檔壹樣，用戶可以自由設置)，因為在“分區”頁簽中，要求對原始數據文件進行隨機抽樣，將數據分為“訓練樣本”、“支持樣本”、“測試樣本”三塊，所以隨機過程可以重復。

初始建模時，將70%的樣本作為訓練樣本完成自學習，構建神經網絡模型，30%作為支持樣本對建立的模型進行性能評估，暫時不分配測試樣本；

▌“輸出”選項卡

查看“描述”和“圖”；

查看“模型匯總”、“分類結果”和“預測實測圖”；

查看“案件處理總結”；

構成“自變量重要性分析”；

這是第壹次嘗試性的分析。主要參數如上設置，其他頁簽接受軟件默認設置。最後，返回主面板，點擊“確定”開始MLP進程。

第壹次分析的結果:

主要結果如下:

案件處理匯總表，記錄700個貸款客戶，其中480個客戶被分配到訓練樣本，占68.6%，另外220個客戶被分配到支持樣本。

根據模型匯總表，第壹次構建的MLP神經網絡模型的錯誤預測百分比為12.7%，獨立支持樣本檢驗模型的錯誤百分比為20.9%，表明超過了最大時間課程數，模型的異常規則被中止，表明有過度學習的嫌疑。

判斷:第壹次建立的模型需要防止過度訓練。

第二個分析:菜單參數

第壹次分析有過度訓練的嫌疑，所以第二次分析主要是添加測試樣本，輸出最終的模型結果。

要運行多層感知器分析，請從菜單中選擇:

分析>神經網絡>多層感知器

▌“分區”選項卡

重新分配樣本，總共700個樣本，30%的支持樣本，50%的訓練樣本從70%減少，另外20%分配到獨立測試樣本空間；

▌“保存”選項卡

保存每個因變量的預測值或類別；

保存每個因變量的預測準概率；

▌“出口”標簽

將估計的突觸權重導出到XML文件；

命名XML模型文件並指定存儲路徑；

其他選項卡的操作與第壹個分析壹致。返回主面板，點擊“確定”開始第二次分析。

第壹次分析的結果:

總樣本在3個分區中的分布比率。

MLP神經網絡圖，該模型包括1個輸入層，1個隱藏層和1個輸出層。輸入層神經元數為12，9個隱層，2個輸出層。

根據模型匯總表，模型誤差在1連續步中未得到優化降低，模型如期終止。三個分區中模型的不正確預測的百分比接近。

在模型分類表中，軟件以0.5作為違約對錯的概率邊界，交叉對比三大區域樣本的正確率，顯示預測為否，即預測不違約的概率高於違約，模型對違約貸款客戶的風險識別能力較低。

預測-實測圖，根據貸款客戶是否拖欠和預測結果進行分組，縱坐標為預測概率。當邊界為0.5時，優質客戶的識別效果較好，但對欠費客戶的識別出錯概率較大。

顯然，以0.5為分界線並不是最優解。我們可以嘗試將分割線下移至0.3左右，這樣會使第四個方框圖中的大量客戶被正確地重新歸類為債務人，提高風險識別能力。

自變量重要性圖表，它是重要性表中值的條形圖，按重要性值的降序排序。它表明，與客戶穩定性(就業，地址)和債務(信用債務，debtinc)相關的變量對網絡如何對客戶進行分類有很大的影響。

最後，查看導出的XML模型文件:

第二個MLP神經網絡模型存儲在XML文件中，可用於新客戶的分類和風險識別。

新客戶分類

假設有150個新客戶，需要利用之前建立的模型快速分類識別這些客戶的風險。

打開新客戶數據並從菜單中選擇:

實用程序>評分向導

鍵入" XML文件"，點擊"下壹步":

檢查新數據文件變量的定義是否準確。下壹步。

選擇輸出“預測類別的概率”和“預測值”。完成了。

新客戶數據文件中增加了三個新列，分別給出了每個新客戶的預測概率和風險分類(是否欠貸款)。

多層感知器神經網絡綜述

前饋監督學習技術；

多層感知器可以發現極其復雜的關系；

如果因變量被分類，神經網絡將根據輸入數據將記錄分類到最合適的類別中；

如果因變量是連續的，則網絡預測的連續值是輸入數據的連續函數；

建議打造培訓-測試-支持三分區，網絡培訓學習會更有效；

該模型可以導出為XML格式，以便對新數據進行評分；

上一篇:王老吉為何會轉行做“牙膏”？

下一篇:西青果(天津西青區鮮果供應平臺)

最新的9個模具網站有哪些？模具行業好像出現了新的B2B企業。

適合做飼料的商標名稱取有檔次的招財商標名稱