完成這個過程後,我們將通過Tableau對“Prosper違約客戶的特征是什麽”這個問題進行探索、分析和可視化。
最後用隨機森林算法對2009年7月以後的數據進行建模分析,對還在進行中的貸款進行違約與否的預測。
Prosper是美國第壹家P2P借貸平臺。這個數據集來自於優步2005年到2014在Udacity上的貸款數據。本文希望通過對已完成貸款的分析,判斷什麽樣的客戶更容易違約,並預測未完成貸款是否會違約。
原始數據集包含81個變量和113937條數據。下面解釋壹些重要的變量,其他變量的含義可以參考變量字典。
首先加載庫和數據。
然後用df.describe()和df.info()觀察數據。
這次主要分析1。什麽樣的借款人更容易違約?2.預測未償還貸款是否會違約。所以去掉不相關的欄目。
自2009年7月起,Prosper調整了對客戶的評估方法。這次只分析2009年7月以後的貸款-01。
刪除含義重復的列:
Prosper對新客戶的評級和老客戶不同,這次只分析新客戶的數據。
首先,檢查每個變量的缺失數據。
平臺將貸款狀態分為12類型:已取消(已註銷)、已收費(已核銷,投資人有損失)、已完成(正常完成,投資人無損失)、當前(貸款償還)、違約(壞賬,投資人有損失)、FinalPaymentInProgress(投資人最終還款無損失)、粘貼。
本文根據交易是仍在進行還是已成交,以及投資者在已成交的交易中是否虧損,將所有數據分為以下三組:
當前(包括當前、過期),
違約(包括違約、拒付),
已完成(包括已完成,finalpaymentinprogress)。
為了便於後續的分析計算,“完成”改為1,“默認”改為0。
已完成貸款違約率defaulted _ ratio _ finished = 26.07%。
這個數據集有很多反映貸款用戶信用情況的特征。其中,信用評級由Prosper根據自己的模型建立,是確定貸款利率的主要依據,而CreditScore則由官方信用評級機構提供。
從圖5-1可以看出,隨著ProsperRating的不斷增加,違約率呈現出明顯的下降趨勢。
在CreditScore,低分(640-700),違約率處於比較高的位置,沒有太大的變化。對於720以上的部分,隨著信用評分的提高,違約率明顯下降。
總體來看,借款人的信用等級越高,違約的可能性越低。
在不同收入水平中,未就業借款人的違約率最高,且隨著收入的增加,違約率不斷降低。
在不同的貸款狀況下,違約用戶的月收入明顯低於非違約用戶。
根據圖5-4左圖,違約用戶和非違約用戶的整體負債收入比差別不大。
根據債務收入比的四分位數,將所有數據分為數據量相近的四組。從圖5-4右圖可以看出,低比率(債務收入比0-0.12)和中比率(0.12-0.19)的違約率都較低。比例較高的違約率(0.19-0.29)略高於前兩者。而高比例(大於0.29)用戶的違約率明顯上升。
根據銀行卡使用率的四分位數,將數據分為'未使用'、'低透支(0,0.3 '、'中度透支(0.3,0.7 '、'高透支(0.7,1)”和'嚴重透支(1)。
可見透支嚴重的借款人違約率最高。
二是未使用的用戶,這也是金融機構特別關註“白戶”的原因。
InquiriesLast6Months可以反映借款人近期向金融機構申請貸款的頻率,間接反映借款人近期的財務狀況。
圖5-6中,綠線表示不同查詢時間下的貸款筆數。可以看到,大部分都在7倍以下。
在0-7次查詢的範圍內,默認率隨著查詢次數的增加而增加。
目前的違約情況可以很好地反映借款人的信用狀況。
從圖5-7可以看出,目前大部分借款人的逾期次數在2次以內。在0-6的範圍內,違約率隨著當前逾期次數的增加而增加。
為了避免某些極少數類別對違約率排名的影響,首先篩選出貸款超過30筆的類別。
從圖5-8可以看出,最大的數字是1-債務合並。
違約率最高的是15-醫療/牙科(醫療)、13-家庭支出(家庭支出)和3-商業(商業),均高於30%。
根據貸款金額的四分位數,將數據分為四組,數字相近。有意思的是,中等規模貸款(365,438+000,4750)的違約率最高,而高規模貸款(8,500以上)的違約率最低。
這大概是因為能申請高額貸款的用戶各方面條件都很好,從而降低了違約率。
從圖5-11可以看出,在0-30的範圍內,隨著久期的增加,違約率逐漸降低,這個範圍也包含了壹半左右的數據。
當久期持續增長時,違約率沒有明顯的變化規律。
不同地區違約率差異明顯。在洛杉磯和SD等城市,違約率很高。在ut和co等城市,違約率較低。
整體來看,有房產的借款人違約率明顯低於無房產的借款人。
導入相關庫。
將數據中的字符串變量轉換為數字。
按照測試集30%、訓練集70%的比例劃分數據集,使用隨機森林算法建立模型。
模型測試集的預測準確率為:準確率=73.99%。
對於隨機森林算法,我們可以檢查該模型中每個特征的重要性。
如圖6-2所示,StatedMonthlyIncome和EmploymentStatusDuration是最重要的功能。
根據該模型,預測仍在進行中的貸款是否違約。
仍在進行中的貸款違約率為Default _ Ratio _ Predict = 3.64%。
本文詳細描述了Prosper loan數據從數據探索到模型建立和預測的完整過程。
研究發現,月收入和雇傭期限對是否違約影響最大。主要是因為這兩個是反映借款人穩定性的重要因素。
在模型建立方面,也可以通過調整這個模型的參數來提高精度,或者嘗試使用其他算法,比如logistic回歸,建立新的模型進行比較。