當前位置:律師網大全 - 註冊公司 - 美國網貸平臺Prosper貸款數據分析

美國網貸平臺Prosper貸款數據分析

本文主要描述了如何用Python來評估、組織和清洗數據集。

完成這個過程後,我們將通過Tableau對“Prosper違約客戶的特征是什麽”這個問題進行探索、分析和可視化。

最後用隨機森林算法對2009年7月以後的數據進行建模分析,對還在進行中的貸款進行違約與否的預測。

Prosper是美國第壹家P2P借貸平臺。這個數據集來自於優步2005年到2014在Udacity上的貸款數據。本文希望通過對已完成貸款的分析,判斷什麽樣的客戶更容易違約,並預測未完成貸款是否會違約。

原始數據集包含81個變量和113937條數據。下面解釋壹些重要的變量,其他變量的含義可以參考變量字典。

首先加載庫和數據。

然後用df.describe()和df.info()觀察數據。

這次主要分析1。什麽樣的借款人更容易違約?2.預測未償還貸款是否會違約。所以去掉不相關的欄目。

自2009年7月起,Prosper調整了對客戶的評估方法。這次只分析2009年7月以後的貸款-01。

刪除含義重復的列:

Prosper對新客戶的評級和老客戶不同,這次只分析新客戶的數據。

首先,檢查每個變量的缺失數據。

平臺將貸款狀態分為12類型:已取消(已註銷)、已收費(已核銷,投資人有損失)、已完成(正常完成,投資人無損失)、當前(貸款償還)、違約(壞賬,投資人有損失)、FinalPaymentInProgress(投資人最終還款無損失)、粘貼。

本文根據交易是仍在進行還是已成交,以及投資者在已成交的交易中是否虧損,將所有數據分為以下三組:

當前(包括當前、過期),

違約(包括違約、拒付),

已完成(包括已完成,finalpaymentinprogress)。

為了便於後續的分析計算,“完成”改為1,“默認”改為0。

已完成貸款違約率defaulted _ ratio _ finished = 26.07%。

這個數據集有很多反映貸款用戶信用情況的特征。其中,信用評級由Prosper根據自己的模型建立,是確定貸款利率的主要依據,而CreditScore則由官方信用評級機構提供。

從圖5-1可以看出,隨著ProsperRating的不斷增加,違約率呈現出明顯的下降趨勢。

在CreditScore,低分(640-700),違約率處於比較高的位置,沒有太大的變化。對於720以上的部分,隨著信用評分的提高,違約率明顯下降。

總體來看,借款人的信用等級越高,違約的可能性越低。

在不同收入水平中,未就業借款人的違約率最高,且隨著收入的增加,違約率不斷降低。

在不同的貸款狀況下,違約用戶的月收入明顯低於非違約用戶。

根據圖5-4左圖,違約用戶和非違約用戶的整體負債收入比差別不大。

根據債務收入比的四分位數,將所有數據分為數據量相近的四組。從圖5-4右圖可以看出,低比率(債務收入比0-0.12)和中比率(0.12-0.19)的違約率都較低。比例較高的違約率(0.19-0.29)略高於前兩者。而高比例(大於0.29)用戶的違約率明顯上升。

根據銀行卡使用率的四分位數,將數據分為'未使用'、'低透支(0,0.3 '、'中度透支(0.3,0.7 '、'高透支(0.7,1)”和'嚴重透支(1)。

可見透支嚴重的借款人違約率最高。

二是未使用的用戶,這也是金融機構特別關註“白戶”的原因。

InquiriesLast6Months可以反映借款人近期向金融機構申請貸款的頻率,間接反映借款人近期的財務狀況。

圖5-6中,綠線表示不同查詢時間下的貸款筆數。可以看到,大部分都在7倍以下。

在0-7次查詢的範圍內,默認率隨著查詢次數的增加而增加。

目前的違約情況可以很好地反映借款人的信用狀況。

從圖5-7可以看出,目前大部分借款人的逾期次數在2次以內。在0-6的範圍內,違約率隨著當前逾期次數的增加而增加。

為了避免某些極少數類別對違約率排名的影響,首先篩選出貸款超過30筆的類別。

從圖5-8可以看出,最大的數字是1-債務合並。

違約率最高的是15-醫療/牙科(醫療)、13-家庭支出(家庭支出)和3-商業(商業),均高於30%。

根據貸款金額的四分位數,將數據分為四組,數字相近。有意思的是,中等規模貸款(365,438+000,4750)的違約率最高,而高規模貸款(8,500以上)的違約率最低。

這大概是因為能申請高額貸款的用戶各方面條件都很好,從而降低了違約率。

從圖5-11可以看出,在0-30的範圍內,隨著久期的增加,違約率逐漸降低,這個範圍也包含了壹半左右的數據。

當久期持續增長時,違約率沒有明顯的變化規律。

不同地區違約率差異明顯。在洛杉磯和SD等城市,違約率很高。在ut和co等城市,違約率較低。

整體來看,有房產的借款人違約率明顯低於無房產的借款人。

導入相關庫。

將數據中的字符串變量轉換為數字。

按照測試集30%、訓練集70%的比例劃分數據集,使用隨機森林算法建立模型。

模型測試集的預測準確率為:準確率=73.99%。

對於隨機森林算法,我們可以檢查該模型中每個特征的重要性。

如圖6-2所示,StatedMonthlyIncome和EmploymentStatusDuration是最重要的功能。

根據該模型,預測仍在進行中的貸款是否違約。

仍在進行中的貸款違約率為Default _ Ratio _ Predict = 3.64%。

本文詳細描述了Prosper loan數據從數據探索到模型建立和預測的完整過程。

研究發現,月收入和雇傭期限對是否違約影響最大。主要是因為這兩個是反映借款人穩定性的重要因素。

在模型建立方面,也可以通過調整這個模型的參數來提高精度,或者嘗試使用其他算法,比如logistic回歸,建立新的模型進行比較。

  • 上一篇:律師事務所合夥制與公司制的區別。
  • 下一篇:目前在網上買保險好還是直接去保險公司好?
  • copyright 2024律師網大全