1995年,美國運通的風控模型開始試運行,風控系統於1997年正式上線。在接下來的幾年裏,美國運通保持了快速增長,並將不良貸款降至行業最低水平。
2008年,discover將其全球數據分析中心遷至上海。這個中心流出的風控人才,已經填滿了國內各大互金公司。
業務類型:抵押貸款(車貸)、信用貸款(如宜人貸)、消費分期貸款(手機、家電等)。)、小額現金貸(500/1000/1500)等。
風控涉及業務:1)數據采集:包括信用數據、運營商數據、爬蟲、網站嵌入點、歷史貸款數據、黑名單、第三方數據等。
?2)反欺詐引擎:主要包括反欺詐規則和反欺詐模型。
?3)規則引擎:即常用的策略。主要是通過數據分析手段統計不同領域、不同區間的壞賬率,然後選擇信用好的人放貸。
4)風控模型&;記分卡:模型算法沒有顯著區別,只是按照時間點的不同(貸前/貸中/貸後)來劃分,也就是目標的生成方式不同。通常,目標變量由信用字段中的逾期天數定義。a卡可以使用客戶歷史上最大的逾期天數,B卡可以使用多期最大的逾期貸款。由於目的不同,建立C卡的方式也不同。
5)催收:是風險控制的終極手段。這個環節可以產生很多對模型有幫助的數據,比如收款記錄的文字描述,到達率,欺詐標簽等等。
1)爬蟲可以抓取手機APP的信息。我們可以把手機app分為四類:工具類、社交類、娛樂類、金融類。計算每個APP的數量,所以有四個特點。
2)從運營商數據可以知道客戶打了多少電話,發了多少短信,用了多少流量,有沒有欠費。
3)信用報告往往是簡單的信用評分。壹般分數越高,客戶質量越好。
4)從基本信息中獲取用戶畫像,如從身份證中獲取年齡、性別、戶籍等。
黑名單的升級版是規則引擎。然而,它是由經驗產生的。比如保險公司可能會拒絕為連續退貨五次或者退貨比例達到80%的人購買退貨險。規則通常需要大量的精力去維護,不斷的更新修改,否則會造成大量的誤判。建議對可疑現金金額和交易筆數超過壹定數量的,拒絕訪問或重點關註。XX天內申請貸款次數大於某個值,建議拒絕。
比如我們可以設定壹個入職規則,比如是公務員、醫生、律師等等。
還可以設置直貸原則,比如芝麻分大於750分。
如何確定目標變量:以卡牌A為例,主要通過滾率和年份。比如我們可以把逾期8個月超過60天的客戶定義為不良客戶,逾期8個月沒有逾期的客戶定義為良好客戶。而0-60天內逾期八個月的客戶不確定,排除在樣本之外。
1)準備工作:不同的模型針對不同的業務場景,建模項目開始前需要對業務邏輯和需求有清晰的了解。
2)模型設計:包括模型選擇(記分卡或集成模型)、單壹模型或模型細分。是否需要做拒絕推斷,如何定義觀察期,表現期,用戶好壞。確定數據源
3)數據提取和清洗:根據觀察期和性能期的定義,從數據池中提取數據,進行數據清洗和穩定性驗證。數據清洗包括異常、缺失和重復。穩定性檢驗主要考察變量在時間序列中的穩定性,指標有PSI、IV、均值/方差等。
4)特征工程:主要是特征預處理和篩選。記分卡主要由IV篩選。此外,還會基於對業務的理解進行特征構建,包括特征交集(兩個或兩個以上特征的乘/除/笛卡爾積)、特征變換等等。
5)模型建立與評估:記分卡可以通過邏輯回歸,僅通過二元預測選擇xgb。模型建立後,需要對模型進行評估,計算AUC和KS。該模型被交叉驗證以評估泛化能力。
6)模型上線部署:在風控後臺配置模型規則。對於xgb等壹些復雜的模型,壹般會將模型文件轉換成pmml格式進行封裝。後臺上傳文件和配置參數。
7)模型監控:前期主要是監控整個模型和變量的穩定性。主要衡量標準是PSI(人口穩定性?索引).其實psi就是每個分數區間的實際和預期比例除以分數後的差值。如果小於10%,則不需要更新模型。如果低於25%,就需要重點關註模型了。如果大於25%,則需要更新模型。計算模型psi壹般采用等頻,可分為10盒。
1.卡A、卡B、卡C的含義和區別是什麽?
申請評分卡:申請評分卡,在客戶申請的處理期間,預測客戶開戶後壹定時期內的違約和違約風險概率,有效排除信用不良客戶和非目標客戶的申請。同時,為客戶進行風險定價——確定金額和利率。使用的數據主要是用戶過去的信用記錄、多頭借貸、消費記錄等信息。
B-card(行為記分卡):壹種行為記分卡,根據賬戶管理期間賬戶歷史中的各種行為特征,預測賬戶未來的信用表現。壹是防控貸款中的風險,二是調整用戶額度。使用的數據主要是用戶在這個平臺上的登錄、瀏覽和消費行為的數據。還有貸款還款、逾期等貸款績效數據。
c卡(收藏?得分?卡片):催收記分卡,預測對逾期賬款的反應概率,從而采取相應的催收措施。
三張牌的區別:
數據要求不同:壹張卡壹般可以用於0-1年的貸款信用分析。B卡是在申請人有壹定行為後,用大數據進行的分析。C卡需要更多的數據,采集後需要添加客戶反應等屬性數據。
特點不同:壹張卡大多使用申請人的背景信息,如客戶填寫的基本信息、第三方信息等。而且這種模式壹般會比較謹慎。B Cali使用了很多基於事務的特性。
2.為什麽在風控領域選擇logistic回歸模型,其局限性是什麽?
1)首先,由於logistic回歸的敏感性不如其他高復雜度模型,因此具有穩健性。
2)模型直觀,系數的含義易於解釋和理解。
缺點是容易欠擬合,精度不是很高。另外對數據要求比較高,缺失、異常、特征共線性比較敏感。
3.為什麽用IV而不是WOE來篩選特征?
因為IV考慮了分組中樣本比例的影響。即使這個分組的WOE很高,如果分組的樣本比例很小,這個特征最後的預測能力可能還是很小。
4.ROC和ks指標(KS為0.2-0.75,auc為0.5-0.9)
ROC曲線以TP和FP為橫坐標和縱坐標,KS曲線以TP和FP為縱坐標,橫軸為閾值。KS可以找出模型中差異最大的壹組,如果大於0.2,就可以認為有較好的預測精度。而ROC可以反映整體的分化效果。
5.盒子分裂法與不良單調性
目前在業內,人們使用貪婪算法分盒,如best_ks、卡方除法等。Badrate單調性只在將連續數值型變量劃分為有序離散型變量的過程中考慮(比如學歷/大小)。至於為什麽要考慮badrate單調性,主要是業務理解上的原因。比如逾期歷史越多,不良率越大。
6.為什麽不同的風控模型壹般不會使用相同的功能?
被拒絕的人窮,是因為某些特質。如果用同樣的特征進行反復篩選,那麽隨著時間的推移,將來要建模的樣本中就不會有這樣的人了。因此特征上的樣本分布發生變化。
7.風險控制中使用的無監督算法有哪些?
聚類算法、基於圖的離群點檢測、LOF(局部異常因子)、孤立森林等。
8.卡方分裂
卡方裝箱是壹種基於合並的數據離散化方法。基本思想是合並具有相似類分布的相鄰區間。卡方值越低,兩個區間越相似。當然,不可能無限合並。我們為它設置了壹個門檻。它是根據自由度和信心度得出的。例如,如果類的數量是N,那麽自由度是N-1。置信度表示發生的概率。壹般可以拿90%。
best-ks包裝
與卡方包裝相反,best-ks包裝是壹個循序漸進的過程。將特征值從小到大排序,KS最大的值為切點,然後將數據分為兩部分。重復這個過程,直到盒子的數量達到我們預設的閾值。
10.拒絕推論?推論)
申請積分卡是利用已批準授信客戶的歷史數據建立模型,但這個模型會忽略原來被拒的這群客戶對積分卡模型的影響。為了使模型更加準確和穩定,有必要通過拒絕推理來修正模型。此外,公司規則的變化也可能讓過去被拒的客戶現在通過。適合通過率低的場景。
常用方法:硬截斷法——先用初始模型對被拒絕的用戶進行評分,設置壹個閾值。高於此的分數被標記為好用戶,否則為壞用戶。然後,將標記的拒絕用戶添加到樣本中,以重新訓練模型。分配方法-這種方法適用於記分卡。將樣本按得分分組,計算各組的違約率。然後根據前面的方法對被拒絕的用戶進行評分和分組。以每組的違約率為抽樣比例,隨機抽取該組中的違約用戶指定為不良用戶,其余用戶標記為良好用戶。然後將標記的拒絕用戶添加到樣本中進行重新訓練。
11.建模時如何保證模型的穩定性?
1)在數據預處理階段,可以通過計算月度IV的差值,觀察兩個時間點變量覆蓋率的變化和PSI的差值來驗證變量在時間序列中的穩定性。比如我們選取1-10個月的數據集,借鑒K倍驗證的思想,得到10組驗證結果。觀察隨著月份的推移,模型的變化是否有大的趨勢變化。
2)在變量篩選階段,去除與業務理解相悖的變量。如果是記分卡,可以剔除區分度太強的變量,模型受這個變量的影響會很大,穩定性會下降。
3)交叉驗證,壹個是時間序列交叉驗證,壹個是K倍交叉驗證。
4)選擇穩定性好的車型。比如xgb?隨機森林等
12.如何處理高維稀疏特征和弱特征?
對於高維稀疏特征,logistic回歸優於gbdt。後者的懲罰主要是樹深和葉片數,對稀疏數據不太嚴厲,容易過擬合。利用logistic回歸記分卡,可以將特征離散化為0和非0,然後進行woe編碼。
如果記分卡用於建模,薄弱的特征通常會被丟棄。記分卡不要有太多特征,壹般在15以下。而Xgb對數據要求低,準確性好。交叉組合壹些弱功能可能會有意想不到的效果。
13.模型上線後發現穩定性不好,或者在線判別效果不好。怎麽調?
模型不穩定。首先,檢查在建模時是否考慮了特征的穩定性。在模型前期發現穩定性差的變量,可以考慮舍棄或者用其他變量代替。此外,分析了在線和離線用戶以及建模時用戶的分布差異,並在建模時考慮了拒絕推理的步驟,使建模樣本的分布更接近實際的整體應用用戶。
線上效果差可以從變量的角度來分析。剔除效果不好的變量,在模型中挖掘新的變量。如果壹個模型上線很久了,用戶的屬性在慢慢轉移,那就重新取數據做下壹個模型。
14.如何做好風控模型冷啟動
產品剛推出的時候,沒有積累用戶數據,或者說用戶沒有表現出好壞。這時候可以考慮:1)不做模型,只做規則。有了業務經驗,做壹些硬性規定,比如對用戶設置準入門檻,考慮用戶的信用記錄和長期風險,接入第三方反欺詐服務和數據產品的規則。也可以結合人工審核,對用戶的申請材料進行風險評估。2)借助類似模型的數據建模。
15.樣本不平衡問題
除了調整類權重,抽樣方法主要用於解決這個問題。常見的有樸素隨機過采樣、SMOTE、ADASYN(自適應綜合過采樣)。
16.操作員數據處理
根據通話日期,通話記錄可以分為近7天、近半個月、近1月、近3月、近6月等時間窗口。也可以根據具體日期分為工作日、節假日等等。根據通話時間,壹天可以分為清晨、上午、下午和晚上。至於電話號碼,壹種思路是按照歸屬地劃分省市,另壹種思路是對號碼進行標註,區分快遞、騷擾電話、金融機構、中介等。根據電話公司的標簽,百度手機衛士和搜狗號碼通。甚至根據業務積累區分該號碼是黑名單用戶、申請用戶還是申請被拒用戶。用戶與不同號碼標簽之間的交流,可以反映出用戶的交流習慣和生活特點。
17.逐步回歸
當自變量之間關系復雜,難以把握變量的選擇時,可以用逐步回歸的方法篩選變量。逐步回歸的基本思想是將變量逐個引入模型,對每個引入的變量進行f檢驗,對選取的變量進行T檢驗。當最初引入的變量在後來的變量引入後不再顯著時,原來的變量將被刪除。確保在每次引入新變量之前,回歸方程中僅包含重要變量。
18.為什麽經常在logistic回歸中做特征組合(特征交叉)?
Logistic回歸是廣義線性模型,特征組合可以引入非線性特征,提高模型的表達能力。
部分引用文章:/content/qita/775233/article/jxwvkab 9t 7m pwhxj 9 ymu/developer/article/1489429?/developer/article/1059236?/taenggu 0309/記分卡-函數