Aprendizaje profundo consistente para el monitoreo del riesgo crediticio utilizando datos financieros tabulares

anotación 





El aprendizaje automático juega un papel importante en la prevención de pérdidas financieras en la industria bancaria. Quizás el desafío de pronóstico más urgente es evaluar el riesgo crediticio (el riesgo de incumplimiento de la deuda). Estos riesgos pueden generar pérdidas de miles de millones de dólares al año. Hoy en día, la mayoría de los beneficios del aprendizaje automático para predecir el riesgo crediticio se deben a los modelos de árbol de decisiones de mejora de gradientes. Sin embargo, estos beneficios comienzan a disminuir si no están respaldados por nuevas fuentes de datos y / o características flexibles de alta tecnología. En este artículo, presentamos nuestros intentos de crear un nuevo enfoque para la evaluación del riesgo crediticio utilizando el aprendizaje profundo que no implica un monitoreo complejo, no se basa en las entradas del nuevo modelo.Proponemos nuevos métodos para buscar transacciones de tarjetas de crédito para su uso con redes neuronales convolucionales profundas recurrentes y causales que utilizan secuencias temporales de datos financieros, sin requisitos especiales de recursos. Demostramos que nuestro enfoque secuencial para el aprendizaje profundo utilizando una red convolucional temporal ha superado el modelo de árbol inconsistente de referencia, logrando ahorros financieros significativos y detección temprana del riesgo crediticio. También demostramos el potencial de nuestro enfoque para su uso en un entorno de producción, donde la técnica de muestreo propuesta permite que las secuencias se almacenen de manera eficiente en la memoria, utilizándolas para un rápido entrenamiento y producción en línea.que utilizan secuencias de tiempo de datos financieros, sin requisitos especiales de recursos. Demostramos que nuestro enfoque secuencial para el aprendizaje profundo utilizando una red convolucional temporal ha superado el modelo de árbol inconsistente de referencia, logrando ahorros financieros significativos y detección temprana del riesgo crediticio. También demostramos el potencial de nuestro enfoque para su uso en un entorno de producción, donde la técnica de muestreo propuesta permite que las secuencias se almacenen de manera eficiente en la memoria, utilizándolas para un rápido aprendizaje y producción en línea.que utilizan secuencias de tiempo de datos financieros, sin requisitos especiales de recursos. Demostramos que nuestro enfoque secuencial para el aprendizaje profundo utilizando una red convolucional temporal ha superado el modelo de árbol inconsistente de referencia, logrando ahorros financieros significativos y detección temprana del riesgo crediticio. También demostramos el potencial de nuestro enfoque para su uso en un entorno de producción, donde la técnica de muestreo propuesta permite el almacenamiento eficiente de secuencias en la memoria, utilizándolas para una rápida formación y producción en línea.habiendo logrado importantes ahorros financieros y detección temprana del riesgo crediticio. También demostramos el potencial de nuestro enfoque para su uso en un entorno de producción, donde la técnica de muestreo propuesta permite el almacenamiento eficiente de secuencias en la memoria, utilizándolas para una rápida formación y producción en línea.habiendo logrado importantes ahorros económicos y detección temprana del riesgo crediticio. También demostramos el potencial de nuestro enfoque para su uso en un entorno de producción, donde la técnica de muestreo propuesta permite el almacenamiento eficiente de secuencias en la memoria, utilizándolas para una rápida formación y producción en línea. 





KEYWORDS credit risk, tabular data, credit card transactions, recurrent neural networks, temporal convolutional networks 





1.   





  ,    ,   ,     (, ). ,   [24]. 





(GBDTs), , [10]. ,          .  , ,      , , . . -,   , . -,    . , - ( ) -  , , (, [6]). 





, ,    . ,  GBDT, ,    (TCN)  . , , . - . 





        [9, 23],   [3, 26] [1,19]. ,    , (RNN) TCN, . , ,      .  , , ,  « » ,  / . ,  ,     -.     - . 





 , , . , ( )   -. ,   . , , - . 





2.  





2.1.   





, . , () 1,5   . 





2.1.1. .   . , , ,    ()  , 127    . : ( , . .) ( , . .).  ,   . - . 





2.1.2.  .   15 , 2016 2017 .     , 45   . , ( ) . 





      6   ( )  , 2017 2018 ,     . , . 2%   . , - - , - , .





2.1.3.  . ,  , . , .   : 





  •    ( / ) 10 ,   ; 





  •  «»     , , , ( GBDT), , , : (s1, s2, . . . , sk ), si > sj , for all i > j,   : 





x - , xˆ-  ( . . 1); 





•    - [5]; 





•  ()  , [18]   :  





  1.     ; 





  2.     1, : 





G - , | G | - , k – -, ( k = 30), y - .  





• ,    . 





Figura 1: Compactación mediante particiones GBDT.
1: GBDT.

2.2.   





   . . ,     ,    - . , , ,     . 





 – . -, , - . -, , 11 .   ( . 2).    ,       (  10 ). 





Figura 2: Secuencia de transacciones seleccionadas.
2: .

     . ,    – , , . , . 





     12 , . . 





2.3.   





, ,  GBDT .  GBDT , . ,  (  TabNet) . 





2.3.1 . (MLP) . MLP /   .   "" , MLP [13]. , , , . 





2.3.2. TabNet. TabNet -   ,  [2].   ,    .  TabNet  : . , .    , ,    , (. 3). , , .





Figura 3: Arquitectura de los pasos de decisión de TabNet.
3: TabNet.

2.3.3.  . , GBDT: . RNNS , . 





 long short-term memory (LSTM) RNN [14],   RNN.   ,   . RNN,  zoneout [17]. , zoneout  RNN. , , zoneout   .  zoneout  , RNN . LSTM  zoneout  .4. 





Figura 4: Una arquitectura LSTM de una sola capa para predecir el riesgo crediticio (es decir, incumplimiento de la deuda de la tarjeta de crédito) basada en datos de transacciones de 12 meses.
4: LSTM (. . ) 12- .

2.3.4   . RNN , , . ,  RNN  [21]. , [4, 7, 11, 15, 20]. , , ,  RNNs. , . , t t (. . 5) [25]. 





, , ,    (TCN) [4]. , TCNS  (), , ,    [27]. TCNS ,    , (. . 6), [12]. TCN  , .  deep TCN . 7. 





Figura 6: Bloque TCN.
6: TCN.

2.4.   





2.4.1. . , /, ,  SigOpt [8]. , - . , 5- MLP, 3- LSTM ( 2 LSTM ) 6- TCN ( 2 TCN 4 ). ( ~0,2). 





2.4.2. . [16] [22]. - ( = 0,9, 0,999), , . - , . 





2.4.3.  . , . , 512 0,8, 1e-4, , . 





2.4.4 . .   ,   .   ( = (2*AUROC) - 1). , , - . - . 





3.  





GBDT 1.    (  15 000 ) , . 





Tabla 1: Efectividad de los modelos individuales y de conjuntos para la población general y la población altamente endeudada (más de $ 15,000)
1: ( 15 . .)

, LSTM TCN,   GBDT. MLP  TabNet  . , , LSTM TCN GBDT, , , . ,   , , , (  ). 





Tabla 2: Rendimiento de modelos seleccionados dividido por fecha predeterminada.
2: , .

3.1.  .  , , . ,    , . 





LSTM TCN GBDT ( ,  , ) 2. ,  GBDT, -, ( 6 ),  , , ( 7-12 ) ( 13-18 ), , . 





3.2.  .  ( ). 8 , , , , , « » ,  . LSTM, TCN 12 , TCN LSTM .    , ,    . , 2016 . 





Figura 8: El rendimiento aumenta a medida que aumenta el número de transacciones mensuales en secuencia.
8: .

3.3. -.  , , LSTM TCN -. , , 2017 . . 9, . , , . , . 





Figura 9: El entrenamiento en línea (es decir, ajustar progresivamente los pesos utilizando los datos de entrada) dio mejores resultados de rendimiento en comparación con la reinicialización de los pesos con pequeños valores aleatorios antes del entrenamiento.
9: - (. . ) .

3.4.  .  TCN LSTM ,   . NVDIA Tesla V100, ~30 , TCN - 512 , ~50   LSTM. , TCN , , LSTM. 





, LSTM , TCN. Bai et al. [4], LSTM / , . , TCN . ,   1 , , ( 10 ). , , , , (TCN) (LSTM). 





4. . 





, , , . . 





, . , TCN . , ,    -. 





, , LSTM TCN. , GBDT    ,  . , - ( ) . 





- , ,    , , . , , . , . 





[1] Peter Martey Addo, Dominique Guegan, and Bertrand Hassani. 2018. Credit

risk analysis using machine and deep learning models. Risks 6, 2 (2018), 38.

https://doi.org/10.3390/risks6020038







[2] Sercan O. Arik and Tomas Pfister. 2019. TabNet: Attentive Interpretable Tabular

Learning. (2019). arXiv:1908.07442







[3] Dmitrii Babaev, Alexander Tuzhilin, Maxim Savchenko, and Dmitrii Umerenkov. E.T.-Rnn: Applying deep learning to credit loan applications. In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2183–2190. https://doi.org/10.1145/3292500.3330693





[4] Shaojie Bai, J. Zico Kolter, and Vladlen Koltun. 2018. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling. (2018). arXiv:1803.01271





[5] George EP Box and David R Cox. 1964. An analysis of transformations. Journal of the Royal Statistical Society: Series B (Methodological) 26, 2 (1964), 211–243.





[6] Tianqi Chen and Carlos Guestrin. 2016. Xgboost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD Unternational Conference on Knowledge Discovery and Data Mining. 785–794.





[7] Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. 2017. Language modeling with gated convolutional networks. In Proceedings of the 34th International Conference on Machine Learning. 933–941.





[8] Ian Dewancker, Michael McCourt, and Scott Clark. 2015. Bayesian Optimization Primer.





[9] Dmitry Efimov, Di Xu, Alexey Nefedov, and Archana Anandakrishnan. 2019. Using Generative Adversarial Networks to Synthesize Artificial Financial Datasets. In 33rd Conference on Neural Information Processing Systems, Workshop on Robust AI in Financial Services.





[10] Jerome H. Friedman. 2001. Greedy function approximation: A gradient boosting machine. Annals of Statistics 29, 5 (2001), 1189–1232. https://doi.org/10.2307/ 2699986





[11] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N Dauphin. Convolutional sequence to sequence learning. In Proceedings of the 34th International Conference on Machine Learning. 1243–1252.





[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Identity mappings in deep residual networks, Vol. 9908 LNCS. Springer Verlag, 630–645. https://doi.org/10.1007/978-3-319-46493-0_38 arXiv:1603.05027





[13] Geoffrey E Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan R Salakhutdinov. 2012. Improving neural networks by preventing coadaptation of feature detectors. arXiv:1207.0580 (2012).





[14] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long Short-Term Memory. Neural Computation 9, 8 (1997), 1735–1780. https://doi.org/10.1162/neco.1997.9. 8.1735





[15] Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. 2016. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099 (2016).





[16] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014).





[17] David Krueger, Tegan Maharaj, János Kramár, Mohammad Pezeshki, Nicolas Ballas, Nan Rosemary Ke, Anirudh Goyal, Yoshua Bengio, Aaron Courville, and Chris Pal. 2017. Zoneout: Regularizing rnns by randomly preserving hidden activations. In Proceedings of the 5th International Conference on Learning Representations. arXiv:1606.01305





[18] Christopher D Manning, Prabhakar Raghavan, and Hinrich Schütze. 2008. Introduction to information retrieval. Cambridge University Press. 234–265 pages.





[19] Loris Nanni and Alessandra Lumini. 2009. An experimental comparison of ensemble of classifiers for bankruptcy prediction and credit scoring. Expert Systems with Applications 36, 2 (2009), 3028–3033. https://doi.org/10.1016/j.eswa. 2008.01.018





[20] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499 (2016).





[21] Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. 2013. On the difficulty of training recurrent neural networks. In Proceedings of the 30th International Conference on Machine Learning. 1310–1318.





[22] Lutz Prechelt. 1998. Early stopping-but when? In Neural Networks: Tricks of the trade. Springer, 55–69.





[23] Abhimanyu Roy, Jingyi Sun, Robert Mahoney, Loreto Alonzi, Stephen Adams, and Peter Beling. 2018. Deep learning detecting fraud in credit card transactions. In Proceedings of the Systems and Information Engineering Design Symposium,129–134. https://doi.org/10.1109/SIEDS.2018.8374722





[24] Lyn C Thomas, David B Edelman, and Jonathan N Crook. 2002. Credit scoring and its applications. SIAM.





[25] Alex Waibel, Toshiyuki Hanazawa, Geoffrey Hinton, Kiyohiro Shikano, and Kevin J Lang. 1989. Phoneme recognition using time-delay neural networks. IEEE transactions on acoustics, speech, and signal processing 37, 3 (1989), 328–339.





[26] Chongren Wang, Dongmei Han, Qigang Liu y Suyuan Luo. 2018. Un enfoque de aprendizaje profundo para la calificación crediticia de préstamos entre pares utilizando el mecanismo de atención LSTM. Acceso a IEEE 7 (2018), 2161-2168.





[27] Fisher Yu y Vladlen Koltun. 2016. Agregación de contexto de múltiples escalas por convoluciones dilatadas. En Actas de la IV Conferencia Internacional sobre Representaciones del Aprendizaje. arXiv: 1511.07122








All Articles