Tareas específicas de ciencia de datos en el banco

imagen



Durante los últimos cinco años, he trabajado en la oficina de aprendizaje automático (ML) de un gran banco y he visto muchos cuellos de botella que surgen en el desarrollo y la validación de modelos.



En este artículo, primero pretendí considerar los principales sistemas de información de algún Banco X abstracto, ya que es sobre la base de sistemas de información ya establecidos que se construye el trabajo de los analistas de datos, y se capacitan y funcionan algoritmos de ML para la toma de decisiones . Pero cuando comencé a escribir, de repente descubrí que de hecho es mucho más interesante discutir una serie de temas y subtareas que surgen a la hora de construir y validar los modelos más básicos del Banco, es decir, modelos de riesgo crediticio.







La gestión del riesgo y el cálculo del riesgo crediticio pueden considerarse los antepasados ​​de la ciencia de datos en el Banco, ya que la gestión del riesgo crediticio es una prerrogativa primordialmente bancaria. Es una hábil gestión de riesgos que permite a los bancos ofrecer algo de valor al mercado del crédito y las relaciones financieras. La idea de que el banco simplemente se embolsa el margen de interés entre el interés del préstamo y el interés del depósito es fundamentalmente errónea, aunque a veces escucho esto de personas que no están familiarizadas con el funcionamiento interno del negocio bancario.



Por un lado, el banco asume todos los riesgos de impago del préstamo y, por otro lado, da garantías al depositante sobre la devolución de los fondos invertidos. Una alternativa al depósito bancario es prestar su dinero directamente al prestatario sin garantías de devolución. El banco, a su vez, es capaz de dar garantías, ya que por un lado cuenta con un "colchón de seguridad" en forma de capital fijo e inicialmente incluye pérdidas por impago de préstamos en sus indicadores financieros ("formas reservas") . Por otro lado, el Banco sabe calcular la probabilidad de que el prestatario no reembolse el préstamo que le ha sido otorgado. Por supuesto, nadie puede predecir exactamente si un individuo o empresa en particular pagará la deuda, pero en promedio, la probabilidad se puede estimar para un gran número de prestatarios.



El Banco será financieramente estable solo si la ganancia que obtiene sobre el margen de interés cubre las pérdidas por incumplimiento de los préstamos y otros gastos relacionados del Banco.



Práctica bancaria bien establecida





Antes de pasar a discutir los modelos predictivos y las tareas de ciencia de datos directamente, detengámonos por un minuto en los detalles de cómo un banco trabaja con un cliente. Un banco, y especialmente un banco grande, es un sistema bien organizado en el que literalmente se prescribe cada paso. Esto también se aplica a la interacción con los prestatarios.



En particular, en relación con los prestatarios, a menudo se utiliza un concepto como "incumplimiento". El incumplimiento es un estado que se asigna a un cliente cuando existe una confianza casi total de que el cliente no devolverá el dinero al banco, al menos en su totalidad. Las reglas y procedimientos mediante los cuales se asigna a los clientes un estado predeterminado se negocian a nivel de un grupo de trabajo especialmente creado. Y luego las reglas anteriores se prescriben en la documentación regulatoria interna.



Si a un cliente se le asigna un estado predeterminado, generalmente se dice que "el cliente ha incumplido". Desde el punto de vista de los procesos del Banco, esto significa que se pondrán en marcha ciertos procedimientos de interacción con el cliente. Quizás se resuelva el asunto de la quiebra del prestatario, el Banco intentará vender la propiedad pignorada, recaudar fondos de los avalistas o vender la deuda del deudor a cobradores, etc.



Históricamente sucedió que las pérdidas esperadas por falta de reembolso de préstamos se dividen generalmente en tres componentes:



EL = PD * EAD * LGD



donde EL - pérdida esperada, pérdidas esperadas;

PD - probabilidad de incumplimiento, la probabilidad de que al prestatario se le asigne un estado de incumplimiento durante el próximo año, a partir de la fecha de evaluación;

EAD - exposición al incumplimiento, todos los fondos que el cliente debe devolver al Banco en la fecha de "entrar en incumplimiento", incluyendo tanto el monto emitido como los intereses, multas y comisiones;

LGD: pérdida en caso de incumplimiento, la parte de la deuda total del prestatario con el banco, que el banco ya no devolverá a sí mismo. Es decir, es una pérdida neta para el Banco;



Si en algún lugar me alejo de las definiciones y conceptos educativos, me disculpo de antemano, ya que mi objetivo principal no es escribir una versión correcta de los libros de texto, sino captar la esencia de los problemas existentes. Para ello a veces es necesario razonar "con los dedos".



Intentemos ahora formular una tarea típica para un científico de datos. Lo primero que se puede predecir es la probabilidad de incumplimiento de PD. Aquí todo parece sencillo. Tenemos un problema de clasificación binaria. Danos los datos con la etiqueta de clase verdadera y todos los factores y rápidamente armaremos un script con doble validación cruzada y selección de todos los hiperparámetros, elige el modelo con la mejor métrica de Gini y todo estará bien. Pero por alguna razón, en realidad, esto no funciona.



No hay una etiqueta de clase verdadera



De hecho, no conocemos la verdadera etiqueta de clase (objetivo). En teoría, el objetivo es una variable binaria igual a cero si el prestatario está "sano", e igual a uno si al prestatario se le ha asignado el estado "predeterminado". Pero el problema es que las reglas por las que se determina el valor predeterminado las inventamos nosotros. Una vez que se cambian las reglas, el modelo ya no funciona ni siquiera en el entrenamiento de datos históricos.



No conocemos bien a nuestro cliente



Con la acumulación del historial de préstamos emitidos, existe el deseo de construir modelos más complejos, y esto requiere información adicional sobre los clientes. Es entonces cuando resulta que antes no necesitábamos esta información y, en consecuencia, nadie la recopiló. Como resultado, hay muchas lagunas en las muestras recolectadas, lo que niega la idea misma de construir un "modelo informado". Y, si solo eso.



La presencia de un gran número de clientes es tentador para dividirlos en segmentos, dentro de los cuales construir modelos "más estrechos" y al mismo tiempo más precisos. Pero la división en segmentos también se realiza de acuerdo con alguna regla, y esta regla se basa en los mismos datos del cliente. Y, ¿qué tenemos? Y tenemos lagunas en los datos y, en consecuencia, ni siquiera siempre podemos entender a qué segmento se debe atribuir un cliente en particular.



El regulador requiere que los modelos sean interpretables



Por “regulador” me refiero al Banco Central, que requiere que los modelos sean comprensibles. Debe quedar claro no solo el pronóstico en sí, sino también las reglas por las cuales se realizó este pronóstico. Para ser justos, diré que en mayor medida esta regla se aplica sólo a los llamados modelos "regulatorios". Con el fin de garantizar la estabilidad del sistema bancario en su conjunto, el regulador monitorea constantemente las actividades de los bancos de acuerdo con una serie de indicadores clave, entre los que se encuentra, por ejemplo, el cálculo de la adecuación del capital para cubrir pérdidas imprevistas durante posibles situaciones económicas y económicas. crisis financiera.

¿Qué significa el requisito de interpretabilidad? Esto significa que, en la mayoría de los casos, tendrá que contentarse con modelos en forma de regresión logística o árbol de decisión. Tendrá que olvidarse de las redes neuronales, conjuntos, apilamientos y otros arquitectos "modernos".



Lecho de Procusto de práctica bancaria establecida



El estándar industrial de facto requiere que la pérdida esperada se calcule como el producto de tres valores: PD, EAD y LGD. Esto es cierto solo cuando los eventos se desarrollan de acuerdo con el mismo escenario. El cliente devuelve el préstamo o no. En el primer caso, se considera que no existen pérdidas. En el segundo caso, se asume que existe una determinada cantidad en riesgo (EAD).



En la práctica, el comportamiento de pago de los clientes no se limita a dos opciones simples, y el límite entre estas opciones es bastante arbitrario. El prestatario puede incurrir en incumplimiento en un mes, un año o dos, y luego, después de que se le asigne el estado de “incumplimiento”, volver repentinamente a los pagos y reembolsar todo el préstamo. Además, las desviaciones del cronograma de pagos pueden ser tanto en términos de montos como de plazos, antes de lo previsto o viceversa. El resultado financiero para el Banco en todos los casos será diferente.



No estoy diciendo que, en principio, sea imposible reducir toda la variedad de comportamientos de los prestatarios al esquema de cálculo de tres componentes. Por supuesto, todo depende de la tarea. ¿Dónde queremos aplicar este modelo más adelante? Si, para evaluar el riesgo crediticio por agrupaciones (grupos) de prestatarios, todas las posibles desviaciones se tienen en cuenta mediante diversas calibraciones y el cálculo de valores medios ponderados. Pero, si nuestro objetivo es personalizar el enfoque para la emisión de un préstamo, incluida la selección personal de propuestas, es importante pronosticar el flujo de pagos del cliente o pronosticar el valor actual neto.



Donde tropiezan las alternativas avanzadas basadas en datos





Debe entenderse que toda la práctica bancaria de la industria se formó en aquellos años en los que no había Big Data ni aprendizaje automático, y todos los cálculos se redujeron a la creación de tarjetas de puntuación. Se tomaron todos los factores significativos que afectan la solvencia del prestatario y los evaluaron en forma de puntos, luego se sumaron estos puntos y, de acuerdo con la suma de los puntos, se determinó si emitir o no un préstamo.



Con la acumulación del historial de préstamos emitidos y el desarrollo de la tecnología informática, los procedimientos de toma de decisiones en el Banco se fueron complicando gradualmente. Los mapas de Scorch se han convertido en modelos de regresión logística que se construyen con scripts de Python. El Banco comenzó a segmentar sus clientes y productos para construir sus propios modelos de mente estrecha dentro de cada segmento. Por otro lado, con el crecimiento de los volúmenes de almacenamiento de datos, se hizo posible recopilar y almacenar más y más información en conjunto de forma interconectada.



En última instancia, todo avanza hacia la idea de que para cada cliente que venga, la mejor oferta (producto bancario óptimo) se encontrará casi instantáneamente, lo que maximizaría el CLTV (valor de vida del cliente) en un horizonte temporal determinado, u otra métrica, según el estado actual del Banco y los objetivos de sus grupos de interés.



¿Por qué no utilizar una poderosa red neuronal (es decir, la notoria "inteligencia artificial") para resolver el problema anterior? Enumeraré algunas circunstancias que interfieren con esto:

- El banco central requiere que los modelos involucrados en el cálculo de la adecuación del capital se apliquen en un proceso de crédito "vivo". Es decir, son estos modelos los que deben aplicarse en la toma de decisiones sobre concesión de préstamos, ser interpretables y superar una serie de pruebas de validación obligatorias;

- Las bases de datos de clientes se amplían y complementan constantemente. Por ejemplo, los tipos de datos relativamente nuevos son la biometría, la analítica web, la analítica de aplicaciones móviles y la puntuación de las redes sociales. La adición de nuevos atributos ocurre con el tiempo y, en consecuencia, prácticamente no tenemos datos históricos sobre ellos;

- Los productos y procesos del Banco cambian constantemente y se requiere recalcular CLTV para los clientes y calcular el VAN (valor actual neto) para nuevos productos. Y para construir un modelo de calidad aceptable, debe esperar varios años, acumular datos históricos y calcular los valores reales de CLTV o VPN en una muestra de prestatarios reales;



Salir:



Con todas las ganas, la construcción de modelos de pronóstico en el Banco no puede considerarse como un problema puramente matemático. En la práctica, se resuelven problemas empresariales que, entre otras cosas, están fuertemente entrelazados con los requerimientos del regulador en la persona del Banco Central.



A veces, parece que las empresas con una sólida ciencia de datos pueden infiltrarse en el área bancaria y cambiar las reglas del juego. Pero para poder emitir préstamos hay que jugar según las reglas ya existentes, y por tanto se convierte en un Banco con todas las consecuencias consiguientes. El círculo está completo.



La aparición de una nueva y genial empresa de tecnología financiera en el sector de los préstamos parece estar más relacionada con la búsqueda de lagunas en el campo legal que con la innovación en el aprendizaje automático.



All Articles