Identificación de probabilidad de default de créditos post impacto COVID-19 en el sector financiero peruano mediante técnicas de Machine Learning
Abstract
Uno de los principales problemas y retos de la banca en el sector financiero es identificar al crédito con mayor probabilidad de incurrir al impago y de esta manera estimar la perdida, es decir la probabilidad default (PD). La información base para la presente investigación es del sector financiero peruano. En el presente estudio se pretende identificar el modelo de aprendizaje automático con mayor rendimiento para identificar la PD de una operación crediticia con afectaciones en comportamiento de pago por el impacto de la COVID-19. La información es obtenida de un repositorio con datos históricos de varios periodos, concentrada por la Super Intendencia de Banca y Seguros del Perú, y la población son 1.2 millones de registros, donde el 80 % será para entrenamiento y el 20 % para pruebas. La investigación es de tipo no experimental con el enfoque cuantitativo y la evaluación estará realizada mediante la curva ROC y la matriz de confusión. Los modelos a evaluar son Regresion Logistica, Random Forest, Support Vector Machines, ANN, Extreme Gradient Boost y Light Gradient Boost y las métricas para evaluación serán precision, accuracy, recall y F1-score. En los resultados obtenidos el modelo con mayor comportamiento para la predicción es el modelo Extreme Gradient Boost, con un accuracy del 91 % y el mismo valor para precision, recall y F1-score. En conclusión, el modelo más asertivo para la predicción de la identificación de la PD de un crédito post impacto COVID-19 es Extreme Gradient Boost seguido de cerca por Random Forest.