Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito

Repositório institucional da UFSC

A- A A+

Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito

Mostrar registro completo

Título: Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
Autor: Dória, Fernanda Guimarães
Resumo: O segmento de análise de dados tem apresentado crescimento exponencial nos mercados nacionais e internacionais nos últimos anos, possibilitando uma tomada de decisão baseada em métodos estatísticos e proporcionando uma substancial melhora nos resultados econômicos. Nesse contexto, a avaliação individual no mercado de análise de crédito vem continuamente buscando novas formas de renovação tecnológica, introduzindo diferentes aspectos de caracterização através da utilização de diversos tipos de dados pessoais. O presente trabalho busca, dessa maneira, criar novas variáveis a partir de dados de compra do varejo, de forma a categorizar comportamentos inadimplentes e complementar sistemas de avaliação já disponíveis no mercado. Os dados foram trabalhados visando a quantificação de diferentes parâmetros comportamentais através da criação de features, possibilitando sua aplicação em modelos de classificação e utilizando como variável resposta dados de uma plataforma online de modelagem preditiva. O processo interativo de análise, em que cada teste foi feito utilizando diferentes combinações de variáveis e modelos preditivos, permitiu comparar resultados através de métricas estatísticas ao final de cada ciclo, apontando quais apresentaram melhores rendimentos. Foram utilizadas ferramentas estatísticas e feature importance de diferentes modelos de classificação para a seleção de variáveis (Ridge Classifier e Balanced Random Forest), buscando comparar os modelos Random Forest, Ridge classifier e Regressão Logística quanto ao desempenho com base nas métricas ROC-AUC e MCC. O desenvolvimento dos passos apresentados resultaram em 15 combinações de grupos de variáveis e modelos estatísticos, apontando para regressão logística como modelo mais eficiente na predição de possíveis inadimplentes e a seleção de features baseada em diferentes modelos de previsão para limitação das variáveis utilizadas no algoritmo, resultando em um índice AUC-ROC de 0,647 e MCC de 0,095.The data analysis segment has shown exponential growth in national and international markets in the last years, enabling decision making based on statistical methods and providing a substantial improvement in economic results. In this context, the individual evaluation in the credit analysis market has been continually seeking new ways of technological renewal, introducing different aspects of characterization through the use of different types of personal data. Thus, the present work seeks to create new variables from retail purchase data, in order to categorize default behaviors and complement evaluation systems that are already available in the market. The data were manipulated aiming the quantification of different behavioral parameters through the creation of features, enabling its application in classification models and using as an answer variable data from an online predictive modeling platform. The interactive process of analysis, in which each test was done using different combinations of variables and predictive models, allowed to compare results through statistical metrics at the end of each cycle, indicating which ones presented better yields. Statistical tools and feature importance of different classification models were used for the variable selection (Ridge Classifier and Balanced Random Forest), seeking to compare the Random Forest, Ridge Classifier and Logistic Regression models as its performance based on the ROC-AUC and MCC metrics. The development of the presented steps resulted in 15 combinations of variable groups and statistical models, pointing to logistic regression as the most efficient model for predicting possible defaults and feature selection based on different forecasting models to limit the variables used in the algorithm, resulting in an AUC-ROC index of 0,647 and MCC of 0,095.
Descrição: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia de Produção
URI: https://repositorio.ufsc.br/handle/123456789/202392
Data: 2019-11-13


Arquivos deste item

Arquivos Tamanho Formato Visualização Descrição
fernanda_doria (1).pdf 1.510Mb PDF Visualizar/Abrir TCC

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro completo

Buscar DSpace


Busca avançada

Navegar

Minha conta

Estatística

Compartilhar