Title: | Use of dirty and incomplete claim data on the inference of product reliability with statistical and neural network models |
Author: | Savi, Rafael Vendramini |
Abstract: |
Este trabalho se preocupa em apresentar e utilizar técnicas para tratamento de dados de reclamações de campo extremamente deficientes, a fim de estimar modelos de confiabilidade das famílias de produtos mais importantes do portfólio elétrico da empresa Bosch Rexroth. Esta é uma questão relevante para empresas que desejam tomar decisões sobre estratégias de mercado e desenvolvimento de produtos com base em seus comportamentos em campo. Todo o processo de limpeza e classificação dos dados até a escolha do modelo de confiabilidade apropriado é guiado por um estudo detalhado do estado da arte. Uma restrição presente neste trabalho é que a quantidade extremamente grande de dados armazenados nos últimos vinte anos deve ser processada automaticamente com a menor iteração humana possível. Isso motivou a pesquisa de resoluções alternativas envolvendo métodos de aprendizado de máquina que normalmente não são adotados no campo de confiabilidade abordado. Técnicas para processamento de texto natural encontradas no ramo da análise de sentimento foram adaptadas para a classificação de reclamações com base em comentários escritos durante os reparos. Para tal, um classificador baseado em um modelo de regressão logística foi treinado e obteve uma precisão de 86,2% ao analisar features extraídas dos textos. Ao comparar com a classificação desconsiderando a análise textual, houveram 10,9% de correções. Visto que os bancos de dados são incompletos devido a falhas que não são relatadas à empresa, métodos de ajuste adequados para dados contendo suspensões são empregados nos estimadores de median rank antes de gerar funções de confiabilidade empíricas. Os mapeamentos destas funções são usados para gerar modelos paramétricos e não-paramétricos. A primeira abordagem os utiliza para encontrar os parâmetros de uma distribuição Weibull que mais os aproxima. Um ajuste fino dos hiperparâmetros da topologia mais adequada de uma rede neural artificial feed-forward é demonstrado antes de ela ser usada para modelar os mesmos dados. Os desempenhos de ambas as abordagens de modelagem são comparados utilizando todos os dados de campo disponíveis pela empresa. Os resultados mostram que, enquanto a regressão da distribuição de Weibull é realizada milhares de vezes mais rapidamente que o treinamento das redes neurais, as últimas alcançaram até 212 vezes menor erro de predição. Abstract: This work is concerned about presenting and making use of techniques to treat very deficient datasets of field claims in order to estimate reliability models of the most important product families of Bosch Rexroth?s electrical portfolio. This a relevant issue to corporates that wish to take decisions regarding product development and market strategies based on the behavior of their products in the field. The entire process from cleansing and classifying the data until the choice of appropriate reliability model is guided by a detailed study of the state-of-the-art techniques. A constraint present in this work is that the extremely large amount of data stored in the past twenty years should be processed automatically with the least possible human iteration. This motivated the research for alternative resolutions involving machine learning methods that are not usually adopted in the field of reliability assessment based on claim data. State-of-the-art techniques for natural text processing found in the branch of sentiment analysis were adapted to the classification of claim events based on text remarks of the repairs realized. For this purpose, a soft classifier based on a logistic regression model was trained and obtained an accuracy of 86.2% when analyzing features extracted from the text fields. When comparing to the classification of the claims disregarding the text analysis, it suggested corrections to 10.9% of the labels. Since the prepared databases are incomplete due to failures that are not reported to the company, adjustment methods that are suitable for data containing suspensions are employed to the median rank estimators before generating empirical reliability functions. These mappings are used to evaluate both parametric and nonparametric models. The first approach fits the two-dimensional data to a Weibull distribution, which is considered one of the most important statistical distributions for modeling life data. A fine tuning of hyperparameters of a feed-forward artificial neural network is demonstrated before being used to fit the same data. The performance of both modeling approaches are compared utilizing all the data available in this work. The results show that, while the regression to the Weibull distribution is realized several thousand times faster than training the artificial neural networks, the latter achieved up to 212 times smaller prediction error. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2019 |
URI: | https://repositorio.ufsc.br/handle/123456789/214656 |
Date: | 2019 |
Files | Size | Format | View |
---|---|---|---|
PEAS0324-D.pdf | 3.212Mb |
View/ |