Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment

Repositório institucional da UFSC

A- A A+

Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment

Mostrar registro completo

Título: Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
Autor: Santos, Cleverson Maxwell
Resumo: Um progresso considerável foi alcançado no desenvolvimento de sistemas avançados de assistência ao motorista (ADAS) nos últimos anos. Esses dispositivos aumentam a segurança do veículo e dos demais usuários do trânsito, oferecendo avisos ao motorista ou mesmo assumindo o controle total do carro, a fim de evitar possíveis acidentes. A frenagem autônoma de emergência (AEB) realiza a frenagem de acordo com as possíveis situações de risco, capturadas do ambiente por sensores. Este trabalho propõe um algoritmo de AEB básico, desenvolvido com técnicas de aprendizado por reforço profundo, onde a máquina aprende qual decisão tomar com base em recompensas ou punições, recebidas após cada ação tomada e seus estados futuros. Neste caso particular, as funções de recompensa foram desenvolvidas com fatores baseados no tempo de colisão e na velocidade desejada, que combinados buscam acumular recompensas, evitando colisões e mantendo a velocidade da estrada. O agente final é uma rede treinada com duas camadas ocultas de 38 nós cada, capazes de agir de maneira semelhante a um controlador AEB. São usadas como entrada, a velocidade atual, a distância dos objetos, e as posições do pedal do acelerador e do freio a fim de calcular as posições ideais para esses pedais e evitar colisões à frente. Para treinar o algoritmo em situações de tráfego e realizar o aprendizado por reforço, algumas abordagens são feitas no simulador de direção IPG CarMaker?. Atualmente, esses métodos simulados são amplamente aplicados no desenvolvimento inicial de dispositivos ADAS antes da migração para ambientes reais de teste. Após treinado, o algoritmo realiza dentro do ambiente simulado o protocolo de testes para AEB da EuroNCAP e seus resultados são comparados com outra solução AEB já validada. Durante os cenários CCRs e CCRm, o código apresentou melhores distâncias relativas finais do que seu concorrente na faixa entre 10 e 50 km/h. Apesar de passar e também não colidir nas velocidades mais altas, o sistema parou completamente em distâncias mais curtas, o que gerou discussões e possíveis caminhos de melhoria para suas próximas versões. Durante o cenário CCRb, entretanto, o sistema provou ser capaz de aplicar desacelerações maiores do que as encontradas no ambiente para garantir que não ocorresse colisão. A função de recompensa demonstrou eficácia uma vez que procuramos o agente e os resultados que ele realizou em cada cenário. Para testar a abordagem em novos cenários, não utilizados durante o treinamento, para avaliar a resposta dinâmica, o sistema teve um desempenho significativamente bom. Em uma análise qualitativa simples, ao não colidir o sistema seria definitivamente aprovado se ele realizasse em testes reais os mesmos resultados obtidos nas simulações. Entretanto, em uma análise quantitativa mais profunda, pode-se ver que ainda há oportunidades para melhorar a função de recompensa e o método de treinamento para velocidades interurbanas.Abstract: Considerable progress has been reached in the development of advanced driver assistance systems (ADAS) in recent years. These devices enhance the vehicle and traffic participants' safety, while offering warnings to the driver or even taking full control of the car in order to avoid possible crashes. The autonomous emergency braking (AEB) performs braking according to potential risk situations, exposed by data captured from the environment by sensors. This study proposes a basic AEB algorithm, developed with deep reinforcement learning techniques, where the machine learns which decision to make based on rewards or punishments, received after each action taken and its future states. In this particular case, the reward functions were developed with factors based on the collision time and the desired velocity, which combined seek to accumulate rewards by avoiding collisions and maintaining the road velocity. The final agent is a network trained with two hidden layers of 38 nodes each, capable of acting similarly to an AEB controller. The current velocity, the distance to objects, and the positions of the gas and brake pedals are used as input in order to calculate the optimal positions for these pedals and avoid collisions ahead. To train the algorithm in traffic situations and perform the reinforcement learning, some approaches are taken in the IPG CarMaker? driving simulator. Currently, these simulated methods are extensively applied in the initial development of ADAS devices before moving to real test environments. Once trained, the algorithm performs within the simulated environment the EuroNCAP test protocol for AEB and its results are compared to another AEB solution already validated. During the scenarios CCRs and CCRm, the code presented better final relative distances than its competitor in the range between 10 and 50 km/h. Despite passing and also not crashing at the higher speeds, the system completely stopped at shorter distances which generated discussions and potential improvement paths for its next versions. During the CCRb scenario, however, the system has proven capable of applying decelerations greater than those found in the environment to ensure no collision. The reward function demonstrated effectiveness once we looked for the agent and to the results it performed in each scenario. To test the approach in new scenarios, not used during training, to evaluate the dynamic response, the system performed significantly well. In a simple qualitative analysis, by not crashing the system would definitely be approved if it performed in real tests the same results obtained in the simulations. However, in a deeper quantitative analysis, it can be seen that there are still opportunities to improve the reward function and the training method for interurban velocities.
Descrição: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2023.
URI: https://repositorio.ufsc.br/handle/123456789/247737
Data: 2023


Arquivos deste item

Arquivos Tamanho Formato Visualização
PPCM0119-D.pdf 2.697Mb PDF Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro completo

Buscar DSpace


Busca avançada

Navegar

Minha conta

Estatística

Compartilhar