Método para extração automática de legendas embutidas em vídeos

DSpace Repository

A- A A+

Método para extração automática de legendas embutidas em vídeos

Show full item record

Title: Método para extração automática de legendas embutidas em vídeos
Author: Oliveira, João Victor Nery Buchmeier de
Abstract: A área de Processamento de Imagem (PDI), Optical Character Recognition (OCR) e Machine Learning (ML) têm revolucionado a maneira como se lida com informações visuais, transfor mando imagens em dados legíveis e processáveis. Essas tecnologias desempenham um papel fundamental em diversos setores, desde a automação de processos industriais até o aumento da acessibilidade digital. Nesse sentido, este projeto de TCC propôs o desenvolvimento de um software para extração automática de legendas embutidas em vídeos, comumente denominadas burned-in subtitles, que são textos permanentemente inseridos nas imagens, fazendo parte in tegrante do conteúdo visual. Diferente de legendas convencionais, que podem ser ativadas ou desativadas pelo usuário e armazenadas separadamente como metadados, as burned-in subti tles não podem ser removidas ou modificadas. Isso cria desafios significativos, especialmente no contexto de acessibilidade, tradução e organização de conteúdo audiovisual. Dessa forma, utilizando-se das tecnologias citadas, o software se torna capaz de identificar e capturar as le gendas diretamente das imagens de vídeo, convertendo-as em texto legível. O resultado é então salvo em arquivos no formato .srt, amplamente utilizado para sincronização de legendas em mídias audiovisuais. Nesse sentido, a extração de legendas possibilita outras aplicações, como a tradução das próprias legendas e a sumarização de filmes, facilitando o acesso a conteúdos emdiferentes idiomas e permitindo a análise e síntese do conteúdo textual extraído, respectiva mente. O trabalho envolveu a pesquisa e a aplicação de técnicas avançadas de PDI, ML e OCR, combinando métodos de segmentação, detecção de texto e reconhecimento óptico de caracteres para garantir uma extração precisa das legendas embutidas. Além disso, foi realizada uma aná lise crítica das ferramentas e algoritmos existentes, explorando abordagens baseadas em Deep Learning e Processamento de Imagem tradicional, para otimizar o desempenho da solução. Por f im, a avaliação da solução proposta foi feita em cima de 20 vídeos em inglês, utilizando das métricas Character Error Rate (CER) e Word Error Rate (WER), a fim de medir erros a nível de caracteres e palavras das legendas extraídas, respectivamente. Com isso, obteve-se 2,1% de erro para CER e 6,7% para WER no modo relaxed de avaliação, enquanto o modo strict obteve 2,7% e 9,8%, mostrando a eficácia da solução desenvolvida.The field of study of Image Processing, Optical Character Recognition (OCR) and Machine Learning (ML) has revolutionized the way visual information is processed, turning images into readable and processable data. These technologies play a fundamental role in various sectors, from industrial automation to improving digital accessibility. In this context, this undergraduate research project proposed the development of a software for automatic extraction of burned-in subtitles from videos. Burned-in subtitles are permanently embedded texts in images, forming an integral part of the visual content. Unlike conventional subtitles, which can be activated or deactivated by the user and stored separately as metadata, burned-in subtitles cannot be re moved or modified. This poses significant challenges, especially in the context of accessibility, translation and audiovisual content organization. By combining the mentioned technologies, the software is capable of identifying and extracting subtitles directly from video frames, con verting them into readable text. The extracted text is then saved in the .srt format, widely used for subtitle synchronization in audiovisual media. This process enables additional applications, such as subtitle translation and film summarization, facilitating access to content in different languages and allowing textual analysis and synthesis. The research focused on the study and application of advanced Image Processing, ML, and OCR techniques, combining segmenta tion, text detection, and optical character recognition methods to ensure accurate extraction of the subtitles. Additionally, a critical analysis of existing tools and algorithms was conducted, exploring deep learning-based approaches alongside traditional image processing techniques to optimize performance. Ultimately, the proposed solution was evaluated on 20 English videos using the Character Error Rate (CER) and Word Error Rate (WER) metrics, which measure errors at the character and word levels of the extracted subtitles, respectively. As a result, er ror rates of 2,1% for CER and 6,7% for WER were obtained in the relaxed evaluation mode, while the strict mode achieved 2,7% and 9,8%, demonstrating the effectiveness of the developed solution.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.
URI: https://repositorio.ufsc.br/handle/123456789/270869
Date: 2025-11-28


Files in this item

Files Size Format View Description
TCC - PDFA.pdf 21.27Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar