| dc.contributor |
Universidade Federal de Santa Catarina. |
pt_BR |
| dc.contributor.advisor |
Gonçalves Silva, Alexandre |
|
| dc.contributor.author |
Oliveira, João Victor Nery Buchmeier de |
|
| dc.date.accessioned |
2025-12-11T03:29:25Z |
|
| dc.date.available |
2025-12-11T03:29:25Z |
|
| dc.date.issued |
2025-11-28 |
|
| dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/270869 |
|
| dc.description |
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. |
pt_BR |
| dc.description.abstract |
A área de Processamento de Imagem (PDI), Optical Character Recognition (OCR) e Machine
Learning (ML) têm revolucionado a maneira como se lida com informações visuais, transfor
mando imagens em dados legíveis e processáveis. Essas tecnologias desempenham um papel
fundamental em diversos setores, desde a automação de processos industriais até o aumento
da acessibilidade digital. Nesse sentido, este projeto de TCC propôs o desenvolvimento de um
software para extração automática de legendas embutidas em vídeos, comumente denominadas
burned-in subtitles, que são textos permanentemente inseridos nas imagens, fazendo parte in
tegrante do conteúdo visual. Diferente de legendas convencionais, que podem ser ativadas ou
desativadas pelo usuário e armazenadas separadamente como metadados, as burned-in subti
tles não podem ser removidas ou modificadas. Isso cria desafios significativos, especialmente
no contexto de acessibilidade, tradução e organização de conteúdo audiovisual. Dessa forma,
utilizando-se das tecnologias citadas, o software se torna capaz de identificar e capturar as le
gendas diretamente das imagens de vídeo, convertendo-as em texto legível. O resultado é então
salvo em arquivos no formato .srt, amplamente utilizado para sincronização de legendas em
mídias audiovisuais. Nesse sentido, a extração de legendas possibilita outras aplicações, como
a tradução das próprias legendas e a sumarização de filmes, facilitando o acesso a conteúdos
emdiferentes idiomas e permitindo a análise e síntese do conteúdo textual extraído, respectiva
mente. O trabalho envolveu a pesquisa e a aplicação de técnicas avançadas de PDI, ML e OCR,
combinando métodos de segmentação, detecção de texto e reconhecimento óptico de caracteres
para garantir uma extração precisa das legendas embutidas. Além disso, foi realizada uma aná
lise crítica das ferramentas e algoritmos existentes, explorando abordagens baseadas em Deep
Learning e Processamento de Imagem tradicional, para otimizar o desempenho da solução. Por
f
im, a avaliação da solução proposta foi feita em cima de 20 vídeos em inglês, utilizando das
métricas Character Error Rate (CER) e Word Error Rate (WER), a fim de medir erros a nível
de caracteres e palavras das legendas extraídas, respectivamente. Com isso, obteve-se 2,1% de
erro para CER e 6,7% para WER no modo relaxed de avaliação, enquanto o modo strict obteve
2,7% e 9,8%, mostrando a eficácia da solução desenvolvida. |
pt_BR |
| dc.description.abstract |
The field of study of Image Processing, Optical Character Recognition (OCR) and Machine
Learning (ML) has revolutionized the way visual information is processed, turning images into
readable and processable data. These technologies play a fundamental role in various sectors,
from industrial automation to improving digital accessibility. In this context, this undergraduate
research project proposed the development of a software for automatic extraction of burned-in
subtitles from videos. Burned-in subtitles are permanently embedded texts in images, forming
an integral part of the visual content. Unlike conventional subtitles, which can be activated
or deactivated by the user and stored separately as metadata, burned-in subtitles cannot be re
moved or modified. This poses significant challenges, especially in the context of accessibility,
translation and audiovisual content organization. By combining the mentioned technologies,
the software is capable of identifying and extracting subtitles directly from video frames, con
verting them into readable text. The extracted text is then saved in the .srt format, widely used
for subtitle synchronization in audiovisual media. This process enables additional applications,
such as subtitle translation and film summarization, facilitating access to content in different
languages and allowing textual analysis and synthesis. The research focused on the study and
application of advanced Image Processing, ML, and OCR techniques, combining segmenta
tion, text detection, and optical character recognition methods to ensure accurate extraction of
the subtitles. Additionally, a critical analysis of existing tools and algorithms was conducted,
exploring deep learning-based approaches alongside traditional image processing techniques to
optimize performance. Ultimately, the proposed solution was evaluated on 20 English videos
using the Character Error Rate (CER) and Word Error Rate (WER) metrics, which measure
errors at the character and word levels of the extracted subtitles, respectively. As a result, er
ror rates of 2,1% for CER and 6,7% for WER were obtained in the relaxed evaluation mode,
while the strict mode achieved 2,7% and 9,8%, demonstrating the effectiveness of the developed
solution. |
pt_BR |
| dc.format.extent |
113 f. |
pt_BR |
| dc.language.iso |
por |
pt_BR |
| dc.publisher |
Florianópolis, SC. |
pt_BR |
| dc.rights |
Open Access. |
en |
| dc.subject |
Visão Computacional |
pt_BR |
| dc.subject |
Machine Learning |
pt_BR |
| dc.subject |
Optical Character Recognition |
pt_BR |
| dc.subject |
Processamento de Imagem |
pt_BR |
| dc.title |
Método para extração automática de legendas embutidas em vídeos |
pt_BR |
| dc.type |
TCCgrad |
pt_BR |