|
Abstract:
|
Este Projeto de Fim de Curso tem como objetivo o desenvolvimento de uma biblioteca em Python para realizar extração, transformação e carga (ETL) de metadados
do repositório institucional da Universidade Federal de Santa Catarina (UFSC), utilizando a API baseada no protocolo OAI-PMH, com implementação em uma aplicação
web que possui interface interativa e possibilidade de análise de dados. A motivação
para o projeto está na necessidade de organizar, padronizar e explorar ao máximo
os dados disponíveis publicamente no repositório, facilitando análises e visualizações
que contribuam para a compreensão da produção acadêmica da universidade em todas as suas vertentes. A solução proposta realiza a extração de registros em formato
XML, transforma os dados para o formato .parquet com estrutura tabular e aplica uma
padronização nas colunas, além de inserir metadados extras como campus, centro,
curso, tipo de curso e até gênero dos autores com base no primeiro nome dos mesmos.
Além disso, a aplicação oferece uma interface gráfica amigável que permite ao usuário
final gerar visualizações gráficas a partir dos dados processados. O desenvolvimento
utilizou a linguagem de programação Python e bibliotecas específicas para manipulação de dados e visualizações, como Pandas e Streamlit. O projeto demonstra que
é possível automatizar a coleta e tratamento dos metadados do repositório da UFSC
de forma eficiente e acessível, ampliando o potencial de análise e pesquisa sobre a
produção acadêmica institucional. Os resultados obtidos destacam o impacto positivo
da ferramenta tanto para pesquisadores quanto para a própria universidade, ao facilitar
o acesso e interpretação de informações relevantes sobre os trabalhos acadêmicos
armazenados. |