Estudo comparativo de ferramentas de orquestração: Dagster e Airflow

DSpace Repository

A- A A+

Estudo comparativo de ferramentas de orquestração: Dagster e Airflow

Show full item record

Title: Estudo comparativo de ferramentas de orquestração: Dagster e Airflow
Author: Gouvêa, Victor Rodrigues
Abstract: A crescente complexidade dos ecossistemas de dados torna as ferramentas de orquestração essenciais para a automação e governança de fluxos de trabalho. No entanto, a escolha entre soluções modernas, como Apache Airflow e Dagster, representa um desafio para profissionais da área, que precisam ponderar entre maturidade, desempenho e paradigmas de desenvolvimento. Este trabalho apresenta um estudo comparativo empírico entre Airflow e Dagster, com o objetivo de avaliar suas características, vantagens e limitações em um cenário de aplicação real. Para isso, foram desenvolvidos e executados pipelines de Extração, Transformação e Carga (ETL) em ambas as ferramentas. O estudo de caso consistiu na coleta, processamento e integração de dados públicos sobre os candidatos das eleições de 2022 (a partir de arquivos CSV) e 2024 (via web scraping de dados JSON) em Santa Catarina, que foram consolidados em um banco de dados relacional unificado. A análise comparativa abrangeu três eixos principais: experiência de desenvolvimento, interface e monitoramento, e desempenho. O Dagster destacou-se pela superior experiência de desenvolvimento, promovendo maior reutilização de código através de seu paradigma orientado a ativos e partições, e oferecendo observabilidade de dados mais rica e uma interface mais intuitiva. Em contrapartida, o Airflow foi mais eficiente, com tempos de execução significativamente menores em cargas de dados massivas, sendo mais de duas vezes mais rápido no cenário mais intensivo. Conclui-se que a escolha entre as ferramentas envolve um trade-off fundamental: o Airflow se sobressai em cenários que demandam máximo desempenho e escalabilidade, enquanto o Dagster é a escolha ideal para projetos onde a produtividade do desenvolvedor, a governança e a linhagem dos dados são prioritárias. Este estudo fornece, portanto, subsídios práticos e quantitativos para auxiliar na tomada de decisão técnica entre essas duas importantes plataformas.The growing complexity of data ecosystems makes orchestration tools essential for the automation and governance of workflows. However, choosing between modern solutions such as Apache Airflow and Dagster poses a challenge for professionals in the field, who must weigh maturity, performance, and development paradigms. This work presents an empirical comparative study between Airflow and Dagster, aiming to evaluate their characteristics, advantages, and limitations in a real-world application scenario. To this end, Extract, Transform, and Load (ETL) processes were developed and executed using both tools. The case study involved the collection, processing, and integration of public data of candidates from the 2022 elections (from CSV files) and 2024 elections (via web scraping of JSON data) in Santa Catarina, consolidated into a unified relational database. The comparative analysis covered three main axes: development experience, interface and monitoring, and performance. Dagster stood out for its superior development experience, promoting greater code reuse through its asset- and partition-oriented paradigm, while offering richer data observability and a more intuitive interface. In contrast, Airflow was more efficient, with significantly shorter execution times for large-scale data loads—over twice as fast in the most intensive scenario. It is concluded that the choice between the two tools involves a fundamental trade-off: Airflow excels in scenarios that demand maximum performance and scalability, while Dagster is the ideal choice for projects where developer productivity, data governance, and lineage are priorities. This study therefore provides practical and quantitative insights to support technical decision-making between these two important platforms.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
URI: https://repositorio.ufsc.br/handle/123456789/270571
Date: 2025-11-18


Files in this item

Files Size Format View Description
TCC_Victor_Rodrigues_Gouvêa_Final-pdfa.pdf 3.105Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar