Desenvolvendo um classificador de clickbait para tweets com word embeddings

DSpace Repository

A- A A+

Desenvolvendo um classificador de clickbait para tweets com word embeddings

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Fileto, Renato
dc.contributor.author Ferreira, Bruno Siqueira
dc.date.accessioned 2019-12-09T22:44:01Z
dc.date.available 2019-12-09T22:44:01Z
dc.date.issued 2019-11-21
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/202672
dc.description TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Sistemas de Informação. pt_BR
dc.description.abstract Clickbaits são uma forma de título de notícia vago, porém intrigante, com objetivo de fazer o leitor clicar na notícia e acessar algum site. Com a propagação recente deste tipo de manchete, uma busca por uma maneira automática de detecta-los vem se tornando cada vez mais relevante. A tarefa compartilhada Clickbait Challenge ajudou a avançar os estudos desta área, com diversos trabalhos competindo para obter os melhores resultados para um conjunto de dados fornecido. Em um desses, foram utilizados word embeddings para realizar a classificação. Este TCC faz um estudo de propostas para classificação de clickbaits e propõe melhorias no trabalho do Clickbait Challenge que usa word embedding, usando Short Semantic Patterns num modelo de machine learining treinado com regressão linear. Nosso modelo atinge um F1 score de 0,793, melhor que o modelo base, e tem um erro médio quadrático de 0,113, melhor que o modelo base sobre a mesmo subconjunto de dados utilizados. Em conclusão, o modelo descrito neste trabalho comprova que características (features) extraídas mediante análise semântica, tais como padrões SSP, contribuem para a melhoria dos resultados do classificador de clickbaits pt_BR
dc.description.abstract Clickbaits are a type of headlines that are empty but intriguing, with the objective of making the reader click on the article and access some website. With the recent propagation of this headlines, a search for some way of identifying them has been becoming more relevant. The shared task of the Clickbait challenge has helped advance the studies on this area, with many works competing to obtain the best results for a data set provided. In one of those, word embeddings are utilized to make the classifier. This thesis studies proposals for clickbait classification and proposes improvements on the Clickbait Challenge work that uses word embeddings, using the text's semantics on a machine learning model trained with linear regression. Our model reached a F1 Score of 0,793, better than the base model, and has a MSE of 0,113, better than the base model over the same subset of data. In conclusion, the model described in this work proves that features extracted from semantic analysis, like SSP patterns, contribute to the improvement of results of clickbait classifiers. pt_BR
dc.format.extent 50 f. pt_BR
dc.language.iso por pt_BR
dc.publisher Florianópolis, SC pt_BR
dc.rights Open Access
dc.subject Detecção de clickbait pt_BR
dc.subject Word embeddings pt_BR
dc.subject Semântica pt_BR
dc.subject Classificadores pt_BR
dc.title Desenvolvendo um classificador de clickbait para tweets com word embeddings pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View Description
TCC_UFSC_Bruno_final_artigo.pdf 715.3Kb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar