Classificação automática de mensagens de redes sociais em dimensões dos modelos de cidades inteligentes

DSpace Repository

A- A A+

Classificação automática de mensagens de redes sociais em dimensões dos modelos de cidades inteligentes

Show full item record

Title: Classificação automática de mensagens de redes sociais em dimensões dos modelos de cidades inteligentes
Author: Bencke, Luciana Regina
Abstract: Uma cidade inteligente pode ser definida como uma cidade de alta tecnologia com vários recursos para resolver ou mitigar problemas normalmente gerados pela rápida urbanização. Diferentes modelos de indicadores foram desenvolvidos para acompanhar a evolução das cidades na busca por tornarem-se Cidades Inteligentes. Um exemplo é o padrão 37120 da Organização Internacional para Padronização (ISO), que propõe um conjunto de dimensões e indicadores para serviços e qualidade de vida para cidades e comunidades sustentáveis. Tem sido comum encontrar nas redes sociais perfis oficiais de organizações e entidades governamentais relacionadas aos serviços que elas fornecem ou pelos quais são responsáveis (água, resíduos, transporte, eventos culturais, etc.). Os cidadãos interagem com estes perfis diretamente para comunicar problemas sobre os serviços da cidade. O presente trabalho objetiva aplicar algoritmos de aprendizado de máquina sobre os dados urbanos gerados pelas redes sociais, a fim de criar classificadores para categorizar automaticamente as mensagens dos cidadãos de acordo com as diferentes dimensões dos serviços das cidades. Para tanto, dois conjuntos distintos de textos em português foram coletados de duas redes sociais: Twitter (1.950 tweets) e Colab (65.066 postagens). Os textos foram mapeados de acordo com as diferentes categorias ISO 37120, pré-processados e minerados por meio de 11 algoritmos implementados na Scikit-Learn. Os primeiros resultados indicaram a viabilidade da proposta, com os modelos alcançando médias em torno de 59\% para a F1-macro e 75\% para a F1-micro ao usar Linear Support Vector Classification (LSVC) e Complement Naive Bayes (CNB). No entanto, como os conjuntos de dados estavam altamente desbalanceados, os desempenhos dos modelos variam significativamente para cada categoria ISO, com os melhores resultados de F1-score ocorrendo para Transporte (87%), Energia (83%) e Águas Residuais (74%). Os classificadores gerados neste trabalho podem ser integrados à diversos serviços e sistemas da cidade, tais como: sistemas de suporte à decisão governamental, sistemas de reclamações para cidadãos, painéis comunitários, centrais de polícia, empresas de transporte, produtores culturais, agências ambientais e empresas de reciclagem.Abstract: A Smart City can be defined as a high-tech city with several capabilities to strategically solve (or mitigate) problems normally generated by rapid urbanization. Different models of indicators have been developed to follow cities' development to become a Smart City. An example of such model is the standard 37120 from the International Organization for Standardization (ISO) that proposes a set of dimensions and indicators for services and quality of life for sustainable cities and communities. It has been common to find official social network profiles of organizations and governmental entities related to the services they provide or are responsible for (water, waste, transportation, cultural events, etc.) and that are used by citizens as a gateway to directly interact and communicate their complains and problems about those services. The present work proposes to apply machine learning algorithms over the urban data generated by social networks in order to create classifiers to automatically categorize citizens messages according to the different cities? services dimensions. For that, two distinct text datasets in Portuguese were collected from two social networks: Twitter (1,950 tweets) and Colab (65,066 posts). The texts were mapped according to the different ISO 37120 categories, preprocessed and mined through the use of 11 algorithms implemented in Scikit-Learn. Initial results pointed out the feasibility of the proposal with models achieving average F1-measures around 59\% for F1-macro and 75\% for F1-micro when using Linear Support Vector Classification (LSVC) and Complement Naïve Bayes (CNB). However, as the datasets were highly unbalanced, the performances of the models vary significantly for each ISO category, with the best results occurring for Transportation (87%), Energy (83%) and Wastewater (74%). The classifiers generated here can be integrated on a number of different city services and systems such as: governmental support decision systems, citizens complain systems, communities? dashboards, police offices, transportation?s companies, cultural producers, environmental agencies, and recyclers' companies.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Araranguá, Programa de Pós-Graduação em Tecnologias da Informação e Comunicação, Araranguá, 2019
URI: https://repositorio.ufsc.br/handle/123456789/215591
Date: 2019


Files in this item

Files Size Format View
PTIC0064-D.pdf 4.008Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar