Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow

DSpace Repository

A- A A+

Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow

Show full item record

Title: Ranqueamento de respostas em comunidades de pergunta e resposta baseado em atualidade e qualidade: um estudo de caso stack overflow
Author: Amancio, Leandro
Abstract: Em comunidades de pergunta e resposta (CQAs), ranking de atualidade refere-se a colocar respostas recentes e com alta qualidade nas primeiras posições de um ranking. Ser recente não está relacionado com o quão nova é a data de criação ou edição da resposta, mas o quão atual é o conteúdo da resposta. Porém, o ranking também deve levar em consideração a qualidade das respostas, pois de pouco adianta uma resposta que seja atual, mas que não responda apropriadamente a pergunta. Assim como, por outro lado, é pouco interessante uma resposta que possua qualidade, apresentando um texto adequado e com referências, mas que contenha informações obsoletas.A combinação desses dois quesitos (atualidade e qualidade) é extremamente importante, pois os usuários necessitam obter acesso facilitado às melhores respostas para resolver rapidamente seus problemas e, geralmente, esperam por soluções atuais. As CQAs costumam disponibilizar mecanismos de votação para que os próprios usuários possam indicar as respostas de melhor qualidade, porém, esse método não se preocupa com a atualidade das respostas. Além disso, trata-se de um processo lento e subjetivo que não acompanha a taxa de surgimento de novos conteúdos. Logo, faz-se necessário o uso de um mecanismo automático que considere também a atualidade para realizar o ranking. Para realizar esse tipo de ranqueamento é necessário utilizar características textuais e não textuais que indiquem a qualidade e/ou a atualidade das respostas. Essas características podem ser extraídas da própria resposta, dos usuários envolvidos ou do ambiente de CQA como um todo. O presente trabalho indica quais características podem ser utilizadas para esse fim e propõe uma abordagem, focada nesse tipo de ambiente, para fornecer ranking das respostas baseando-se na atualidade e qualidade que elas possuem, sem necessitar da avaliação dos usuários por meio de votação. De forma resumida, essa abordagem combina características textuais e não textuais com algoritmos de learning to rank para predizer a atualidade e a qualidade das respostas. A qualidade é utilizada para classificar as respostas entre boas e ruins, através da aplicação de um ponto de corte, formando dois conjuntos de respostas: de alta qualidade e de baixa qualidade. Em seguida, é feita a ordenação de cada conjunto por ordem de atualidade. Por fim, esses conjuntos são concatenados dando origem ao ranking final, de modo que as melhores respostas e mais atuais fiquem nas primeiras posições. Para comprovar a eficácia da proposta, um estudo de caso na comunidade do Stack Overflow e um conjunto de experimentos, utilizando diferentes combinações de características e diferentes algoritmos de learning to rank, são descritos.Abstract : In Community Question Answering (CQAs), recency ranking refers to put the freshness answers with high quality in top positions of ranking. Freshness is not related to how recent is the answer creation date, but to how up-to-date is the answer content. However, the ranking should also take into account the quality of the answers, since it is unhelpful when an answer is fresh but it does not answer the question properly. On the other hand, it is not interesting when the answer has good quality, presenting adequate text and references, but containing obsolete information. Combining these two issues (freshness and quality) is extremely important because the users need to get best answers quickly to solve their questions and, usually, they expect up-to-date solutions. The CQAs usually provide voting mechanisms that the users themselves can indicate the best quality answers. However, this method is not concerned with the freshness of the answers. Moreover, it is a slow and subjective process that does not keep up the rate of arising new content. Therefore, it is necessary to use an automatic mechanism that also considers the freshness to perform the ranking. In order to carry out this type of classification, it is necessary to use textual and non-textual features to indicate the quality or freshness of the responses. These features can be extracted from the response itself, from the users involved or from the CQA environment as a whole. In this work, we indicate which features can be used for this purpose and we propose a new approach, whose the focus is on CQA environments, to provide a ranking of the answers based on the freshness and quality they have, without needing users evaluation through voting. In short, the approach combines textual and non-textual features with learning to rank algorithms to predict the freshness and quality of responses. Quality is used to classify the answers between good and bad, by applying a cut-off point, forming two sets of answers: high quality and low quality. Then, each set is sorted by freshness. Finally, the sets are concatenated to result the final ranking, so that the best and most freshness answers stay in the first positions in the ranking.To prove the effectiveness of our proposal, a study case with Stack Overflow community and a set of experiments, using different combinations of features and different learning to rank algorithms, are described.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2017.
URI: https://repositorio.ufsc.br/handle/123456789/188848
Date: 2017


Files in this item

Files Size Format View
PGCC1113-D.pdf 2.552Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar