[Contexto] Diariamente, milhares de informações trafegam via internet gerando conteúdo e informação gerada por usuários sobre os mais diversos temas. Essas informações geralmente representam opiniões sobre produtos e serviços que, por característica do formato da rede social, incentiva a credibilidade nos argumentos usados por usuários. [Lacuna] Nos últimos anos diversas pesquisas investigaram técnicas para analisar esses dados, porém ainda não existe uma metodologia única para classificação de polaridades no Português. A área de análise de sentimentos lida, entre outras coisas, com a extração dessas opiniões e avaliações de usuários em linguagem natural (Português). [Propósito] Nossa pesquisa busca estudar os métodos usados para a análise de sentimentos no nosso idioma, realizar uma revisão bibliográfica da área em escopo global e investigar técnicas e métodos de estado da arte em comparação com as abordagens aplicadas ao Português. [Método] Buscaremos um modelo, ou combinação de modelos, que nos proporcione valores de Acurácia e F-Measure de estado da arte para o nosso idioma em domínios de reviws de produtos. Os modelos resultantes serão comparados aos modelos atuais de análise de sentimento e experimentos serão realizados buscando avaliar ambos os métodos. [Resultados] Esperamos atingir resultados de estado da arte para o Português, assim como aproximar ou ultrapassar os scores obtidos com as técnicas em outros idiomas.
Lacunas/Problema
Usuários brasileiros expressam opiniões diariamente acerca de produtos e serviços oferecidos por empresas, como programas televisivos, serviços de internet e produtos de bem de consumo. A opinião desses usuários geralmente reflete suas verdadeiras avaliações, pois o próprio ambiente digital provê essa distância do usuário para com a empresa prestadora de serviço. Uma maneira de sabermos se usuários estão gostando, por exemplo, de uma atração televisiva seria lendo milhares de mensagens de 140 caractéres e fazendo uma média de frequência de mensagens positivas e negativas.
Esse trabalho demandaria muito custo humano, que resulta em altas quantias e muito tempo para se obter esses resultados. Um modelo de classificação de textos em português poderia tornar esse processo automático, barateando esses custos e, a longo prazo, nos permitindo análises semânticas com maior profundidade em grandes bases de dados.
Hipóteses
Buscamos técnicas de aprendizado de máquina que nos permitam classificar sentenças em Português Brasileiro sobre um determinado domínio. Essas técnicas seriam muito inspiradas nos avanços recentes de modelos de aprendizado profundo (Deep Learning) que vêm atingindo resultados excelentes de estado-da-arte nos últimos anos.
Objetivos
Desenvolver um método de classificação de polaridades (positiva, neutra ou negativa) para sentenças em Português Brasileiro digitadas por usuários de redes sociais na internet. Analisar os resultados obtidos de acurácia e F-Measure em comparação com trabalhos de estado-da-arte da área.
Justificativas
Grande número de informações estão dispostas na internet em formato de tweets e postagens em redes sociais. Essas informações representam opiniões de usuários em um ambiente natural e que promove a sinceridade na avaliação de produtos e serviços. Nos últimos anos obtivemos bons resultados para outros idiomas usando técnicas de Deep Learning, porém ainda existe pouca aplicação destes métodos para Português Brasileiro.
Método científico
Realizar revisão bibliográfica da área, entender e implementar técnicas de classificação de polaridades em sentenças. Reunir córpus com anotações de sentimentos em conjunto com laboratórios de processamento de linguagem humana (como o Nilc). Realizar treinamentos de modelos e aplicá-los de maneira a medir seus resutlados em acurácia e F-Measure e compará-los com trabalhos anteriores de análise de polaridades para o Português Brasileiro. Analisar esses resultados para identificar a eficiência dos métodos desenvolvidos.
Resultados esperados
Buscamos obter resultados de estado-da-arte para o Português, focando nos resultados obtidos para outros idiomas com os modelos propostos nos trabalhos recuperados com a revisão bibliográfica. Esperamos atingir resultados semelhantes e, preferencialmente, superiores aos encontrados na pesquisa, mesmo para outros idiomas.
Informações do Projeto
Orientadora: Maria das Graças Volpe Nunes [lattes]
Programa de Pós-graduação: Ciências de Computação e Matemática Computacional - CCMC
Período de atividades: 01/02/2016 ~ Atual
Laboratório: Nilc - Núcleo Interistitucional de Linguística Computacional
Instituição: Instituto de Ciências Matemáticas e de Computação - ICMC/USP