Resumo
Neste trabalho apresentamos um modelo de treinamento para análise de sentimentos em sentenças para o idioma Português brasileiro. Utilizamos uma implementação de Rede Neural Recursiva com Tensor desenvolvida pela Universidade de Stanford que consegue resultados do estado da arte na análise de sentenças para o idioma Inglês. Para o treinamento do modelo, foi criado um Treebank de sentimentos com sentenças em Português braseado em um conjunto de resenhas de livros marcadas quanto à polaridade. O treebank gerado possui 12.512 sentenças em formato Penn Treebank, com marcações de polaridades associadas para cada sentença em três classes - Positiva, Neutra e Negativa. Para a geração do Treebank foram extraídas árvores sintáticas das sentenças do córpus utilizando os parsers sintáticos da Universidade de Stanford e da Universidade de Berkeley treinados com córpus sintáticas em Português brasileiro. O trabalho documenta toda a construção do córpus e o uso do mesmo para o treinamento de um modelo de análise de sentimentos para três classes. O modelo desenvolvido no trabalho foi submetido a análise seguindo a metodologia de 10-Fold Cross-Validation e obteve 51,18% de acurácia levando em consideração somente sentenças positivas e negativas e 69,08% de acurácia sobre a marcaçao completa sobre todas as sentenças.
Repositório do projeto no BitBucket [link].
Informações do Projeto
Orientador: Fabio Natanael Kepler [lattes]
Período de atividades: 01/08/2014 ~ 31/07/2015
Laboratório: LEA - Laboratório de Estudos Avançados
Instituição: Universidade Federal do Pampa - Campus Alegrete
Publicações resultantes:
-
Brum, H. B., Araujo F. S., e Kepler, F. N. “Sentiment Analysis for Brazilian Portuguese over a Skewed Class Corpora.” International Conference on Computational Processing of the Portuguese Language (PROPOR), 2016. Springer International Publishing. Tomar, Portugal. [link]
-
Brum, H. B., e Kepler, F. N. “Análise de sentimentos para português brasileiro usando redes neurais recursivas.” Symposium in Information and Human Language Technology (STIL), 2015. Natal, Brasil. [link]