Referência: GUIMARÃES, Lucas Marques Sathler; MEIRELES, Magali Rezende Gouvêa; ALMEIDA, Paulo Eduardo Maciel de. Avaliação das etapas de préprocessamento e de treinamento em
algoritmos de classificação de textos
no contexto da recuperação da
informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 24, n. 1, p.169-190, jan./mar 2019
Descritor(es): CLASSIFICAÇÃO; PROCESSAMENTO DA LINGUAGEM NATURAL; RECUPERAÇÃO DA INFORMAÇÃO; REDES NEURAIS ARTIFICIAIS; TREINAMENTO
Resumo: A quantidade de dados não estruturados cresce com a
popularização da Internet. Textos em linguagem natural
representam um conjunto relevante e significativo para
análise e produção de conhecimento. Este trabalho
propõe uma análise quantitativa das etapas de préprocessamento e de treinamento de um classificador de
textos, que utiliza os sentimentos expressos pelos
usuários como atributo. Para realização dos
experimentos, foram utilizadas Redes Neurais Artificiais,
como algoritmo classificador, e textos provenientes dos
sites Amazon, IMDB e Yelp. A base textual permite análise
da expressão de sentimentos positivos e negativos dos
usuários em avaliações de produtos e serviços em textos
não estruturados. Foram realizados dois processos
distintos de pré-processamento e diferentes treinamentos
das Redes Neurais Artificiais para classificação do conjunto textual. Os resultados confirmam,
quantitativamente, a importância das etapas de préprocessamento e de treinamento do classificador,
evidenciando a importância do vocabulário selecionado
para a representação do texto e para a classificação. As
técnicas de classificação disponíveis alcançam resultados
satisfatórios. No entanto, mesmo utilizando-se dois
processos distintos de pré-processamento e identificandose o melhor processo de treinamento, não foi possível
eliminar, totalmente, as dificuldades de aprendizado e
compreensão do modelo para as classificações de
sentimentos que envolviam características subjetivas da
expressão do sentimento humano.
Endereço eletrônico: . Acessado em: . Acesso em: 14, out 2019
|