Referência: BRAGA, Fabiane dos Reis. Extração semiautomática de taxonomia para
domínios especializados usando técnicas de
mineração de textos. Ciência da informação, Brasília, v. 45, n. 3, p. 175-186, set./dez. 2016
Descritor(es): Gestão do conhecimento; Agrupamento de documentos; Agrupamento por conjunto de itens frequentes
Resumo: Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas
de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do
ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento
(clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a
navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag
of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o
fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre
elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a
combinação de um modelo de representação de documentos por conceitos com um método de agrupamento
hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação
mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura
do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos
científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia
Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para
gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das
atividades de pesquisa da área.
Endereço eletrônico: http://revista.ibict.br/ciinf/article/view/4056/3577 Acessado em: 05 out. 2018
|