Servicios Personalizados
Articulo
Indicadores
Citado por SciELO
Links relacionados
Bookmark
Ingeniare. Revista chilena de ingeniería
versión ISSN 0718-3305
Resumen
COBO, Ángel y ROCHA, Rocío. Identificación de documentos multilingües relacionados mediante algoritmos de clustering de hormigas. Ingeniare. Rev. chil. ing. [online]. 2011, vol.19, n.3, pp. 351-358. ISSN 0718-3305. doi: 10.4067/S0718-33052011000300005.
Este artículo presenta una estrategia de representación documental y un algoritmo bioinspirado para realizar procesos de agrupamiento en colecciones multilingües de documentos en las áreas de la economía y la empresa. El enfoque propuesto permite al usuario identificar grupos de documentos económicos relacionados escritos en español o inglés usando técnicas inspiradas en comportamientos de organización y agrupamiento de objetos observados en algunos tipos de hormigas. Para conseguir una representación vectorial de cada documento independiente del idioma, se han utilizado dos recursos lingüísticos: un glosario económico y un tesauro. Cada documento es representado usando cuatro vectores de rasgos: palabras, nombres propios, términos económicos del glosario y descriptores del tesauro. La identificación de los nombres propios y la extracción y lematización de palabras se realizan usando herramientas específicas. El esquema tf-idf es utilizado para medir la importancia de cada rasgo en el documento, y se utiliza una combinación lineal convexa de separaciones angulares de los vectores de rasgos como medida de similitud de documentos. El trabajo muestra resultados experimentales de aplicación del algoritmo propuesto sobre un corpus español-inglés de documentos científicos de áreas económica y de gestión empresarial. Los resultados demuestran la utilidad y efectividad de las técnicas de ant clustering y del esquema de representación propuesto.
Palabras clave : Clustering; algoritmos basados en hormigas; documentos multilingües; minería de texto; gestión documental.











