SciELO - Scientific Electronic Library Online

 
vol.19 número3Simulación numérica del comportamiento no-lineal de materiales utilizando el método sin malla de puntos finitosEvaluación empírica de tres métodos de aprendizaje automático para clasificar automáticamente diagnósticos de neoplasias índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Ingeniare. Revista chilena de ingeniería

versión On-line ISSN 0718-3305

Resumen

COBO, Ángel  y  ROCHA, Rocío. Identificación de documentos multilingües relacionados mediante algoritmos de clustering de hormigas. Ingeniare. Rev. chil. ing. [online]. 2011, vol.19, n.3, pp. 351-358. ISSN 0718-3305.  http://dx.doi.org/10.4067/S0718-33052011000300005.

Este artículo presenta una estrategia de representación documental y un algoritmo bioinspirado para realizar procesos de agrupamiento en colecciones multilingües de documentos en las áreas de la economía y la empresa. El enfoque propuesto permite al usuario identificar grupos de documentos económicos relacionados escritos en español o inglés usando técnicas inspiradas en comportamientos de organización y agrupamiento de objetos observados en algunos tipos de hormigas. Para conseguir una representación vectorial de cada documento independiente del idioma, se han utilizado dos recursos lingüísticos: un glosario económico y un tesauro. Cada documento es representado usando cuatro vectores de rasgos: palabras, nombres propios, términos económicos del glosario y descriptores del tesauro. La identificación de los nombres propios y la extracción y lematización de palabras se realizan usando herramientas específicas. El esquema tf-idf es utilizado para medir la importancia de cada rasgo en el documento, y se utiliza una combinación lineal convexa de separaciones angulares de los vectores de rasgos como medida de similitud de documentos. El trabajo muestra resultados experimentales de aplicación del algoritmo propuesto sobre un corpus español-inglés de documentos científicos de áreas económica y de gestión empresarial. Los resultados demuestran la utilidad y efectividad de las técnicas de ant clustering y del esquema de representación propuesto.

Palabras clave : Clustering; algoritmos basados en hormigas; documentos multilingües; minería de texto; gestión documental.

        · resumen en Inglés     · texto en Inglés     · pdf en Inglés