Servicios Personalizados
Revista
Articulo
Indicadores
Citado por SciELO
Accesos
Links relacionados
Citado por Google
Similares en SciELO
Similares en Google
Compartir
Revista signos
versión On-line ISSN 0718-0934
Resumen
ZHILA, Alisa y GELBUKH, Alexander. Extracción abierta de información a partir de textos de Internet en español utilizando reglas sobre categorías de palabras en secuencias: Problemas del método, sus causas y posibles mejoras. Rev. signos [online]. 2016, vol.49, n.90, pp.119-142. ISSN 0718-0934. http://dx.doi.org/10.4067/S0718-09342016000100006.
Usualmente, el dominio de un texto arbitrario en Internet se desconoce, así como la semántica de las relaciones que transmite. Mientras que los humanos identifican fácilmente esta información, para una máquina esta tarea está lejos de ser sencilla. La tarea de detectar las relaciones semánticamente arbitrarias en el texto, se conoce como extracción abierta de información (Open Information Extraction). El método para esta tarea basado en reglas heurísticas sobre secuencias de etiquetas de categorías gramaticales de palabras ha demostrado un alto rendimiento con un bajo costo computacional. A pesar de la amplia popularidad de tal enfoque, es propenso a ciertos errores son específicos de este enfoque. Tales errores no han sido analizados en la literatura. En este trabajo, analizamos y clasificamos los principales tipos de errores en la extracción de información. Estos son específicos para el enfoque basado en reglas heurísticas sobre secuencias de etiquetas de categorías gramaticales de palabras. También identificamos las causas para cada tipo de error y sugerimos posibles soluciones, con un correspondiente análisis de su costo y la magnitud del impacto. Hemos realizado el análisis de extracciones a partir de dos conjuntos de textos en español: FactSpaCIC, un conjunto de oraciones gramaticalmente correctas y verificadas, y RawWeb, un conjunto de fragmentos de texto procedentes de Internet sin corrección alguna. La extracción se llevó a cabo con el sistema ExtrHech.
Palabras clave : Extracción abierta de información; extracción de relaciones; análisis de errores; español; textos en el Internet.