SciELO - Scientific Electronic Library Online

 
vol.49 número90Un corpus de bigramas utilizado como corrector ortográfico y gramatical destinado a hablantes nativos de español índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

  • Em processo de indexaçãoCitado por Google
  • Não possue artigos similaresSimilares em SciELO
  • Em processo de indexaçãoSimilares em Google

Compartilhar


Revista signos

versão On-line ISSN 0718-0934

Resumo

ZHILA, Alisa  e  GELBUKH, Alexander. Extracción abierta de información a partir de textos de Internet en español utilizando reglas sobre categorías de palabras en secuencias: Problemas del método, sus causas y posibles mejoras. Rev. signos [online]. 2016, vol.49, n.90, pp.119-142. ISSN 0718-0934.  http://dx.doi.org/10.4067/S0718-09342016000100006.

Usualmente, el dominio de un texto arbitrario en Internet se desconoce, así como la semántica de las relaciones que transmite. Mientras que los humanos identifican fácilmente esta información, para una máquina esta tarea está lejos de ser sencilla. La tarea de detectar las relaciones semánticamente arbitrarias en el texto, se conoce como extracción abierta de información (Open Information Extraction). El método para esta tarea basado en reglas heurísticas sobre secuencias de etiquetas de categorías gramaticales de palabras ha demostrado un alto rendimiento con un bajo costo computacional. A pesar de la amplia popularidad de tal enfoque, es propenso a ciertos errores son específicos de este enfoque. Tales errores no han sido analizados en la literatura. En este trabajo, analizamos y clasificamos los principales tipos de errores en la extracción de información. Estos son específicos para el enfoque basado en reglas heurísticas sobre secuencias de etiquetas de categorías gramaticales de palabras. También identificamos las causas para cada tipo de error y sugerimos posibles soluciones, con un correspondiente análisis de su costo y la magnitud del impacto. Hemos realizado el análisis de extracciones a partir de dos conjuntos de textos en español: FactSpaCIC, un conjunto de oraciones gramaticalmente correctas y verificadas, y RawWeb, un conjunto de fragmentos de texto procedentes de Internet sin corrección alguna. La extracción se llevó a cabo con el sistema ExtrHech.

Palavras-chave : Extracción abierta de información; extracción de relaciones; análisis de errores; español; textos en el Internet.

        · resumo em Inglês     · texto em Inglês     · Inglês ( pdf )

 

Creative Commons License Todo o conteúdo deste periódico, exceto onde está identificado, está licenciado sob uma Licença Creative Commons