SciELO - Scientific Electronic Library Online

 
vol.36 número53En torno a la solución del problema de Orwell en la comunicación gubernamental: Investigación experimental de la estructura de la información en los sitios webCarrasquer, Francisco: Ramón J. Sender, el escritor del siglo XX índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Revista signos

versión On-line ISSN 0718-0934

Rev. signos v.36 n.53 Valparaíso  2003

http://dx.doi.org/10.4067/S0718-09342003005300008 

Revista Signos 2003, 36(53), 121-138

LINGÜISTICA

Análisis Semántico Latente: una panorámica de su desarrollo

Latent Semantic Analysis: an Overview of its Development

 

René Venegas V.*

Pontificia Universidad Católica de Valparaíso

Chile


RESUMEN

El presente artículo centra su atención en el desarrollo de una de las herramientas más actuales de la psicolingüística computacional, el Análisis Semántico Latente (LSA1), considerado en sus inicios como una teoría y un método de representación del conocimiento humano. Este análisis semántico es un modelo estadístico del uso de palabras que permite comparar las similitudes semánticas entre piezas de información textual. Esta comparación se realiza en un espacio semántico multidimensional, generado a partir de un valor singular de descomposición (SVD). Con este análisis es posible determinar las distancias y relaciones entre palabras, palabras y párrafos, y entre párrafos. Esta forma de análisis aborda uno de los temas más importantes para la psicolingüística computacional, la posibilidad de explicar la generación de aprendizaje por medio de inferencias de relaciones a partir de grandes cantidades de textos. La amplia discusión desarrollada durante los últimos 12 años por los científicos de la psicolingüística ha ido afinando, cada vez más, el marco de desarrollo tanto teórico como metodológico de este método de análisis semántico. La panorámica y la discusión crítica que ha despertado este desarrollo es la que aquí se presenta.

Palabras claves: Psicolingüística Computacional, Análisis semántico latente, espacio semántico.


ABSTRACT

This paper focuses on the development of one of the most recent computational psycholinguistics tools, Latent Semantic Analysis (LSA), considered in its beginning like a human knowledge representation theory and method. This semantic analysis is a statistic model that allows to compare the similarities among textual information segments. This comparison is made in a multidimensional semantic space, based on a singular decomposition value (SVD). This analysis enables to determine the distance and relationships between words, between words and paragraphs, and between paragraphs. This type of analysis concentrates on one of the most important issues for computational psycholinguistics, the possibility to explain the learning generation by means of relationship inference in a great quantity of texts. The theoretical and methodological development frame of the semantic analysis method has been tunned by extended discussion that has taken place between psycholinguistic scientists during the last 12 years. In this paper we present an overview and a critical discussion of the most recent advances on this topic.

Keywords: computational psycholinguistics, latent semantic analysis, semantic space.


 

INTRODUCCION

La pregunta de cómo los seres humanos nos representamos el conocimiento o, en definitiva, de cómo aprendemos ha rondado a la psicolingüística desde sus inicios, preguntas que han sido heredadas desde los tiempos de la antigua Grecia, época en que Platón postulaba que la única manera que teníamos para aprender era gracias a que ya traíamos conocimiento desde otra existencia.

Sin embargo, hoy ya se pueden proporcionar algunas respuestas iluminadoras al respecto. Así lo hacen Landauer y Dumais (1997) al postular al Análisis Semántico Latente (LSA) como una nueva teoría general de adquisición y representación del conocimiento. Esta teoría y método permite extraer y representar el uso contextual de las palabras por cálculos estadísticos aplicados a un gran corpus de textos (Landauer y Dumais, 1997), permitiendo generar conocimiento global inducido indirectamente de los datos de co-ocurrencia locales en este corpus de texto. Lo interesante es que el LSA no usa ningún prior lingüístico o conocimiento perceptual; está solamente basado en un método de aprendizaje matemático general que logra efectos inductivos poderosos extrayendo el número correcto de dimensiones (por ej. 300) para representar objetos y contextos. Este tipo de análisis semántico despertó la curiosidad de muchos investigadores que han promovido su desarrollo en forma de investigaciones y aplicaciones computacionales concretas, de tal manera que hoy en día el LSA se ha convertido en parte fundamental de la psicolingüística del siglo XXI.

En este artículo se lleva a cabo una panorámica del desarrollo del LSA desde sus inicios en el año 1990 hasta la fecha. La elección del tema está motivada por el convencimiento de que se trata de un campo de desarrollo del lenguaje muy activo y prometedor, pero lamentablemente, poco conocido en el ámbito de la psicolingüística de nuestro país. Esta contribución aspira a divulgar, en nuestra lengua, el estado actual del análisis semántico latente con el objetivo de incorporar las potencialidades que este conocimiento puede ofrecer a nuestro quehacer científico.

Este artículo está organizado de manera que se presenta en primer lugar el origen y evolución del LSA, a través de las definiciones de diversos autores, luego se da a conocer la teoría subyacente y su funcionamiento, más adelante se exponen las aplicaciones actuales del LSA y, finalmente, las críticas y proyecciones que dan paso a las conclusiones que cierran este trabajo.

LSA: Origen y Evolución

En el presente apartado se dará cuenta del origen y evolución del LSA, tomando en consideración las diferentes definiciones que han aportado los científicos desde los inicios de la década de los noventa hasta nuestro presente más cercano.

Para hablar del origen del LSA es necesario remontarse a un artículo escrito por Deerwester, Dumais, Furnas, Landauer y Harshman (1990) en el cual describen un nuevo acercamiento a la indexación automática y recuperación de información. Intentan superar un problema fundamental que se produce con las técnicas de recuperación que pretenden hacer coincidir palabras de búsqueda con palabras en documentos (como por ejemplo en los buscadores de información en internet). Ellos suponen que:

"[..] there is some underlying latent semantic structure in the data that is partially obscured by the randomness of word choice with respect to retrieval" (Deerwester et al., 1990:392).

La solución que proponen se origina a través de un método de análisis estadístico. Llevan a cabo un análisis de indexación semántica latente (LSI), técnica estadística para estimar la estructura latente. Esta técnica utiliza un valor singular de descomposición que segmenta una gran matriz de datos de asociación de término-documento y permite construir un "espacio semántico" en el que se asocian entre sí términos y documentos. El sustento estadístico en definitiva está determinado por la co-ocurrencia de palabras en la diversidad de documentos.

En base a las investigaciones en LSI (Deerwester et al.,1990; Foltz, 1990), Foltz (1996) define el LSA como un modelo estadístico de uso de palabras que permite comparaciones de similitud semántica entre piezas de información textual.

Más tarde, Landauer y Dumais (1997), utilizando estos conceptos desarrollan lo que hoy se conoce como el LSA, esta vez adaptado al campo de la psicolingüística, más que a la recuperación de información en general.

Los autores postulan al LSA como una nueva teoría general de adquisición y representación del conocimiento. Esta teoría descansa en la noción de que algunos dominios de conocimiento contienen inmensos números de interrelaciones débiles o latentes, que si son aprovechadas se pueden amplificar produciendo aprendizaje a través de procesos de inferencia. El método de inducción propuesto depende de la reconstrucción de un sistema de relaciones de similitud múltiples en un espacio multidimensional. Se supone que la co-ocurrencia de eventos, en particular de palabras, en contextos locales se generan y se reflejan por su similitud en algún lugar de este espacio multidimensional. Utilizando los métodos estadísticos referidos en Deerwester et al. (1990), se concluye que el LSA puede usarse para predecir fenómenos tales como la coherencia textual, comprensión, desambiguación contextual de homógrafos y generación del significado central inferido de un párrafo. Definen al Análisis Semántico Latente como una teoría y un método para extraer y representar el significado contextual en uso de palabras a través de computación estadística aplicada a un gran corpus textual (Landauer y Dumais, 1997).

En una edición especial de la Revista Discourse Processes (vol.25, n 2 y 3, 1998), el interés por esta temática concita a varios autores quienes postulan ventajas y también algunas críticas al LSA. En este contexto, Landauer, Foltz y Laham (1998) basándose en trabajos anteriores (Deerwester, et al.,1990; Foltz, 1996; Landauer y Dumais, 1997) establecen que el LSA:

"es una técnica matemático-estadística totalmente automática para extraer e inferir relaciones de uso contextual esperado de palabras en pasajes de discurso. No es un procesamiento de idioma natural tradicional o programa de inteligencia artificial; no usa ningún diccionario construido humanamente, bases de conocimiento, redes semánticas, gramáticas, segmentadores sintácticos, o morfologías y toma como input sólo la segmentación del texto en palabras, pasajes, frases o párrafos" (Landauer, Foltz y Laham, 1998: 263)2.

En la misma edición monográfica antes mencionada se plantea la controversia en relación a la validez del LSA como teoría. Perfetti (1998) critica el planteamiento teórico del LSA diciendo que algo tan general que es indiferente a una amplia variedad de propiedades estructurales, definitorias para la cognición, es un pobre candidato para ser modelo de procesos de la cognición dentro de un dominio específico. Alude en especial a la no incorporación de la sintaxis en la recuperación semántica. Critica, también, su base en el aprendizaje a partir de datos de co-ocurrencia. Aún así, adhiere a la noción del LSA como una útil herramienta para la investigación en psicolingüística. Por su parte, Landauer (1999) se hace cargo de las críticas de Perfetti (1998) y reafirma la postura del LSA como:

"una teoría de esa parte de la palabra y semántica del párrafo que es independiente de cambios de significado y que no podría ser correcta si las palabras están desordenadas" (Landauer, 1999: 309).

En trabajos más actuales, Kintsch (2001) define al LSA como un procedimiento totalmente automático de técnicas matemáticas estándar que sirve para analizar un gran corpus de texto digitalizado. Kintsch (2001) intenta integrar esta técnica a su teoría de Construcción e Integración como una herramienta que le permita representar la macroestructura como vectores en el espacio semántico (para mayores detalles ver Kintsch,1998, 2001, 2002; Kintsch y Bowles, 2002).

Kintsch (2002) amplía su definición del LSA enfatizando en su capacidad de simular el conocimiento verbal humano (Landauer y Dumais, 1997; Landauer, Foltz y Laham, 1998).

Finalmente, Landauer (2002) establece que el LSA es un modelo de semántica natural del idioma, sin embargo, plantea:

"If any of my presentations of LSA have given cause to believe that LSA is a to be considered a complete theory of language and knowledge, or even lexical semantics, I regret it profoundly. LSA is a theory of (about) those things, but not of everything about them" (Landauer, 2002: 32).

Para cerrar esta sección se puede establecer que el análisis semántico latente se caracteriza por ser una técnica matemático-estadística que permite la creación de vectores multidimensionales para el análisis semántico de las relaciones existentes entre palabras, palabras y párrafos, y entre párrafos. En tanto que su valor como teoría de la representación del conocimiento humano, para algunos sólo explicaría parte del conocimiento del establecimiento de relaciones semánticas.

LSA: La Teoría

Ya mencionamos, someramente, en la sección anterior que el LSA sería una nueva teoría de inducción de conocimiento y representación (Landauer, Foltz y Laham, 1998). El LSA después de procesar una gran muestra de lenguaje entendible por la máquina (digitalizado) representa las palabras usadas en él, de modo que cualquier grupo de estas palabras ­sea una frase, párrafos, o un ensayo­ son tomadas del cuerpo original como puntos en un "espacio semántico" multidimensional.

El análisis realizado por el LSA está basado en un valor singular de descomposición. Este valor es una técnica de descomposición de una matriz matemática muy semejante al análisis factorial, aplicable al corpora de textos que se asimilan al contenido o cantidad de lenguaje pertinente experimentado por las personas.

Como modelo, el LSA es capaz de simular una variedad de fenómenos cognoscitivos humanos. Se extiende desde el desarrollo de la adquisición de vocabulario al reconocimiento de palabra, frase-palabra, priming semántico, comprensión del discurso, y juicios de calidad de un ensayo (Landauer, Foltz y Laham, 1998). Se caracteriza, además, por ser un método práctico para la significación de palabra, sabemos que el LSA produce medidas de palabra-palabra, palabra-párrafo y relaciones de párrafo-párrafo que se correlacionan bien con varios fenómenos cognoscitivos humanos que involucran asociación o similitud semántica.

Landauer, Foltz y Laham (1998) afirman que las correlaciones demuestran un parecido muy estrecho entre lo que el LSA y las personas extraen, de manera que las representaciones de significado reflejan lo que ellos han leído y han oído, así como la manera en que la representación humana de significado se refleja en la elección de palabras de los escritores. Como una consecuencia práctica de esta correspondencia, LSA nos permite aproximarnos a los juicios humanos de similitud del significado entre las palabras y predecir objetivamente las similitudes entre palabras y párrafos.

El LSA depende de un poderoso análisis matemático que es capaz de inferir correctamente relaciones muy profundas (de allí la frase "Semántico Latente"), y en consecuencia es a menudo un muy buen predictor de los juicios de significado hecho por seres humanos.

El LSA extrae sus representaciones de significado de palabras y párrafos, exclusivamente del análisis de texto. Nada de su conocimiento viene desde la información perceptual sobre el mundo físico, del instinto, o de la experiencia generada por funciones corporales, sentimientos y/o intenciones. Así su representación de la realidad es parcial y limitada puesto que no hace uso del orden de palabra, así como tampoco de relaciones sintácticas o lógicas, o de la morfología. Sin embargo, es capaz de extraer significados bastante correctos de párrafos y palabras sin estas ayudas. Sobre este punto Landauer (2002) explica, a través de un logaritmo, que el 80% de la información potencial en el lenguaje está en la elección de palabras sin tener en cuenta el orden en el que ellas aparecen. Se asume entonces que los elementos son aditivos, ya que las aproximaciones que se producen son sorprendentemente buenas.

Un buen ejemplo de lo anterior es considerar lo siguiente (Landauer, 2002):

ecks + wye+ aye = foo
ecks + wye + bie = foo

 

Donde: ecks y wye co-ocurren en el mismo contexto, en tanto aye y bie no lo hacen. En conjunto ambas ecuaciones implican que aye y bie debieran tener el mismo significado, pero no implican nada de la relación entre ecks y wye. Así podemos plantear que el hecho de que las palabras aparezcan juntas en un mismo contexto no determina que tengan un mismo significado.

Ahora si adicionamos dos ecuaciones más:

ecks + wye+ aye = foo
ecks + wye + bie = foo
ecks + wye+ cee = bar
ecks + wye + dee = bar

 

Sabemos que cee y dee son sinónimos. Finalmente consideremos:

aye + cee = oof
bie + dee = rab

 

Siendo consistentes con las ecuaciones anteriores, en las cuales aye=bie y cee=dee, podemos determinar que estos dos pasajes tienen que tener el mismo significado (oof=rab) aun cuando no exista ninguna palabra en común. De esta misma manera es como se computan los datos de los textos para determinar la latencia semántica y sus relaciones en los corpus de textos.

Otra manera de dar cuenta de esto es que el LSA representa el significado de una palabra como un tipo de promedio del significado de todos los pasajes en los que aparece, y el significado de un pasaje como un tipo de promedio del significado de todas las palabras que contiene.

La habilidad del LSA de derivar simultáneamente representaciones de estos dos tipos de interrelaciones de significado depende de un aspecto de su maquinaria matemática que es su segunda propiedad importante. El LSA asume que la elección de la dimensionalidad en el que todas las relaciones del contexto de palabras locales se representan simultáneamente puede ser de gran importancia, y que reduciendo la dimensionalidad (es decir, el número de parámetros por el que una palabra o el pasaje se describe) de los datos observados y del número de contextos iniciales a uno mucho menor, producirán a menudo mucho mejores aproximaciones a las relaciones cognoscitivas humanas. Es este paso de reducción de dimensionalidad, que combinado con la información de superficie en una abstracción más profunda, captura las implicaciones mutuas de palabras y párrafos (Landauer, 2002).

Finalmente, el LSA emplea un paso de preprocesamiento en el que la distribución de una palabra sobre sus contextos de uso, independiente de sus correlaciones con otras palabras, se tiene en cuenta primero; pragmáticamente, este paso mejora los resultados del LSA considerablemente.

Sin embargo, hay otra manera bastante diferente de pensar sobre el LSA. Al respecto (Landauer y Dumais,1997) han propuesto que el LSA constituye una teoría computacional fundamental de la adquisición y representación de conocimiento. Ellos mantienen que la propiedad inductiva de aprendizaje por el que las personas adquieren mucho más conocimiento del que parece estar disponible en la experiencia, es un verdadero misterio. Este es el conocido problema de "la pobreza del estímulo" o "problema de Platón". El mecanismo del LSA que resuelve el problema consiste simplemente en la acomodación de un número muy grande de relaciones de co-ocurrencia locales simultáneamente en un espacio que tenga la misma dimensionalidad. Hipotéticamente, el espacio óptimo para una reconstrucción que tenga la misma dimensionalidad es el espacio semántico del hablante o escritor humano (Landauer, Foltz y Laham, 1998).

Finalmente, se puede sintetizar diciendo que el valor del LSA está en la detección del significado de palabras y párrafos, como lo haría un ser humano; en la capacidad del LSA de aprender inductivamente, por detección de similitudes, a partir de una gran cantidad de contextos textuales. Produciéndose así una probable teoría de cómo funciona la cognición verbal humana.

LSA: Cómo Funciona

Según Kintsch (2002), el análisis empieza con la recolección de palabras en uso, luego se cuentan qué palabras se usan en qué contextos. A partir de aquí se establece una frecuencia de palabra por contexto. LSA extrae el significado de las palabras no tomando en cuenta las palabras usadas ocasionalmente en contextos específicos y se enfoca en lo que es común en todos los contextos. Una técnica algebraica de matriz llamada Valor Singular de Descomposición nos permite dividir la información respecto del uso de palabra en dos componentes: 1) el ser semántico subyacente al uso de la palabra, y 2) la información asociada con contextos específicos. El primero proporciona la representación semántica de LSA, es decir, un espacio multidimensional (típicamente de 300 dimensiones) en que el contenido semántico de las palabras, de oraciones o de textos enteros pueden ser representados como vectores. Tales vectores son simplemente listas de 300 números y sólo pueden ser interpretados por comparación con otros vectores. Es decir, si se requiere saber si el vector que se ha computado para el significado de "madre" es significante o no, se debe comparar con las palabras relacionadas como "padre", "niño", o "mujer" con las cuales puede ser similar; y a palabras no relacionadas con las que no debe ser similar. El ángulo entre dos vectores proporciona un índice de su similitud. El ángulo (de estas 300 dimensiones) es medido por el coseno entre dos vectores, de esta forma, dos vectores que son casi idénticos tendrán un coseno cerca de 1, considerando que dos vectores que son ortogonal (que están en ángulo recto y por ello muy distintos) tendrán un coseno de 0. Así, el coseno se comporta similar al coeficiente de correlación. LSA aprende el significado de palabras determinando en qué contextos estas palabras se profieren, a la manera de los niños que no adquieren el significado de las palabra a través de las definiciones explícitas, sino que observando cómo se usa tal o cual palabra (Kintsch, 2001).

Si bien el LSA empieza con un análisis estadístico de las palabras en uso, termina con algo bastante diferente y mucho más poderoso, con una "verdadera representación semántica, un espacio que captura las relaciones semánticas esenciales" (Kintsch, 2002: 5). Por ejemplo, se requieren a menudo palabras que son de significado similar en contextos diferentes. Así, las formas singulares y plurales de nombres (que son palabras diferentes para el LSA) normalmente no se emplean al mismo tiempo. Si alguien habla sobre "mountain" no usará cercanamente "mountains." En el espacio de LSA, sin embargo, la correlación entre "la montaña" y "las montañas" es bastante alto (0,84 en este caso), porque aunque las dos palabras no aparecen a menudo juntas, las dos pueden ser usadas en contextos similares. De esta manera LSA infiere que las dos tienen un significado similar (Kintsch, 2002).

Los datos en los que se basan los análisis consisten en un cuerpo de entrenamiento de aproximadamente 11 millones de palabras (lo que un niño de la escuela americana típico leería durante los años de escolarización) formando la matriz de co-ocurrencia de más de 92,000 palabra tipos y más de 37,000 documentos.

Para Kintsch (2002), lo que hace del LSA tan útil es que permite comparar palabras arbitrarias con el significado de una frase, establece el cuociente de relación entre ellos, y establece qué otras palabras o frases o documentos están cerca de ellos en el espacio semántico.

Se debe tener en cuenta que el LSA sabe sólo lo que se le ha enseñado. Si se usan palabras que no estuvieran en el corpus de entrenamiento, o palabras que se usan de manera diferente en el cuerpo de entrenamiento, el LSA no los reconoce o al menos no correctamente.

Como dijimos más arriba, la medida que se usa para calcular las relaciones semánticas es el coseno entre dos vectores. El coseno varía de -1 a +1, donde +1 denota identidad entre los significados y 0 denota que no existe relación. Así mientras más cerca de +1 es el coseno entre dos palabras, palabras y párrafo o dos párrafos más estrechamente están relacionados.

Kintsch (2001) establece que existe además otra medida que es a menudo útil, "la longitud de vector" que, como el coseno, se define matemáticamente. Intuitivamente, la longitud de vector nos dice cuánta información tiene el LSA sobre tal o cual vector. Así, la longitud de vectores de la frase es generalmente mayor que la longitud de vectores de la palabra, y la longitud de vectores del párrafo es aún mayor. Las palabras sobre las que el LSA sabe mucho (porque aparecen frecuentemente en el corpus de entrenamiento, en muchos contextos diferentes) tienen longitudes de vector mayores que de aquellas que el LSA no conoce bien. Así, "caballo" tiene una longitud del vector de 2,49, mientras la "cochera" tiene una longitud del vector de 0,59. Palabras funcionales que frecuentemente se usan en muchos contextos diferentes tienen longitudes de vector bajas (por ejemplo: "el" y "de" tienen las longitudes del vector de 0,03 y 0,06, respectivamente, mientras que su coseno es 0,99, el LSA no sabe nada de ellos, excepto que aparecen en todos los contextos).

Utilizando estas medidas matemáticas podemos establecer la relación existente entre los vectores o dimensiones del espacio semántico creado (+/- 300), determinando qué palabras o vectores de la frase están cerca de una palabra dada. Así, nosotros podemos pedirle al LSA que liste las palabras cercanas a un vector suministrado en el espacio semántico. El "vecindario" semántico de una palabra nos otorga valiosa información sobre la palabra. Por ejemplo, en la tabla 1, observamos qué palabras se relacionan con "gato" (los datos deben ser introducidos en inglés) y en qué grado.3

 

Tabla 1. Muestra las correlaciones existentes entre la palabra "gato" y las 20 palabras más cercanas en el espacio semántico correspondiente, en este caso, a General Reading up to 1st year college.
 

 

A menudo tenemos algunas expectativas específicas sobre cómo un vector debe relacionarse con palabras particulares o frases. En tales casos es muy informativo calcular el coseno entre el vector en cuestión y el hito semántico que tenemos en mente. Supóngase que calculamos los vectores para "caballo" y "cochera". Para probar si lo que se ha calculado es sensato o no, podríamos comparar estos vectores a hitos para los que nosotros tenemos claras expectativas. Por ejemplo, la palabra "galope" debe tener un coseno más alto con "caballo" que con "cochera" (los cosenos son de hecho 0,75 y 0,10 respectivamente), pero la palabra "casa" debe tener un coseno más alto con "cochera" que con "caballo" (los cosenos son 0,08 para "caballo" y 0,65 "porche") (Kintsch 2001). Los resultados obtenidos son exhibidos en la tabla 2.

 

Tabla 2. Muestra la similitud existente entre términos ingresados en la matriz.
 
Document
gallop
horse
porsche
house
gallop
1
0.75
0.12
0.04
horse
0.75
1
0.08
0.08
porsche
0.12
0.08
1
-0.02
house
0.04
0.08
-0.02
1

 

Otras posibilidades de cálculo son:

Comparación de la coherencia entre oraciones. Esta interfaz permite comparar la similitud de secuencia de oraciones dentro de un espacio del LSA particular, donde cada oración se compara con la siguiente. El programa segmentará automáticamente los datos entregados, y entregará un puntaje de similitud entre -1 y 1. Así se comparó en la base General Reading up to 1st year college (300 vectores) un texto de Dronkers (1999) sobre las bases neurológicas del lenguaje. (Ver tabla 3)

 

Tabla 3. En la siguiente tabla se muestran las relaciones de coherencia entre las oraciones de un texto (Dronkers, 1999):
 
COS Oraciones
  1: Investigations into the neural basis of language center around how the brain processes language.
0.55

2: To do this, we must understand that language is a most complex function, one that encompasses numerous subprocesses, including the recognition and articulation of speech sounds, the comprehension and production of words and sentences, and the use of language in pragmatically appropriate ways.

0.14 3: Underlying and interacting with these are also the functions of ATTENTION and MEMORY.
0.28 4: All contribute in special ways to our ability to process language, and each may, in fact, be handled differently by the human brain.
0.59 5: Classic neurolinguistic theories, developed over a hundred years ago, have suggested that certain brain areas play specific roles in the process of language.
0.50 6: Since then, modern techniques are offering us new data on what these areas might actually do and how they might contribute to a network of brain areas that collectively participate in language processing.

 

El promedio de la coherencia entre las oraciones es: 0,41

La desviación estándar entre las oraciones es: 0,17

Observamos que en este texto la mayor coherencia entre párrafos está dada por los párrafos 4 y 5, en tanto que la menor por los párrafos 2 y 3. Como texto total la coherencia alcanza a un promedio de 0,41 lo cual determinaría una coherencia global regular.

Comparación de uno a muchos: Esta interfaz permite comparar la similitud entre múltiples textos dentro de un espacio semántico, en este caso es General Reading up to 1st year college (300 vectores), de esta manera un texto dado, como el de Dronkers (1999) es comparado con otra parte del texto mismo. Para calcular las similitudes de un texto con los demás, el programa calculará el puntaje de similitud entre ­1 y 1 entre el texto principal y los otros textos suministrados. (Ver tabla 4)

 

Tabla 4. El dato 0,75 da cuenta de la relación semántica existente entre el texto principal 1 y el texto 2.

Texts
Text 1
Text2
0.75

 

Text 1 Investigations into the neural basis of language center around how the brain processes language.


Text 2 To do this, we must understand that language is a most complex function, one that encompasses numerous subprocesses, including the recognition and articulation of speech sounds, the comprehension and production of words and sentences, and the use of language in pragmatically appropriate ways.


 

El resultado obtenido permite implicar una alta relación semántica entre los párrafos seleccionados.

Resultado de comparación de pares semejantes: Esta interfaz permite comparar la similitud de múltiples textos en un particular espacio semántico. Cada par de textos es comparado con otro. Para calcular la similitud de cualquier número de pares de textos, el primero y el segundo texto será comparado con otro, el tercero y el cuarto con otro y así con los demás. El programa calculará un puntaje de similitud entre ­1 y +1 entre cada par de textos. En este caso sólo usaremos el mismo par de textos utilizados más arriba. (Ver tabla 5).

 

Tabla 5. Si bien se ocupa sólo un par de datos notamos que hay variación entre los cálculos anteriores y éste.

Texts
Text 2
Text 1
0.55

 

Text 1 Investigations into the neural basis of language center around how the brain processes language.


Text 2 To do this, we must understand that language is a most complex function, one that encompasses numerous subprocesses, including the recognition and articulation of speech sounds, the comprehension and production of words and sentences, and the use of language in pragmatically appropriate ways.


 

LSA: Sus Aplicaciones

Las aplicaciones del LSA en Estados Unidos se han dado en ámbitos tan diversos como en educación, en empresas y aún en el aplicaciones para el ministerio de Defensa. En este apartado nos abocaremos a dar a conocer algunas de sus aplicaciones educacionales.

El LSA permite evaluar los escritos de los alumnos, midiendo el grado de coherencia interna de los textos. Esta aplicación ha sido desarrollada por Foltz, Kintsch y Landauer (1998). Ellos estiman que el LSA se puede utilizar como una técnica para medir la coherencia de los textos. Comparando los vectores para 2 segmentos inmediatos de texto en un espacio semántico multidimensional, el método proporciona una caracterización del grado de relación semántica entre los segmentos. Los resultados indican que el método puede predecir el efecto de coherencia del texto en la comprensión, de esta manera, el LSA puede aplicarse como un método que produce predicciones de coherencia, similar al modelamiento proposicional. Ellos describen estudios adicionales que investigan la aplicación del LSA en el análisis de la estructura del discurso y examinan el potencial de LSA como modelo psicológico de efectos de coherencia en la comprensión de textos.

Kintsch (2001, 2002) continúa con la labor de utilizar la potencialidad del LSA en la creación y evaluación de resúmenes y de coherencia para el análisis de Predicados y Macroproposiciones con el fin de que el LSA se convierta en una herramienta adecuada para su teoría de Construcción-Integración. (Ver Kintsch, 1998, 2000, 2001, 2002).

Por otra parte, Rehder, Schreiner, Wolfe, Laham, Landauer y Kintsch (1998) confirman las investigaciones de Wolfe, Schreiner, Rehder, Laham, Foltz, Kintsch y Landauer (1998) en donde establecen que el LSA puede usarse para evaluar el conocimiento del estudiante, es decir, cómo los ensayos pueden ser categorizados por dificultad por el LSA y cómo el LSA puede determinar los textos instruccionales más apropiados para cada estudiantes. Ellos compararon un ensayo escrito por un estudiante con uno o más de los textos instruccionales del corpus en términos del coseno entre la representación del vector del ensayo del estudiante y el texto instruccional en cuestión. Este simple método fue eficaz en determinar de cuál de los textos del corpus el estudiante aprendería más. Establecen, por una parte, que el vocabulario técnico no afecta en la evaluación del conocimiento del estudiante. Por otra, que la longitud del ensayo no es problema en la valoración del conocimiento. En definitiva el LSA sirve como predictor de aprendizaje de los estudiantes a partir de un texto determinado.

En concreto, varias universidades estadounidenses y una escuela elemental de Nuevo México están probando un software experimental diseñado para evaluar a estudiantes que escriben ensayos (Foltz, Landauer y Laham,1998). Ellos desarrollaron el Asesor Inteligente de Ensayo4. La función del programa es evaluar ensayos tan rápido como las pruebas de la selección múltiple, y finalmente reemplazarlas. Los estudiantes envían su ensayo y "online" reciben retroalimentación casi inmediatamente. Usando el software, los estudiantes vieron aumentar sus calificaciones en aproximadamente tres repeticiones.

En las pruebas, el sistema ha demostrado ser tan fiable como los maestros humanos en evaluar el texto del estudiante. Los investigadores establecen que el software concuerda con humanos tan a menudo como estos están de acuerdo entre sí (entre 80 y 90 por ciento del tiempo). El Asesor Inteligente de Ensayo es totalmente automatizado y puede enseñarse a sí mismo sobre un asunto particular, a partir de textos, sin ninguna entrada humana de datos. Los investigadores especulan que el sistema podría, teóricamente, aprender sobre cualquier asunto, aunque hasta ahora su conocimiento se restringe a las áreas de psicología, medicina e historia, entre otras (Foltz, Landauer y Laham,1998).

Otro programa innovador que utiliza LSA en el área de la educación es el AutoTutor, desarrollado a fines de los años noventa por Arthur Graesser y un amplio equipo de investigación multidisciplinar de la Universidad de Memphis. El supuesto principal que está detrás de este desarrollo computacional es que la forma más poderosa para construir conocimiento es a través de un método tutorial cara a cara. De hecho la experiencia dice que el aprendizaje por tutoría humana es en extremo efectivo en comparación al ambiente tradicional de clase (Graesser, Person, Harter y TRG, 2001)5. Así, este equipo desarrolló un tutor computacional que simula los patrones de discurso y estrategias pedagógicas de un tutor humano típico. Las tareas fundamentales que desarrolla este AutoTutor son: hacer preguntas y plantear problemas, comprender las respuestas (escritas) del estudiante, retroalimentar las respuestas por medio de verbalizaciones y gestos, plantear sugerencias sobre información específica, agregar información perdida, corregir errores sobre algún tópico, entre otras.

Para su funcionamiento, este tutor virtual consta de 7 módulos interrelacionados, a saber, un módulo que permite llevar a cabo la extracción de lenguaje, un clasificador de actos de habla, un módulo de LSA, un plan curricular, una interfaz visual (un rostro con movimientos gestuales), un administrador de diálogo y un modulo selector de problemas.6

El uso del LSA en este contexto está en relación, como ya hemos visto, con el análisis de grandes cantidades de textos, que en este caso pueden representar el conocimiento de mundo que tiene el programa y evaluar las respuestas de los estudiantes mediante las similitudes semánticas existentes entre las respuestas. El LSA puede evaluar la calidad de las respuestas de los estudiantes tan bien como lo haría un tutor humano (Graesser et al., 2001). Sin embargo, el LSA no tiene la capacidad de comprender textos a un nivel profundo. Es esencialmente un "comparador" que utiliza un modelo basado en conocimiento estadístico. Hace un trabajo impresionante evaluando las similitudes entre las contribuciones del estudiante y las respuestas esperadas, buenas o malas. Sin embargo, el LSA no está equipado para considerar el orden de palabras, la sintaxis, las expresiones lógicas, la cuantificación, las negaciones, las relaciones retóricas entre las cláusulas, y otros componentes analíticos de comprensión. Para realizar estos procesos analíticos se requiere de arquitecturas simbólicas más tradicionales en inteligencia artificial y se necesita mayor desarrollo en lingüística computational (Graesser et al., 2001). La apuesta de estos investigadores está en la combinación híbrida entre el LSA y sistemas simbólicos tradicionales, aunque como explican, el LSA contribuiría mejor que el sistema simbólico a los desafíos que presenta, por ejemplo, el discurso conversacional (Graesser et al., 2001).

LSA: Críticas y Proyecciones

Entre quienes más han criticado el LSA como teoría está Perfetti (1998), quien niega la posibilidad de que el análisis de co-ocurrencias pueda servir para dar cuenta de las relaciones semánticas que los seres humanos realizan. Plantea que las principales fallas del LSA son la arbitariedad del tamaño del corpus, la no inclusión de la sintaxis en el análisis semántico y las fallas denominadas "de equivocación", como por ejemplo, que para la palabra "physician" aparezca más relacionada la palabra "nurse" que "doctor"; este tipo de errores los adjudica al procesamiento por co-ocurrencia. Sin embargo, y a pesar de lo anterior, considera que el LSA es una útil herramienta de investigación en psicolingüística.

Otros autores como De Vega (2002) critican el LSA diciendo que es una una mala teoría psicológica, ya que no tiene en cuenta la estructura sintáctica, ni la morfología, ni el conocimiento del mundo, ni las características funcionales de la memoria. Además incorpora el problema de la "toma de tierra" o "circularidad simbólica", en la cual los símbolos sólo se refieren a otros símbolos. Por último, destaca algunos errores de asignación de puntaje del LSA debido a que no toma en cuenta el orden de palabras.

Landauer (1999) responde a estas críticas diciendo que en el caso de la co-ocurrencia, el LSA aplica una transformación que factoriza proporciones de ocurrencia independiente para reflejar la frecuencia de información contigua. Es decir, determina el grado en el que una palabra diferencia un contexto de otro y el grado en el que un contexto predice qué palabras ocurrirán más probablemente en ese contexto más que en otro. Argumenta que este método computacional está de acuerdo con el conocimiento moderno, como es descrito por autores como Rescola y Wagner (1972) y Gallistel (1990) (citados por Landauer, 1999).

En cuanto al tema de la sintaxis dice que mucho (pero no todo) del significado del discurso depende del significado de las palabras de las cuales está compuesto. Así como mucho (pero no todo) del significado de las palabras depende de la experiencia con las palabras en el discurso. Landauer (2002) reafirma su posición al establecer que el significado léxico aporta cerca del 80% del significado potencial del texto y que por ello es posible llevar a cabo el análisis semántico sin considerar el orden de palabras.

Finalmente, Landauer (1999), plantea claramente que el LSA no es un modelo completo de procesamiento del discurso y que una completa teoría debería incluir el proceso sicológico de convertir el discurso en significaciones y convertir ideas en discurso.

Landauer (2002) establece que aún permanece un defecto en la representación de palabra en el LSA ilustrado por los pares antónimos. Los antónimos están muy estrechamente relacionados por el significado; pudiendo describirse como palabras que difieren en sólo un rasgo semántico. Normalmente se representan como muy similares, aunque el análisis extenso puede revelar que hay una dimensión local en el espacio semántico del LSA en el que ellos difieren fuertemente. Sin embargo, debido a que los antónimos son tan íntimos en el espacio del LSA, sus efectos aditivos normalmente no diferencian suficientemente los pasajes. Por ejemplo, "un gato negro es mala suerte" y "un gato negro es buena suerte" tiene un coseno de 0,96, lo cual definitivamente no revela el contenido semántico de las oraciones.

A pesar de las críticas no deja de sorprender la capacidad de esta herramienta computacional para dar cuenta de las similitudes entre palabras y la coherencia de párrafos y textos. Así como el buen resultado que han obtenido los productos derivados de estas investigaciones para educación, empresa e instituciones en Estados Unidos.

Por otra parte, es interesante observar el interés creciente de esta herramienta de la psicolingüística computacional, que poco a poco va entregando luces sobre los procesos de adquisición de los significados y de las representaciones del conocimiento humano. Así, trabajos como los de Kintsch (2001) y Kintsch y Bowles (2002), sobre temas fundamentales de la disciplina, como el análisis interpretativo de metáforas, los estudios sobre inferencias causales y la desambiguación homonímica, podrán aportar al entendimiento más acabado del procesamiento humano de significados.

Finalmente, es interesante destacar las proyecciones del LSA en otras lenguas, como el español por ejemplo, y comprobar el uso de las co-ocurrencias como forma de aprendizaje y determinación de espacios semánticos que permitan generar estos análisis de similitud semántica y coherencia en otros contextos lingüísticos.

CONCLUSION

En el desarrollo de este artículo hemos esbozado la evolución y estado actual de una de las herramientas más innovadoras de la psicolingüística computacional, el Análisis Semántico Latente.

En el transcurso de los últimos doce años, el LSA ha sido considerado como una teoría, un modelo y una herramienta. Sin embargo, independiente de las discusiones que se han generado, es posible afirmar que ha revolucionado la ciencia moderna en el área de la psicolingüística, puesto que ha demostrado poder dar respuestas muy plausibles respecto de la adquisición del significado en los seres humanos, así como ha contribuido a solucionar el problema de "la pobreza del estímulo", uno de los dilemas más complejos de la psicolingüística.

En cuanto teoría, parece ser que nos tenemos que conformar con la opinión de Landauer (2002) cuando dice que es una teoría de (o sobre) el lenguaje y el conocimiento, pero no de todo sobre ellos. De esta manera la potencialidad explicativa del LSA parece aún estar reducida a un ámbito muy específico. No obstante, Kintsch (2002) apuesta a atribuirle la capacidad de simular el pensamiento humano.

Como modelo que permita explicar la comprensión y, por lo tanto, la extracción de sentido de los textos parece estar muy bien encaminado, aunque aún los problemas del orden de palabras, la sintaxis, las expresiones lógicas, la cuantificación, las negaciones, las relaciones retóricas entre las cláusulas, el reconocimiento de los antónimos y otros componentes analíticos de la comprensión no están solucionados del todo y, por ello, pierda capacidad explicativa.

Como herramienta el LSA tiene proyecciones muy interesantes, sobre todo en el ámbito de la educación, que es el que hemos focalizado aquí, puesto que es allí donde el lenguaje y sus matices semánticos toman mayor relevancia.

Las aplicaciones computacionales creadas utilizando el LSA nos hacen pensar, por ejemplo, en una educación completamente automática por internet para niños, jóvenes y adultos de zonas remotas o con dificultades de desplazamiento. O para todo tipo de persona que desee aprender a través de softwares sobre temas específicos de su interés. O incluso desarrollo de posgrados a través de estas herramientas computacionales.

Algo de esto es lo que se ha desarrollado con el Asesor Inteligente de Ensayo y el AutoTutor, en idioma inglés. Sin embargo, aún parecen surgir algunas dudas en cuanto a la posibilidad de masificación de estas aplicaciones, debido principalmente a su costo y a las continuas actualizaciones.

Otro aspecto interesante de destacar es pensar en la posibilidad de generar un LSA que permita el análisis de corpus en español7, el desarrollo de una herramienta tal más la utilización de segmentadores sintácticos poderosos permitirían llevar a cabo análisis detallados del uso de la lengua española, con un grado de confiabilidad extremadamente alto. Así, como también permitiría el desarrollo de aplicaciones computacionales educacionales muy poderosas. Más aún, en un nivel teórico permitirían dar respuestas a las múltiples interrogantes de las cuales se ha hecho cargo la psicolingüística, como por ejemplo, ¿Cómo comprendemos español?, ¿Cómo adquirimos esta lengua?, ¿Hay diferencias en el proceso de adquirir y comprender lenguas tan distintas como el inglés y el español?

Si el LSA como teoría, método o herramienta puede dar pistas para solucionar estos problemas, entonces se hace necesario profundizar en su conocimiento y difundirlo en el ámbito de la lingüística nacional de modo que se puedan llevar a cabo investigaciones que permitan descubrir todas sus potencialidades para la lengua española. Este es el desafío al cual hoy nos vemos enfrentados.

 

NOTAS

1 Se mantiene aquí la sigla en inglés (LSA: Latent Semantic Analysis).

2 La traducción de las citas desde el inglés son del autor.

3 Los análisis que se presentan son posibles de realizar en lsa.colorado.edu

4 Para mayores detalles ver http://www.knowledge-technologies.com

5 Tutoring Research Group.

6 Amplia literatura sobre AutoTutor puede encontrarse en http://www.autotutor.org/

7 Tarea que, como lo planteara Arthur Graesser en el Taller "Technological applications of language, discourse, and educational research", realizado en la Pontificia Universidad Católica de Valparaíso entre el 13 y 14 de enero de 2003, no debiera ser muy compleja.

 

REFERENCIAS

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., y Harshman, R. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society For Information Science, 41, 391-407.         [ Links ]

De Vega, M. (2002) "Comprensión del discurso: representación del significado y métodos de investigación", Seminario dictado en Universidad de Concepción, Chile.         [ Links ]

Dronkers, N. (1999) Language, Neural Basis of. En R.A. Wilson & F.C.Keil (Eds), The MIT encyclopedia of the Cognitive Science. 448-451. Cambridge, MA: MIT Press.         [ Links ]

Foltz, P. W. (1990) Using Latent Semantic Indexing for Information Filtering. En R. B. Allen (Ed.) Proceedings of the Conference on Office Information Systems, 40-47. Cambridge, MA,: MIT Press.         [ Links ]

Foltz, P. W. (1996) Latent Semantic Analysis for text-based research. Behavior Research Methods, Instruments and Computers. 28(2), 197-202.         [ Links ]

Foltz, P. (1998) Quantitative Approches to Semantic Knowledge Representations. Discourse Processes, 25(2&3), 127-130.         [ Links ]

Foltz, P., Kintsch, W.y Landauer, Th. (1998) The Measurement of Textual Coherence with Latent Semantic Analysis. Discourse Processes, 25(2&3), 285-307.         [ Links ]

Graesser, A., Person, N., Harter, D., y TRG (2001). Teaching tactics and dialog in AutoTutor. International Journal of Artificial Intelligence in Education.         [ Links ]

Kintsch, W. y Bowles, A. (2002) Metaphor comprehension: What makes a metaphor difficult to understand? Metaphor and symbol. 17, 249-262.         [ Links ]

Kintsch, W. (1998) Comprehension: A paradigm for cognition. New York : Cambridge Univesity Press.         [ Links ]

Kintsch, W. (2000). A computational theory of metaphor comprehension. Psychonomic Bulletin & Review, 7,257­266.         [ Links ]

Kintsch, W. (2001) Predication. Cognitive Science. 25, 173­202.         [ Links ]

Kintsch, W. (2002) On the notions of theme and topic in psychological process models of text comprehension. En Louwerse, M. y van Peer, W. (Eds.) Thematics, Interdisciplinary Studies. 157-170. Amsterdam: Benjamins.         [ Links ]

Landauer, Th., y Dumais, S. (1997) A solution to Platos problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104, 211-240.         [ Links ]

Landauer, Th. (1999) Latent Semantic Analysis: A Theory of the Psychology of language an Mind. Discourse Processes, 27(3), 303-310.         [ Links ]

Landauer,Th.; Foltz,P. y Laham,D. (1998) An Introduction to Latente Semantic Analysis. Discourse Processes.25(2&3), 259-284.         [ Links ]

Landauer, Th. (2002) On the computational basis of learning and cognition: Arguments from LSA. En Ross, N. (Ed.), The psychology of learning and motivation, 41, 1-63.         [ Links ]

Norris,D. (1999) Computacional psycholinguistics. En R.A. Wilson y F.C. Keil, (Eds.) The Mit encyclopedia of the cognitive sciences. 168-170). Cambridge, Ma: MIT Press.         [ Links ]

Perfetti, Ch. (1998) The limits of Co-Occurrence: Tools and Theories in Language Research. Discourse Processes, 25(2&3), 365-377.         [ Links ]

Rehder, B.; Schreiner, M. E.; Wolfe, M. B.; Laham, D.; Landauer, T. K. y Kintsch, W. (1998). Using Latent Semantic Analysis to assess knowledge: Some technical considerations. Discourse Processes, 25, 337-354.         [ Links ]

Wolfe, M. B.; Schreiner, M. E.; Rehder, B.; Laham, D.; Foltz, P. W.; Kintsch, W. y Landauer, T. K. (1998). Learning from text: Matching readers and text by Latent Semantic Analysis. Discourse Processes, 25, 309-336.         [ Links ]

 

 

*Becario del Proyecto Mecesup UCV/0004, Programa de Doctorado en Lingüística, Pontificia Universidad Católica de Valparaíso.