SciELO - Scientific Electronic Library Online

 
vol.38 número59La relación interpersonal con la audiencia: El caso del discurso del presidente venezolano Hugo ChávezSobre los efectos de combinar Análisis Semántico Latente con otras técnicas de procesamiento de lenguaje natural para la evaluación de preguntas abiertas índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir


Revista signos

versión On-line ISSN 0718-0934

Rev. signos v.38 n.59 Valparaíso  2005

http://dx.doi.org/10.4067/S0718-09342005000300003 

 

Revista Signos 2005, 38(59), 303-323

ARTÍCULOS

Análisis Semántico Latente:
¿Teoría psicológica del significado?

Latent Semantic Analysis:
A psychological theory of the meaning?




Rosa María Gutiérrez*

Pontificia Universidad Católica de Valparaíso

Chile

Dirección para correspondencia


RESUMEN: LSA, Análisis Semántico Latente, es un tipo de análisis computacional que, basado en un algoritmo matemático, permite determinar y cuantificar la similitud de significado entre piezas textuales pertenecientes a un mismo dominio de conocimiento. Debido a esta funcionalidad se le ha llegado a estatuir como una teoría sicológica del significado (Kintsch, 2002), capaz de emular y explicar cómo los seres humanos aprendemos, determinamos y usamos el significado de las palabras (Landauer & Dumais, 1997) y el conocimiento en general (Landauer, Foltz y Laham, 1998). Tomar posición al respecto, más allá de involucrarse en la discusión ya clásica acerca de si un mecanismo no dotado de conciencia puede dar respuesta a una cuestión tan compleja (Perfetti, 1998), supone conocer y comprender cuál es el sistema operativo del LSA, razón por la cual, en este artículo se presenta una breve descripción de este sistema a partir de sus fundamentos matemáticos, de la relación entre estos y los supuestos semánticos subyacentes, y de dos de las aplicaciones que se han desarrollado sobre su base operativa para el estudio de los procesos cognitivos. Se trata fundamentalmente de una revisión y discusión bibliográfica que tiene por objetivo agrupar información que se encuentra dispersa en otros trabajos sobre el tema, difundirla en nuestro idioma, comentar y cuestionar, desde una perspectiva lingüística, la naturaleza semántica atribuida a este análisis.

Palabras Clave: Análisis semántico latente, teoría psicológica del significado, similitud latente.


ABSTRACT: LSA, Latent Semantic Analysis, is a type of computational analysis based on a mathematical algorithm that helps to determine and quantify the similarity of meaning among pieces of texts whose field of knowledge is the same. Due to its functionality, LSA has been considered a psychological theory of meaning (Kintsch, 2002), able to emulate and explain how human beings learn, determine and use the meaning of words (Landauer & Dumais, 1997) and knowledge in general (Landauer, Foltz & Laham, 1998). Arguing in favor or against LSA, beyond the classical debate over whether a mechanism not endowed with conscience can indeed respond to such complex issues (Perfetti, 1998), means getting to know and understanding what the LSA working system is. This is the main reason to present a brief description of the LSA system, starting from its mathematical basis, the relationship between its basis and its underlying semantic assumptions, and two applications developed for the study of cognitive processes. Essentially, the article covers a revision and bibliographical discussion aimed at compiling information found in other sources to disseminate it in Spanish with the purpose of questioning and discussing the semantic nature ascribed to this analysis from a linguistic perspective.

Key Words: Latent Semantic Analysis, psychological theory of meaning, latent similarity.





INTRODUCCIÓN

El LSA (del inglés Latent Semantic Analysis) es un tipo de análisis computacional que permite determinar y cuantificar la similitud semántica entre piezas textuales -sean palabras, documentos o palabras y documentos- de un corpus de textos pertenecientes a un mismo dominio de conocimiento. Para ello, el sistema computacional del LSA sigue un algoritmo matemático que tiene como centro a la técnica de factorización lineal conocida como descomposición de valores singulares (SVD, sigla del inglés Singular Value Decomposition), a partir de la cual se genera una representación vectorial del corpus o espacio semántico en cuya conformación y posterior utilización reconocemos dos supuestos lingüísticos acerca del significado: (1) el significado es contextualmente dependiente y (2) en el uso contextual hay relaciones de similitud semántica que están latentes.

Desde una perspectiva bastante optimista, los investigadores que trabajan con el LSA sostienen que este sistema computacional puede emular y explicar cómo los seres humanos aprendemos, organizamos y, posteriormente, utilizamos el significado de las palabras (Landauer & Dumais, 1997; Kintsch, 2002) y el conocimiento en general, presentándolo, en consecuencia, como una teoría psicológica del significado (Kintsch, 2002) y de la representación del conocimiento en la mente humana (Landauer & Dumais, 1997; Landauer, Foltz & Laham, 1998).

En este artículo se ofrece una reflexión crítica que cuestiona el potencial que este sistema tiene para estatuirse como tal teoría. La reflexión se basa en una breve y necesaria descripción de: (1) los fundamentos matemáticos del LSA, siguiendo para ello la división propuesta por Dennis, Landauer, Kintsch y Quesada (2003); (2) la relación entre estos y los supuestos semánticos subyacentes, explorando, de esta manera, el algoritmo matemático desde una perspectiva lingüística; y (3) dos de las aplicaciones que se le han dado en el estudio de procesos cognitivos (Quesada, Kintsch & Gómez, 2001, 2002; Quesada, 2003a; Wolfe & Goldman, 2003).

Adicionalmente, se trata de un trabajo que, por un lado, recoge información actualizada y necesaria para la comprensión de este análisis y, por otro, suple la carencia de divulgación de esta en nuestro idioma. En este último sentido, lo que acá presentamos puede ser visualizado como una complementación al trabajo de Venegas (2003), única publicación previa en revista científica del área lingüística que se encuentra en español.

1. Fundamentos matemáticos: El algoritmo del LSA

El LSA tiene su origen en la LSI (del inglés Latent Semantic Indexing), método automático de recuperación de información (e.g. los buscadores de Internet) que incorpora la descomposición de valores singulares (SVD) con el propósito de superar las dificultades semánticas, generadas por la sinonimia y la polisemia, en la correlación de las palabras que las personas emplean para las búsquedas y los documentos (contextos verbales) contenidos en las bases de datos (Deerwester, Dumais, Furnas, Landauer & Harshman, 1990). El LSA se desarrolla siguiendo el mismo algoritmo matemático que utiliza la LSI, siendo la única diferencia el hecho de que el LSA es exclusivamente usado para determinar la similitud semántica entre los elementos analizados a partir de la co-ocurrencia con que son empleados en determinados contextos verbales.

La idea básica del algoritmo del LSA es que un fragmento textual (contexto o documento) puede ser representado como una ecuación lineal, cuyo significado correspondería a la suma de los significados de las palabras que lo conforman (Quesada, 2003b; Dennis et al., 2003) y el significado de las palabras, esto es, a la frecuencia con que ellas co-ocurren en ese fragmento (Dennis et al., 2003). La ecuación lineal se resuelve a través de la SVD (Quesada, 2003b; Dennis et al., 2003), técnica de factorización que genera como resultado un espacio multidimensional compuesto de la representación matemático-vectorial de palabras y contextos verbales pertenecientes al corpus de textos con que el sistema del LSA ha sido entrenado.

1.1. Corpus de entrenamiento

El corpus textual de entrenamiento que requiere el LSA debe ser amplio en cuanto al número de textos que lo conforman, pero restringido en cuanto al dominio de conocimiento desde el cual los textos provienen (Landauer & Dumais, 1997; Landauer et al., 1998). Se trata de un corpus conformado por textos en lenguaje natural (Landauer & Dumais, 1997; Landauer et al., 1998; Kintsch, 2001), es decir, textos escritos por personas frente a propósitos comunicativos reales (Jackson & Moulinier, 2003).

De la variada información lingüística que el corpus provee, el LSA solo considera la colocación de las palabras traducidas a la frecuencia con que co-ocurren en determinados documentos, elaborando con ella una representación matemática que no incluye ningún tipo de diccionario ni de gramática, así como tampoco ningún tipo de marcador morfosintáctico.

1.2. La representación matricial del corpus

La representación matemática de la información lingüística del corpus es el primer estadio del algoritmo usado por el LSA (Denis et al., 2003). Básicamente, consiste en la disposición del dato de frecuencia, ocurrencia de las palabras en los contextos verbales o documentos, en una matriz de palabras por documentos (Dumais, 1994; Kintsch, 2001), es decir, en una matriz cuya columna inicial corresponde a un listado de palabras y cuyas filas, a un listado de documentos (ver Figura 1) (Landauer et al., 1998; Kintsch, 2001). En la intersección entre un elemento de la columna y uno de la fila está registrado el componente de la matriz que en este caso corresponde al dato de frecuencia de la ocurrencia de la palabra en el documento, tal como lo muestra la Figura 1.



Figura 1. Ejemplo de matriz generada por LSA.

Esta matriz representa con detalle la frecuencia de cada palabra en cada contexto del corpus, por tanto las dimensiones (obtenidas al multiplicar número de filas por número de columnas) con que se describe matemáticamente al corpus son tantas como palabras y contextos existan en ese corpus.

1.3. Función de peso

Una vez elaborada la representación matricial, el sistema del LSA asigna una función de peso al dato de frecuencia (Berry, Dumais & O'Brien, 1994; Quesada, 2003b), reemplazando frecuencia por peso, con el objetivo de ponderar los datos de la matriz (Berry et al., 1994; Landauer et al., 1998). La función de peso tiene dos componentes: peso global y peso local (Berry et al., 1994; Kintsch, 2001; Guerrero, López, Faba, Reyes, Zapico & Moya, 2003). El peso global asigna importancia a la frecuencia con que una palabra aparece, tomando como contexto al corpus en su totalidad; en tanto que el peso local lo hace tomando a un pasaje particular de dicho corpus (Berry et al., 1994). Luego de esto, las palabras marcadas con una baja frecuencia de ocurrencia quedan representadas con un peso alto, mientras que las de mayor frecuencia, lo hacen con un peso menor. La representación matricial, dispuesta en función del peso, proporciona, y así debe ser entendida, un patrón o modelo de uso de las palabras en un determinado contexto verbal.

Dado que, como decíamos, el LSA se desarrolla sobre un corpus amplio, podemos imaginar que este modelo matricial de uso incluye una gran cantidad de dimensiones, las que dificultan la eficiencia del cómputo. La SVD, siguiente paso del algoritmo, opera la reducción de dimensiones tal como se detalla en el siguiente apartado.

1.4. Descomposición de valores singulares (SVD)

La SVD permite, a través de una serie de operaciones lineales elementales (i.e. todas las que involucran suma y/o multiplicación de filas y/o columnas) (Antón, 1981; Steyvers & Tenenbaum, 2001; Cárdenas, 2003; Manning & Schütze, 2003), descomponer la información contenida en la matriz de palabras por documentos y representar, en otras tres matrices, aspectos singulares o característicos de aquella información (Quesada et al., 2002; Manning & Schütze, 2003; Steyvers & Tenenbaum, 2001). El principio de descomposición involucra la reducción del elevado número de dimensiones con que el corpus es descrito en la primera matriz, las que impiden distinguir los valores singulares. La reducción, en tanto, consiste en desechar la información incidental (i.e. palabras con baja asignación de peso) considerada ruido lingüístico, proporcionando así un modelo de distribución normalizado de las frecuencias o modelo sin ruido (Kintsch, 2001), el que redunda en una representación matemática, conocida como espacio semántico, más compacta y, por tanto, más simple de computar (Lerman, 1999; Manning & Schütze, 2003).

Las matrices resultantes de la operación factorial son:

a) Matriz ortogonal (U en la Figura 2): obtenida al procesar linealmente el número de columnas (ortogonal) de la matriz original (A en el ejemplo de la Figura 1) (Paige & Swift, 1967; Bak & Lichtenberg, 1969; Berry et. al, 1994). En esta matriz se representan palabras como vectores en espacios de palabras (Manning & Schütze, 2003).



Figura 2. Representación de matriz ortogonal.

b) Matriz transpuesta (V en la Figura 3): obtenida al permutar las filas por las columnas (Bak & Lichtenberg, 1969), proporcionando una disposición ortogonal de los elementos de la fila (Antón, 1981; Berry et. al, 1994; Kintsch, 2001; Quesada et al., 2001; Cárdenas, 2003; Manning & Schütze, 2003). A través de esta transposición se presentan documentos como vectores en espacios de palabras.



Figura 3. Representación de matriz transpuesta.

c) Matriz diagonal (E en la Figura 4): obtenida al procesar linealmente el número de filas, el número de columnas y la cantidad de dimensiones de la matriz original (A). La matriz diagonal representa el valor singular de (A) (Deerwester et al., 1990) y en ella todos los elementos que no pertenecen a la diagonal son nulos o iguales a cero (Paige & Swift, 1967; Bak & Lichtenberg, 1969; Antón, 1981; Berry et al, 1994; Quesada et al., 2001; Cárdenas, 2003; Maldonado, 2002).



Figura 4. Representación de matriz diagonal.

Las tres nuevas matrices (U), (V) y (E) dan origen a los vectores singulares de la representación matricial del corpus (A), a saber, vector de palabras, de documentos y de valor singular, respectivamente (Deerwester et al., 1990; Kolda & O'Leary, 1998; Guerrero et al., 2003). La Figura 5, que se presenta a continuación, grafica la factorización con SVD.



Figura 5. Representación de SVD (adaptado de Berry, Dumais & O'Brien, 1994).

Si las tres nuevas matrices fueran multiplicadas, el producto resultante sería semejante, pero nunca idéntico a la matriz original (Paige & Swift, 1967; Deerwester et al., 1990; Kolda & O'Leary, 1998; Maldonado, 2002), pues las dimensiones de esta ya han sido reducidas y solo puede ser reconstituida la información esencial, producto definido como valor singular (matriz E) y vectores singulares (matrices U y V) (Deerwester et al., 1990; Berry et al., 1994; Kolda & O'Leary, 1998; Lerman, 1999; Quesada et al, 2001, 2002; Maldonado, 2002). De este modo, tras la SVD se obtiene una información que no está directamente disponible en la primera representación matricial, sino que está latente en ella (Landauer et al., 1998; Quesada et al., 2001; Quesada, 2003b) y, por tanto, lingüísticamente hablando, en el corpus con que el sistema ha sido entrenado.

1.5. El producto: un espacio semántico

La información de vectores y valor singular se dispone en un espacio euclidiano o vectorial, donde cada vector representa al significado que palabras y/o documentos activan en el marco del dominio de conocimiento del que forman parte y cuya interpretación depende de la relación que mantienen con los otros vectores que componen el espacio (Kintsch, 2002). La disposición de las entidades vectoriales se lleva a efecto sobre la base del principio de similitud semántica, a partir del cual vectores que representan significados similares ocupan lugares próximos (Landauer et al., 1998; Kintsch, 2001). Para establecer la similitud de significado se utilizan tres tipos de mediciones: largo del vector, coseno y distancia entre vectores (Landauer & Dumais, 1997; Kintsch, 2001; Dennis, et al., 2003).

a) El largo del vector o longitud del vector es una medida que se obtiene al sumar todos los números que componen al vector y permite medir tanto la cantidad de información semántica general que el LSA tienen respecto de un dominio de conocimiento, como la que particularmente tiene, dentro de ese dominio, respecto de cada palabra, cada documento y/o cada frecuencia de ocurrencia de aquéllas en estos (Berry et al., 1994; Maldonado, 2002).

b) El coseno se aplica sobre el ángulo entre los vectores (Kintsch, 2001; Maldonado, 2002), evaluando la cercanía de estos en términos de frecuencia relativa o amplitud, es decir, en términos de la distancia -periódica- que media entre una u otra co-ocurrencia (Antón, 1981; Manning & Schütze, 2003) dentro del contexto particular y/o general del dominio de conocimiento (por ejemplo, cada dos palabras). Esta medida arroja un valor entre 0 y 1, con 1 denotando la identidad semántica y 0 la no relación entre los comparandos.

c) La distancia entre vectores se utiliza una vez que se ha determinado la similitud semántica a partir de las otras dos mediciones y, en consecuencia, los vectores se han dispuesto con mayor o menor cercanía dentro del espacio semántico. El cálculo de la distancia permite agrupar los vectores más cercanos en conjuntos de palabras de similar significado conocidos como barrios semánticos (Kintsch, 2001).

Como ya se señaló, el espacio semántico constituye la base de datos a partir de la cual el LSA puede ser ejecutado (Landauer et al., 1998; Kintsch, 2001). En tanto que base de datos, representa un tipo de conocimiento enciclopédico (Laham, 1997; Landauer et al., 1998) que reconstruye la idea del dominio de conocimiento, en correspondencia con el dominio desde el cual provienen los textos del corpus, y contiene las variables que, debido a la gran cantidad de información incidental, no estaban relacionadas en la primera representación matricial (Berry et al., 1994).

1.6. El Funcionamiento del LSA: La interpretación de las medidas

Un espacio semántico podría, en teoría, generarse a partir de cualquier corpus que satisfaga los requisitos del LSA. Concretamente, y luego de tener el espacio semántico, lo que el LSA hace al recibir el requerimiento de un usuario es representarlo vectorialmente y compararlo, a través de las tres medidas descritas, con los vectores que ya estaban en la base de datos, estableciendo el grado de similitud semántica que existe entre ellos (Quesada, 2003b; Maldonado, 2002).

Las medidas, por tanto, se utilizan para la disposición de los elementos en el espacio así como para responder al requerimiento de un usuario. Se pueden usar todas juntas o considerar solo alguna, dependiendo de los objetivos que guían el uso del LSA. La medida de coseno es la más usada y resulta especialmente apropiada cuando se tiene alguna intuición acerca de la relación de similitud semántica que los elementos a comparar mantienen (Kintsch, 2001; Dennis et al., 2003). En el caso contrario, es decir, cuando el usuario previamente no tiene ninguna hipótesis respecto de dicha relación o cuando la que tenía no es corroborada al aplicar coseno, será apropiado saber cuánta información tiene el sistema del LSA respecto de los elementos a comparar, para lo cual se usa la medida de largo del vector (Quesada, 2003b). La distancia entre vectores, por su parte, resulta de gran utilidad para clasificar los vectores por agrupamiento, formando, como ya señaláramos, barrios semánticos o conjuntos de vectores agrupados por semejanza. Además, esta última medida permite tomar en cuenta todas las dimensiones que describen a los elementos comparados, por cuanto al utilizarla se está incluyendo a las otras dos (Quesada, 2003b; Dennis et al., 2003).

También se podrían combinar medidas y solicitar al sistema del LSA que, de una parte, liste todos los vecinos cercanos de la palabra "carta" en el dominio literario, por ejemplo, para lo cual se utilizaría la medida de distancia, y que, de otra, presente la lista jerárquicamente ordenada (agrupamiento jerárquico), para lo que se utilizaría el coseno. Es por esto que se afirma que la distancia es mejor aprovechada como medida que permite la clasificación por semejanza, más que por diferenciación, para lo cual resultará siempre más pertinente el coseno (Quesada, 2003b).

Dado que el LSA solo puede operar con las palabras que conoce, es posible que establezca grados de similitud errados si el requerimiento involucra términos desconocidos (Kintsch, 2001), sin embargo, aun cuando este sea el caso, el nuevo vector generado a partir de la consulta será almacenado en la base de datos, tal como lo son las nuevas relaciones que el sistema induce o hace patentes. Esta última es la ventaja de trabajar sobre una representación vectorial (Bak & Lichtenberg, 1969) y la razón por la cual el grupo de investigadores que desarrollan y potencian el trabajo con el LSA afirman que este sistema puede 'aprender' y que puede, en consecuencia, ser visualizado como un modelo computacional que explicaría el modo en que se construyen, inducen y conservan las representaciones del conocimiento en la mente humana (Landauer et al., 1998), dando explicación al 'Problema de Platón' (Landauer & Dumais, 1997).

2. La semántica del LSA

El LSA puede y ha sido usado, entre otras cosas, para medir la coherencia de los textos (Foltz, Kintsch & Landauer, 1998), establecer el grado de dificultad que un texto tiene para un posible lector, comparar un texto con su resumen, corregir automáticamente pruebas de respuesta abierta (Pérez, Gliozzo, Strapparava, Alfonseca, Rodríguez & Magnini, 2005 ) y para el desarrollo de investigaciones psicolingüísticas en el ámbito de la comprensión de textos (Kintsch, 2001, 2002), de la categorización (Laham, 1997) y de la adquisición de vocabulario (Landauer & Dumais, 1997). En todas estas aplicaciones, de especial relevancia para el ámbito educativo, el LSA es fundamentalmente utilizado como una herramienta para evaluar la similitud semántica de piezas de información verbal (i.e. unidades de significado). Sin embargo, los investigadores que trabajan con el LSA, más centrados en la explicación del funcionamiento del sistema computacional y en sus aplicaciones, no llegan a abordar el asunto de cuál es la semántica que subyace bajo el algoritmo matemático, asunto que, desde nuestro punto de vista, resulta fundamental para la comprensión de este análisis y de las potencialidades que se le atribuyen.

La semántica se presenta como un problema en el marco del LSA por cuanto, pese a que se trabaja sobre información verbal y se mide su similitud semántica, sabemos que esta se reduce a la co-ocurrencia de las palabras dentro del corpus. En efecto, el LSA no trabaja sobre ninguna información acerca del significado con que las palabras están definidas en un diccionario (i.e. semántica léxica), así como tampoco con ninguna acerca de la sintaxis (i.e. coligación, semántica composicional), ni de la estructura retórica, ni de las intenciones (i.e. pragmática) ni de las experiencias de los hablantes (i.e. semántica cognitiva), ni de las funciones para las cuales se utiliza el lenguaje (i.e. funcionalismo).

El grado de similitud semántica entre unidades de significado se establece a través de las tres operaciones con vectores que hemos revisado en párrafos anteriores. Tras ellas, y en la constitución del espacio semántico en general, podemos reconocer que subyacen dos supuestos acerca del significado lingüístico: (1) el significado es contextualmente dependiente y (2) en el uso contextual hay relaciones semánticas que están latentes. Estos son los que intentamos sistematizar en los siguientes apartados.

2.1. El significado es contextualmente dependiente

Desde una perspectiva contextualista (e.g. Firth, 1957; Malinowski, 1984; Halliday, 2003; Tognini-Bonelli, 2001) el significado de las palabras no es absoluto ni discreto (i. e. establecido en términos de condiciones necesarias y suficientes), sino que, tal como lo sostiene Wittgenstein (1982, 2002), es difuso y contextualmente dependiente. Consecuentemente con ello, las palabras poseen variadas posibilidades de significación que se activan o desactivan según el contexto en el que han sido enunciadas. En este sentido, el significado está determinado por la ubicación contextual y puede ser definido por esa posición. Así, por ejemplo, la activación del significado de "carta" como "misiva", y no como "mapa", dependerá de cuáles sean las palabras con las que "carta" co-ocurra en el contexto verbal inmediato, y esto, a su vez, dependerá de cuál es el dominio de conocimiento en el que ese contexto está inserto. El contexto funciona como el ambiente que determina y restringe (direcciona) el sentido en que las palabras deben ser interpretadas. Esta función restrictiva del contexto se conoce con el nombre de realización (Halliday, 2003). Básicamente, desde las teorías lingüísticas, se distinguen dos ambientes realizacionales (Firth, 1957): uno propiamente verbal y uno situacional. La dependencia del significado a uno y otro de estos contextos ha sido desarrollada ampliamente por Firth (1957) y Malinowski (1984), respectivamente y es la que funciona como sustento teórico de modelos del lenguaje como el propuesto por la Lingüística Sistémico Funcional (Halliday & Matthiessen, 1999; Halliday, 2003) y de aplicaciones metodológicas como la Lingüística de Corpus (Tognini-Bonelli, 2001).

El supuesto que estamos comentando es claramente identificable en el algoritmo operativo del LSA. Primero, en los requerimientos del corpus de entrenamiento del sistema, donde el dominio de conocimiento al que pertenecen los textos funciona como el contexto (ambiente) a partir del cual cada palabra y/o documento (unidad de significado) adquiere el peso con el que será representado. Luego, en la representación euclidiana, donde, en consonancia con el hecho de que el valor de un vector se define por su relación con los otros vectores del espacio semántico, el significado de una palabra se deriva a partir de las relaciones contextuales que mantiene con otras palabras dentro de un mismo ambiente (Kintsch & Bowles, 2002). En cada uno de estos pasos del algoritmo del LSA, podemos reconocer dos diferentes niveles de contexto verbal: contexto verbal inmediato, representado por la co-ocurrencia de palabras, y contexto verbal más amplio, representado por el dominio de conocimiento al que pertenecen los textos del corpus (Kintsch, 2001; Quesada et al., 2002), el que no solo está unificado por la temática, sino que también por las características etáreas, sociales y culturales que los sujetos productores o lectores de esos textos comparten. Si bien es cierto que podríamos entender que esta última configuración ambiental involucra referencias al contexto situacional, tal como es definido por Malinowski (1984) en la década del '20 y posteriormente desarrollado por Halliday (1982) desde una perspectiva semántica (i.e. teoría del registro) este es un implícito externo al sistema, cuya validez depende de la selección del corpus que los investigadores realizan, como bien lo reconocen Wolfe y Goldman (2003). En sentido estricto, ambos niveles de contexto son verbales (Laham, 1997; Kintsch, 2001) y, por tanto, colocacionales, pues como ya decíamos, no se involucra más información que la colocación de las piezas textuales.

Así entendido, el significado de una palabra no posee un centro estable como el que fija el diccionario, sino que un centro que se desplaza de acuerdo al dominio de conocimiento que enmarca los requerimientos que se le hacen al sistema, en otras palabras, es un centro que depende de la similitud semántica, medida en términos de coseno, largo del vector y distancia entre vectores, que una pieza textual mantiene con otras en el marco de un mismo ambiente realizacional. Este último supuesto es el que identificamos operando en la conformación y utilización del espacio semántico (Landauer & Dumais, 1997; Landauer et al., 1998; Kintsch, 2001) y corresponde a un planteamiento formulado por Wittgenstein en la década del '40 (Wittgenstein, 1982, 2002). Desde él se sostiene que los significados, múltiples y heterogéneos como los contextos, mantendrían una relación metafóricamente definida como de semejanza o parecido de familia (Kintsch, 2001) (Figura 6), es decir, compartirían por asociación contextual rasgos similares, aunque no necesariamente comunes, los que permitirían, desde múltiples posibilidades asociativas, agruparlos dentro de una misma categoría conceptual (e.g. 1 y 4 en la Figura 6), esto es, como elementos cercanos en el espacio euclidiano.


Figura 6.
Gráfica de semejanza de familia (adaptada de Givón, 1984: 15).

Al trabajar sobre un corpus de grandes dimensiones con especificidad de dominio, se asume, además, que la similitud de significado entre términos no puede ser establecida a partir de su aparición en un solo texto, en lo que sería un uso ocasional, sino que desde su presencia en varios textos o, lo que es igual, en el uso frecuente que conforma el patrón de uso contextual (Landauer, 2002; Manning & Schütze, 2003), el que, en consecuencia, también resulta ser específico de dominio.

2.2. Relación semántica latente

En la superficie textual, sin embargo, hay variables (unidades de significado) no relacionadas (e.g. analogando con Wittgenstein (1982, 2002), 1 y 4 en la Figura 6). Dicho de otro modo, hay relaciones de similitud semántica que están latentes en los textos y que, como ya se ha señalado, matemáticamente, la técnica de SVD permite revelar (Deerwester et al., 1990; Landauer et al., 1998; Quesada et al., 2001, 2002; Quesada, 2003b). El supuesto detrás de esta afirmación es que las áreas de conocimiento, que conforman los córpora con que el sistema ha sido o será entrenado, contienen un gran número de relaciones semánticas no evidenciadas y que ellas pueden ser usadas para inferir más conocimiento del que resulta de la simple adición de las partes (Quesada et al., 2001, 2002). Esto es efectivamente posible por un análisis algorítmico sobre un número de observaciones muy amplio, como es el caso de los córpora con que el sistema del LSA es entrenado (Landauer, 2002), donde la ocurrencia empírica de un suceso (la colocación de palabras, en este caso) se toma como la frecuencia relativa (coseno) de ocurrencia del mismo (Manning & Schütze, 2003). De esta manera, el LSA podría arrojar cosenos que evidenciarán que una palabra se asociará relevantemente a otra, aun cuando en el patrón de uso de ella (matemáticamente, en la matriz dispuesta en función del peso) no se haya observado tal asociación (Dumais, 1994; Landauer, 2002; Quesada et al., 2002). Así, por ejemplo, si la frecuencia con que la palabra "carta" co-ocurre con "cartero" es, en un dominio de conocimiento general, similar a la frecuencia con que "sobre" co-ocurre con "cartero", aun cuando "carta" y "sobre" nunca aparezcan juntas en un contexto verbal, es decir, aun cuando su relación no sea patente en los textos del corpus, el LSA determinará que mantienen similitud semántica. Lo mismo ocurre con las palabras sinónimas como "carta" y "misiva", las que siendo, por definición léxica, semánticamente similares, y precisamente por esto, tienen escasas opciones de co-ocurrir en un mismo contexto verbal; sin embargo, el LSA puede establecer que ambas están fuertemente relacionadas al buscar la similitud de la frecuencia con que cada una de ellas aparece asociada a otra: "cartero", por ejemplo. En ambos casos se dice que la relación de similitud semántica está latente.

Es el espacio semántico, configurado a partir de la reducción de la información incidental, el que recupera la estructura latente o estructura semántica original (Landauer, 2002; Manning & Schütze, 2003) a partir de la cual las variables no relacionadas son vinculadas. Esta operación es conocida como Posicionamiento Semántico Latente (LSP, del inglés Latent Semantic Positioning) (Dumais, 1994) y ha llevado a declarar que LSA es capaz de inferir conocimiento verbal (Quesada et al., 2001).

En suma, podríamos sostener que se trata de una semántica colocacional (Firth, 1957), donde el significado de una palabra es la posición que ocupa en un contexto determinado, definida a partir de las otras palabras (o entidades vectoriales) que lo conforman.

Para Kintsch (2002), esta forma de derivar el significado sería análoga al modo en que los seres humanos aprehendemos, organizamos y utilizamos las palabras y, en consecuencia, se le atribuye el carácter de 'teoría psicológica del significado'. Sin embargo, la construcción que las personas hacemos del significado de las palabras no solo depende de un contexto verbal, sino que también de uno más amplio en el que podríamos incluir nuestras experiencias corpóreas, nuestro conocimiento de mundo, nuestra cultura y las intenciones que derivan de ellos (De Vega, 2002). Por tanto, la validez del LSA como teoría psicológica del significado depende de la capacidad que el sistema tenga para incluir estos factores. Para profundizar en ella, comento a continuación dos investigaciones, enmarcadas en la psicología cognitiva, en las que se asume que la representación vectorial (espacio semántico) que el sistema del LSA genera contiene restricciones experienciales, emanadas del conocimiento previo de los individuos. En la primera de ellas (i.e. Quesada et al., 2001, 2002; Quesada, 2003a), el corpus es explícitamente caracterizado como no verbal; mientras que en la segunda (i.e. Wolfe & Goldman, 2003) emerge con fuerza la naturaleza verbal de dicho corpus, llevando a los investigadores a concluir que la validez del LSA para el estudio de procesos cognitivos requiere de una profundización del impacto de las relaciones semánticas en ellos.

3. LSA en el estudio de procesos cognitivos

3.1. LSA en el estudio del razonamiento analógico

Quesada et al. (2001, 2002) y Quesada (2003a) utilizan el LSA como base para desarrollar el Análisis de Resolución Latente de Problemas (LPSA, sigla de Latent Problem Solving Analysis) (Quesada et al., 2001, 2002; Quesada, 2003a), entendido como "…a computational theory of representation in experienced problem solving" (Quesada et al., 2002: 1). El principal presupuesto teórico que enmarca el LPSA es el del razonamiento analógico, a partir del cual se sostiene que muchas de las tareas de resolución de problemas obtienen su solución cuando las comparamos con modelos de actuación previamente elaborados, esto es, con representaciones mentales de conocimiento derivado de nuestra experiencia en situaciones-problema de similares características, las que se han ido especializando con la práctica constante y haciéndose expertas y específicas de dominio. En este marco, lo que LPSA propone es que las personas, enfrentadas a una tarea de resolución de problemas, elaboramos una representación mental del problema (i.e. espacio problema), la que luego de ser reducida, del mismo modo y con los mismos propósitos (facilitar su procesamiento) con que la SVD opera la reducción de dimensiones, es comparada con alguna representación previa, permitiéndonos decidir, sobre la base de la similitud y de las restricciones del ambiente, la mejor forma de actuar.

Para emular la representación de este espacio problema en la computadora se siguen pasos idénticos a los que hemos descrito para la conformación del espacio semántico, introduciéndose como única diferencia la caracterización que los creadores del LPSA hacen del corpus de entrenamiento: "LPSA needs a corpus of experience, and does not propose mechanisms to act when there is no experience" (Quesada, 2003a: 17). Por corpus de experiencia debemos entender corpus de estados, acciones y eventos que han sido empíricamente derivados, esto es, que han sido obtenidos a partir de la observación directa del desempeño de sujetos que, en situación experimental, enfrentaron una tarea de resolución de problemas (Quesada et al., 2002). El corpus corresponde solo a las posibilidades de actuación efectivamente ejecutadas por los sujetos, es decir, a las posibilidades que se actualizaron en el contexto de la tarea, bajo las restricciones del ambiente y no a todas las posibilidades de acción existentes. Al igual que el del LSA, este corpus está conformado por una gran cantidad de información, tanta como es necesaria para emular la destreza que un sujeto ha desarrollado al estar expuesto durante tres años de modo constante a la resolución de una misma tarea (Quesada et al., 2002).

El corpus es dispuesto en una matriz donde, respecto del LSA, las palabras son reemplazadas por acciones y los contextos o documentos por ensayos o episodios de resolución de problemas. La frecuencia, en tanto, corresponde a la ocurrencia de la acción en los ensayos (Quesada et al., 2002). Luego el algoritmo sigue su curso tal y como lo hemos descrito anteriormente. Tras la SVD, en este caso, se obtienen vectores singulares de acciones y de estrategias, entendidas como modelos de actuación usadas por los sujetos. Con esta información se genera un espacio de resolución de problemas (Quesada, 2003a) desde el cual es posible analizar la actuación humana en tareas de resolución de problemas: (a) determinando los rasgos característicos de la resolución de alguna tarea; (b) comparando el proceder de un experto con el de un novato; (c) prediciendo la solución que frente a un problema complejo desarrollará un sujeto experto; y (d) evaluando el desempeño de los sujetos de modo automático y sin la intervención de la subjetividad de un evaluador humano (Quesada, 2003a).

Puede observarse que en el LPSA subyacen los mismos principios que en el LSA y, como ya se señaló, la diferencia radica en el corpus de entrenamiento, el que es verbal para el LSA y experiencial para el LPSA. Sin embargo, para que la información calificada de experiencial pueda ser ingresada al sistema computacional debe ser verbalmente descrita por los investigadores (Quesada, 2003a); en consecuencia, se continúa trabajando con un corpus lingüístico y sobre contextos verbales que, desde nuestro punto de vista, no pueden ser calificados de experiencia ni de conocimiento empírico, pues no se está considerando el conocimiento previo de naturaleza no verbal que los sujetos activan frente a la resolución de un problema.

3.2. LSA en el estudio del razonamiento causal

Wolfe y Goldman (2003), en una línea semejante a la recién comentada, pero con una metodología bastante menos sofisticada, tienen por objetivo probar que el LSA puede ser útil para predecir el razonamiento causal que estudiantes adolescentes desarrollarán sobre un acontecimiento histórico y pretenden, de este modo, validarlo como herramienta que permite automatizar el codificado manual en el estudio de los procesos cognitivos en general y del razonamiento causal de los estudiantes, en particular.

Previa intervención del LSA, Wolfe y Goldman (2003) han desarrollado un experimento en el que sometieron a un grupo de estudiantes a la lectura de textos que presentan visiones opuestas de un mismo hecho histórico (la caída del imperio romano), solicitándoles que declaren en voz alta lo que van haciendo durante la lectura bajo el supuesto de que los datos de los protocolos verbales constituyen un buen índice para predecir cómo será el razonamiento causal que los estudiantes harán post lectura frente a una pregunta que lo involucra (i.e. ¿cuáles son las causas de la caída del imperio romano?). En el contexto de esta investigación se sostiene que el razonamiento causal debe generar una representación del texto en la que se evidencie aprendizaje, esta sería una en que las causas estén jerárquicamente organizadas sobre la base de procesos inferenciales que permitan integrar eficientemente el conocimiento previo de los estudiantes con el que está contenido en el texto (Wolfe, Schreiner, Rehder, Laham, Foltz, Kintsch & Landauer, 1998). A partir del contraste entre los protocolos y el razonamiento motivado por la pregunta, Wolfe y Goldman (2003) concluyen que: (a) los estudiantes cuyos protocolos muestran estar muy apegados al contenido del texto (parafraseo), desarrollarán un razonamiento de similares características en el que no se evidenciará aprendizaje, sino que tan solo reproducción de la información textual; (b) aquellos que ponen de relieve el conocimiento previo se alejan mucho del contenido del texto y su razonamiento no puede ser calificado de aprendizaje eficiente; (c) en tanto que los que revelan estar haciendo conexiones entre lo que previamente sabían del tema y la nueva información que están leyendo, son los que desarrollarán un razonamiento causal que puede ser calificado de aprendizaje.

Ahora bien, para probar si el LSA puede predecir automáticamente este razonamiento con la misma certeza con que lo han estado haciendo de modo manual, los investigadores conforman un espacio semántico con un corpus de textos de historia antigua tomados de los libros que los estudiantes utilizan en la escuela. Sobre esta base y utilizando la medida de coseno comparan la similitud de las declaraciones de los protocolos verbales de los estudiantes con los textos representados en el espacio semántico, comprobando que el LSA arroja: (a) cosenos muy altos cuando las declaraciones verbales de los estudiantes son un parafraseo del texto; (b) cosenos muy bajos cuando en las declaraciones predomina información referida al conocimiento previo y, por tanto, se encuentran muy alejadas del texto mismo; y (c) cosenos medios cuando hay equilibrio entre la información textual y el conocimiento previo, es decir, cuando los protocolos verbales muestran una adecuada integración de ambas fuentes de conocimiento. Estos resultados permiten concluir que "These LSA similarity indices predicted the students' reasoning slightly better than did hand-coded processing indices of the same think aloud data" (Wolfe & Goldman, 2003: 29). La predicción, por supuesto, radica en la interpretación que los investigadores hacen de los valores arrojados por el LSA.

Es interesante notar que, en este trabajo, se explicitan dos asuntos estrechamente relacionados con la naturaleza verbal del corpus de entrenamiento y que parecen constituir advertencias directas a los planteamientos de Kintsch (2002), Quesada (2003a) y Quesada et al. (2001, 2002). De una parte, la validación del espacio semántico como construcción representativa de la base de conocimiento de los sujetos, a fin de que efectivamente emule la representación humana del conocimiento, no en términos de su complejidad, lo que sería imposible para el LSA y para cualquier sistema computacional, sino que en relación a la cantidad de información. De otra, la profundización en el impacto de las relaciones semánticas sobre la representación humana del conocimiento (Wolfe & Goldman, 2003).

Podemos ver que, pese a las intenciones de los autores, en estas dos investigaciones el LSA continúa presentándose como herramienta para evaluar la similitud semántica entre piezas textuales, es decir, permanece restringido al ámbito verbal y dentro de este a la semántica colocacional.

CONCLUSIONES

El LSA es un sistema computacional que permite inducir y hacer patente las relaciones semánticas que piezas textuales pertenecientes a un mismo contexto mantienen entre sí. Dada esta satisfacción del sistema y tras la revisión que hemos presentado, podemos concluir que el LSA no puede operar sino sobre córpora verbales respecto de los cuales solo trabaja en términos de colocación y co-ocurrencias de palabras. La colocación de palabras resulta ser una información lingüística bastante reducida al momento de enfrentar la compleja cuestión del significado y lo es aún más si estamos pensando, como lo hace Kintsch (2002), en una teoría psicológica de este, pues se trata de una información que no considera el conocimiento previo de los individuos ni la representación de restricciones no verbales del ambiente (Landauer et al., 1998; Kintsch, 2002). De esta manera se obvia que, desde la psicolingüística, el significado es, en gran medida, la construcción que las personas elaboramos en el marco de ambientes realizacionales complejos (i.e. basándonos tanto en restricciones verbales como no verbales) al poner en interacción la información textual con nuestro conocimiento previo. Desde nuestra perspectiva, una teoría que ignore estos elementos no puede, de ninguna manera, estatuirse como una teoría psicológica del significado y, por consiguiente, tampoco puede serlo de la representación del conocimiento humano.

Aún más, los supuestos lingüísticos que hemos identificados como subyacentes al algoritmo del LSA se enmarcan en una línea contextualista de los estudios lingüísticos, estrechamente vinculada a teorías pragmáticas y funcionalistas del significado las que, si bien pueden ser complementarias a las visiones cognitiva y psicolingüística, se alejan fuertemente de ellas, por cuanto no se fundamentan en los procesos cognitivos que se ponen en funcionamiento al procesar el lenguaje, sino que más bien en las restricciones del ambiente y, en consecuencia, tratan al lenguaje como un sistema social más que como un sistema de la mente humana (Halliday & Matthiessen, 1999).

Descartar la potencialidad que el LSA tiene como teoría psicológica del significado no implica dejar de reconocer las que ostenta como herramienta para la comparación semántica de piezas textuales y las aplicaciones que como tal puede tener tanto en el ámbito educativo como en el lingüístico. En este último, destacamos el trabajo que Venegas (2005) ha desarrollado en Chile, en el marco de su tesis doctoral, el que además constituye la primera aplicación del LSA sobre córpora en español.

Finalmente, no podemos dejar de notar que las posibilidades del LSA podrían ampliarse si los autores enfrentaran las limitaciones del sistema, reconociendo el carácter eminentemente verbal de la información con que LSA puede operar y desde tal reconocimiento elaboraran una explicitación de los supuestos semánticos subyacentes con los cuales abordar con una sistematización mayor, por ejemplo con una teoría del registro, la construcción del corpus de entrenamiento, por cuanto, el éxito en la ejecución del LSA involucra el criterio con que los investigadores seleccionan el corpus, así como la interpretación que posteriormente hacen de las medidas arrojadas por el sistema en función de dicha selección, lo que traspasa y supera las condiciones del algoritmo matemático.



REFERENCIAS BIBLIOGRÁFICAS

Anton, H. (1981). Elementary linear algebra. New York, NY: Wiley.         [ Links ]

Bak, M. & Lichtenberg, M. (1969). Vectores, tensores y grupos. Barcelona: Reverté.         [ Links ]

Berry, M., Dumais, S. & O'Brien, G. (1994). Using linear algebra for intelligent information retrieval [en línea]. Disponible en: http://lsirwww.epfl.ch/courses/dis/2003ws/papers/ut-cs-94-270.pdf         [ Links ]

Cárdenas, L. (2003). Fundamentos matemáticos de la informática gráfica [en línea]. Disponible en: http://rinconprog.metropoliglobal.com/CursosProg/ProgGraf/MatGraf/index.php?cap=2         [ Links ]

Deerwester, S., Dumais, S., Furnas, G., Landauer, T. & Harshman, R. (1990). Indexing by latent semantic analysis [en línea]. Disponible en: http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf         [ Links ]

Dennis, S., Landauer, T., Kinstch, W. & Quesada, J. (2003). Introduction to latent semantic analysis [en línea]. Disponible en: http://lsa.colorado.edu/~quesadaj/pdf/LSATutorial.pdf         [ Links ]

De Vega, M. (2002). Del significado simbólico al significado corpóreo. Estudios de Psicología, 2(23), 153-174.         [ Links ]

Dumais, S. (1994). Latent semantic indexing (LSI) and TREC-2 [en línea]. Disponible en: http://lsi.research.telcordia.com/lsi/LSIpapers.html         [ Links ]

Firth, J.R. (1957). Papers in linguistic 1934-51. London: Oxford University Press.         [ Links ]

Foltz, P., Kintsch, W. & Landauer, T. (1998). The measurement of textual coherence with latent semantic analysis. Discourse Processes, 25 (2-3), 285-307.         [ Links ]

Givón, T. (1984). Syntax. A functional typological introduction. Vol 1. Amsterdam: Benjamins.         [ Links ]

Guerrero, V., López, C., Faba, C., Reyes, M., Zapico, F. & Moya, F. (2003). Clasificación de términos mediante el algoritmo de Kohonen [en línea]. Disponible en: http://scimago.ugr.es/file.php?file=/1/Documents/JOTRI-03.pdf         [ Links ]

Halliday, M. (2003). On language and linguistics. London: Continuum.         [ Links ]

Halliday, M. & Matthiessen, C. (1999). Construing experience through meaning. London: Biddles.
        [ Links ]

Jackson, P. & Moulinier, I. (2003). Natural language processing for online applications. Text retrieval, extraction and categorization. Philadelphia: Benjamins.         [ Links ]

Kintsch, W. (2001). Predication. Cognitive Science, 25, 173-202.         [ Links ]

Kintsch, W. (2002). On the notions of theme and topic in psychological process models of text comprehension [en línea]. Disponible en: http://lsa.colorado.edu/papers.html         [ Links ]

Kintsch, W. & Bowles, A. (2002). Metaphor comprehension: What makes a metaphor difficult to understand? [en línea]. Disponible en: http://lsa.colorado.edu/papers/KintschBowles.pdf         [ Links ]

Kolda, T. & O'Leary, D. (1998). A semi-discrete matriz descomposition for latent semantic indexing in information retrieval [en línea]. Disponible en: http://portal.acm.org/citation.cfm?id=291131         [ Links ]

Laham, D. (1997). Latent semantic analysis approaches to categorization [en línea]. Disponible en: http://lsa.colorado.edu/papers/categories.pdf         [ Links ]

Landauer, T. (2002). On the computational basis of learning and cognition: Arguments from LSA [en línea]. Disponible en: http://lsa.colorado.edu/papers/Ross-final-submit.pdf         [ Links ]

Landauer, T. & Dumais, S. (1997). A solution to Plato's problem: The latent semantic analysis theory of the acquisition, induction, and representation of knowledge [en línea]. Disponible en: http://lsa.colorado.edu/papers/plato/plato.annote.html         [ Links ]

Landauer, T., Foltz, P. & Laham, D. (1998). An introduction to latent semantic analysis. Discourse Processes, 25(2-3), 259-284.         [ Links ]

Lerman, K. (1999). Document clustering in reduced dimension vector space [en línea]. Disponible en: http://www.isi.edu/%7Elerman/papers/Lerman99.pdf         [ Links ]

Maldonado, F. (2002). Hermes: Servidor y biblioteca de modelos de recuperación de información. Tesis profesional. Universidad de las Américas, Puebla.         [ Links ]

Malinowski, B. (1984). El problema del significado en las lenguas primitivas. En C. Ogden & I. Richards (Eds.), El significado del significado (pp. 310-352). Barcelona: Paidós.         [ Links ]

Manning, C. & Schütze, H. (2003). Foundations of statiscal natural language processing. Massachusetts: MIT Press.         [ Links ]

Paige, H. & Swift, C. (1967). Elementos de álgebra lineal. Barcelona: Reverté.         [ Links ]

Pérez, D., Gliozzo, A., Strapparava, C., Alfonseca, E., Rodríguez, P. & Magnini, B. (2005). Automatic assessment of students' free-text answers underpinned by the combination of a BLEU-inspired algorithm and latent semantic analysis [en línea]. Disponible en: http://www.ii.uam.es/~dperez/EnrDiaPilLREC04.pdf         [ Links ]

Perfetti, Ch. (1998). The limits of co-ocurrence: Tools and theories in language research. Discourse Processes, 25(2-3), 363-377.         [ Links ]

Steyvers, M. & Tenenbaum, J. (2001). The large-scale structure of semantic networks [en línea]. Disponible en: http://psiexp.ss.uci.edu/research//papers/smallworlds.pdf
        [ Links ]

Tognini-Bonelli, E. (2001). Corpus linguistics at work. Amsterdam: Benjamins.         [ Links ]

Quesada, J. (2003a). Latent problem solving analysis (LPSA): A computational theory of representation in complex, dynamic problem solving tasks [en línea]. Disponible en: http://www.andrew.cmu.edu/user/jquesada//dissertation/         [ Links ]

Quesada, J. (2003b). Introduction to latent semantic analysis and latent [en línea]. Disponible en: http://lsa.colorado.edu/         [ Links ]

Quesada, J., Kintsch, W. & Gómez, E. (2001). A computational theory of complex problem solving using the vector space model (part I): Latent semantic analysis, through the path of thousands of ants [en línea]. Disponible en: http://lsa.colorado.edu/~quesadaj/pdf/THEORETICALfinal.PDF         [ Links ]

Quesada, J., Kintsch, W. & Gómez, E. (2002). A theory of complex problem solving using latent semantic analysis [en línea]. Disponible en: http://lsa.colorado.edu/~quesadaj/pdf/QuesadaKintschGomezCogSci02.pdf         [ Links ]

Venegas, R. (2003). Análisis semántico latente: Una panorámica de su desarrollo. Revista Signos, 53(36), 121-138.         [ Links ]

Venegas, R. (2005). Las relaciones léxico-semánticas en los artículos de investigación científica: Una aproximación desde el análisis semántico latente. Tesis doctoral no publicada. Pontificia Universidad Católica de Valparaíso, Valparaíso, Chile.         [ Links ]

Wittgenstein, L. (1982). Últimos escritos sobre filosofía de la psicología. Estudios preliminares para la parte II de investigaciones filosóficas. Madrid: Tecnos.         [ Links ]

Wittgenstein, L. (2002). Investigaciones filosóficas. Barcelona: Crítica.         [ Links ]

Wolfe, M., Schreiner, M., Rehder, B., Laham, D., Foltz, P., Kintsch, W. & Landauer, T. (1998). Learning from text: Matching readers and texts by latent semantic analysis [en línea]. Disponible en: http://lsa.colorado.edu/papers/dp2.wolfe.pdf         [ Links ]

Wolfe, M. & Goldman, S. (2003). Use of latent semantic analysis for predicting psychological phenomena: Two issues and proposed solutions. Behavior Research Methods, Instruments, and Computers, 35(1), 22-31.         [ Links ]



Dirección para correspondencia: Rosa María Gutiérrez (rosamaguba@hotmail.com). Tel.: (56-32) 273378. Pontificia Universidad Católica de Valparaíso. Av. Brasil 2830, piso 9, Valparaíso, Chile.

Recibido: 1-VI-2005 Aceptado: 7-X-2005

*Becaria Proyecto Mecesup UCV/ 0311, Programa de Doctorado en Lingüística. Pontificia Universidad Católica de Valparaíso

 

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons