INTRODUCCIÓN
El capital humano y la educación son dos conceptos que están directamente relacionados. El rendimiento académico de un estudiante refleja el rendimiento que tendrá en la vida laboral (Deng et al. 2020), diversas investigaciones han estudiado los factores que influyen en el éxito o el fracaso escolar (Lindqvist y Vestman, 2011). Factores personales, familiares, económicos e institucionales pueden influir en el rendimiento académico estudiantil (Britton y Propper, 2016; Khanam y Nghiem, 2016). Estas investigaciones muestran que la autoeficacia, la automotivación y la autonomía están directamente relacionadas con el rendimiento académico estudiantil (Byura, 1977; Maher et al., 2018). Por lo general, los estudiantes que tienen dificultades de aprendizaje independientemente del nivel de motivación y conocimientos previos que posean antes del inicio de un curso, tienen dificultades para retener información en su memoria de trabajo, responden de manera impulsiva y desinhibida (Cortez y Silva 2008), tienen dificultades para representar conceptos mentalmente y su sentido está poco desarrollado (deRegnier, 2018). En Colombia, la predicción del rendimiento académico estudiantil en colegios tiene un bajo nivel de implementación, lo que obedece principalmente al desconocimiento y a la falta de habilidades por parte de los docentes y directivos (Barrera-Osorio, 2020). Por su parte, en este país una baja cantidad de universidades e Instituciones de Educación Superior (IES) emplean modelos predictivos enfocados a detectar la deserción estudiantil (Guarín, 2015).
En este trabajo se entrena una RNA, específicamente un perceptrón multicapa (MLP) para predecir el éxito o el fracaso estudiantil, este permite clasificar a los estudiantes que ingresan a un curso en un estado (Aprobado=1 / Reprobado=0). Esta clasificación es útil en la personalización de estrategias didácticas y pedagógicas de los docentes al momento de iniciar los cursos, lo que contribuye a una mayor eficiencia del proceso de enseñanza y a un mejor rendimiento académico de los estudiantes. Los docentes al conocer las principales características de los estudiantes, hábitos de estudio, aspectos familiares y personales, entre otros, pueden implementar estrategias con anticipación, personalizar los métodos de enseñanza, identificar los estilos de aprendizaje de los estudiantes y remitir a unidades de apoyo en caso de ser necesario. Para el entrenamiento de la RNA (MLP) se empleó Google Colaboratory, específicamente la función MLPRegressor, los hiperparámetros que optimizaban los resultados del entrenamiento fueron identificados haciendo uso de GridSearchCV, clase disponible en Scikit-Learn que permite evaluar y seleccionar de forma sistemática los parámetros de un modelo de clasificación o regresión. Los datos fueron normalizados antes del entrenamiento con la función MinMaxScaler. En resumen, se empleó una sola capa oculta con 9 neuronas, la función de activación logística, una tasa de aprendizaje adaptativa de 0.01, un momentum 0.9 y 1000 iteraciones. El 75% de los datos (n = 296) de la muestra fueron empleados para el entrenamiento y el 25% restante (n = 99) para la validación. Se empleó una RNA para la predicción porque permite incluir variables difíciles de cuantificar a través de ecuaciones simples, permitiendo considerar información personal de los estudiantes. Finalmente, se muestra que la RNA (MLP) desarrollada es adecuada para identificar a los estudiantes que aprobarán o reprobarán y se hace un comparativo con otros modelos de aprendizaje supervisado.
OTROS ANTECEDENTES
Las RNA son redes informáticas que tienen como objetivo emular el proceso de toma de decisiones de las neuronas en el sistema nervioso central biológico de los humanos o animales. Estas consisten en una simulación de neurona a neurona, que toma como base la neurofisiología, por lo tanto, difiere de las máquinas informáticas digitales y analógicas que se utilizan para mejorar o acelerar el cómputo del cerebro humano sin tener en cuenta la organización de los elementos informáticos y su conexión en red (Agudelo et al., 2014). Las RNA son herramientas poderosas para resolver problemas complejos relacionados con diversos usos, lo que reduce significativamente el tiempo y los gastos. Estas han sido utilizadas por diferentes investigadores para hacer predicciones (Ghazvini et al., 2020, Villada et al., 2016). La Figura 1 presenta la estructura de una neurona biológica.
El MLP tiene un mayor uso que los otros tipos de RNA, este requiere una estructura predefinida para su entrenamiento dependiendo del objetivo de predicción (Bhattacharjee y Pant, 2019, Ramos et al., 2016). El MLP contiene mínimo tres capas (entrada, oculta y salida), estos tienen la capacidad de realizar un ajuste no lineal con alta precisión, su objetivo es encontrar valores adecuados para los pesos de los enlaces entre las neuronas, la técnica de entrenamiento más utilizada en este tipo de RNA es la retropropagación (Zarei y Behyad 2019). En Figura 2 se presenta la estructura general de un MLP.
Generalmente, un MLP de una capa oculta es una función f: RE → RM, donde E es el tamaño del vector de entrada x y M es el tamaño del vector de salida f(x) como se presenta en la Ecuación 1:
Donde b1 y b2 son los vectores de sesgo, W1 y W2 las matrices de peso, G y S las funciones de activación (Bhattacharjee y Pant 2019). El vector presentado en la Ecuación 2 constituye la capa oculta:
Donde W1 ϵ RD x Dh es la matriz de peso que conecta el vector de entrada con la capa oculta. Cada columna W¹ i representa los pesos de las unidades de entrada a la i-ésima unidad oculta. Las opciones típicas para S puede ser la función tangente hiperbólica (Ecuación 3) o la función logística (Ecuación 4).
En este trabajo se utilizó la función logística porque permite un entrenamiento más rápido y mejores mínimos locales. Tanto la función tangencial como la función logística son escalares, pero su extensión natural a los vectores y tensores se aplican en función de los elementos (Chai et al. 2017). El vector de salida se obtiene como se presenta en la Ecuación 5:
La probabilidad de pertenecer a una clase puede obtenerse eligiendo G como función de máxima seguridad. Para entrenar una RNA-MLP se entrenan todos los parámetros del modelo Y, y se utiliza el Descenso de Gradiente Estocástico con minibatches. El conjunto de parámetros a aprender es el conjunto θ = {W², b², W², b¹} obteniendo los gradientes δl / δθ (Dai, Ma, y Xie 2014). La gráfica de la función logística construida sobre el plano cartesiano (X vs Y), tiene forma de S como se presenta en la Figura 3. Esta función es útil cuando la salida que se va a predecir es binaria (0/1). Por lo general, se emplea en modelos que tienen como objetivo predecir probabilidades. Además, esta función es derivable, lo que permite encontrar la pendiente de la curva en dos puntos (Sharma 2017).
Diferentes autores han empleado RNA en el campo de la educación. Gorr et al., (1994) desarrollaron un estudio comparativo de RNA y modelos estadísticos para predecir promedios de calificaciones. Moucary et al., (2011) desarrollaron un procedimiento híbrido basado en RNA y en la puesta en común de datos que permite predecir el promedio académico (GPA) estudiantil según su rendimiento. Bijayanya y Ragothaman (2004) emplearon RNA para predecir el éxito de los estudiantes de MBA y demostraron su buen funcionamiento. Herzog (2006) estimó el tiempo de retención y el tiempo de finalización de los estudiantes universitarios. Stevens et al., (1996), docentes del área de la medicina, identificaron estrategias expertas para la resolución de problemas de salud a partir de un banco de información de diagnósticos de pacientes haciendo uso de RNA.
METODOLOGÍA
Para la construcción de la RNA-MLP se empleó Google Colab, plataforma web de acceso gratuito que permite emplear cuadernos de Jupyter, combinar código ejecutable y texto, imágenes, HTML y LaTeX. Es compatible con librerías de Python para el análisis y visualización de datos como Pandas, Numpy, Matplotlib, Keras, Tensorflow, entre otras, los cuales se almacenan en una cuenta de Google Drive. Como se mencionó anteriormente, se empleó un conjunto de datos de 395 estudiantes colombianos (243 hombres, Edad Media = 17.39 años, Desviación Estándar (SD) = 1.24 años / 133 mujeres, Edad Media = 16.79 años, Desviación Estándar (SD) = 1.23 años) de décimo y undécimo grado de formación con información académica, demográfica, social e institucional de la Institución Educativa Villa del Socorro, Medellín, Colombia, la cual fue recogida mediante la aplicación de encuestas e informes institucionales durante el primer trimestre del año 2020, antes del inicio de la pandemia generada por el COVID-19 en Colombia. Toda la población estudiantil matriculada en esos dos grados fue considerada en el estudio (Censo), por lo cual no se realizó una selección del tamaño de la muestra. En total se analizaron 29 variables. Se empleó la función MLPRegressor, se identificaron los parámetros óptimos con GridSearchCV, se normalizaron los datos con la función MinMaxScaler, se utilizó una sola capa oculta con 9 neuronas, la función de activación logística, una tasa de aprendizaje adaptativa inicial de 0.01, un momentum 0.9 y 1000 iteraciones (Ver Figura 4). El 75% de los datos (n = 296) de la muestra fueron empleados para el entrenamiento y el 25% restante (n = 99) para la validación. La Tabla 1 presenta la descripción de las variables de la base de datos.
RESULTADOS Y DISCUSIÓN
En esta sección se presenta la información de los datos empleados y el análisis realizado sobre los mismos. La Tabla 2 presenta el resumen de los datos de la RNA, 296 estudiantes fueron asignados a la muestra de entrenamiento y 99 a la muestra de prueba. Todos los estudiantes (395) fueron incluidos en el análisis. La Tabla 3 presenta la información de cada una de las capas de la RNA.
La Tabla 4 presenta la información resumida sobre los resultados del entrenamiento y prueba, se presenta la suma del error cuadrático medio (ECM), este es el error que la RNA trata de minimizar durante el entrenamiento y la prueba. Sea Ŷ un vector de n predicciones y un vector de valores verdaderos, el ECM es definido como:
Mientras más se acerque a cero el valor del ECM menor es la cantidad de error entre los dos conjuntos de datos. El ECM de la muestra de prueba (51,678) es inferior al ECM de la muestra de entrenamiento (94,362). La Tabla 4 presenta la matriz de confusión de la muestra de entrenamiento (n=99). La respuesta esperada en cada caso es la categoría (Aprobado/Reprobado) con mayor probabilidad asignada por el modelo, el modelo clasificó correctamente el 73% de los casos. Adicionalmente, se entrenaron los modelos de clasificación; Naive Bayes, Regresión Logística, Support Vector Machine (SVM), K-Nearest Neigbors (KNN), Random Forests y Árboles de Decisión en Google Colab con la misma base de datos normalizada de los estudiantes. La Fig.5 presenta las librerías de Python empleadas para entrenar los modelos.
El objetivo de entrenar estos modelos fue realizar un comparativo de las métricas; Accuracy, Recall, Precision y F1-Score, con las obtenidas por la RNA. Es necesario aclarar que, el Accuracy mide cuántas observaciones positivas y negativas se clasificaron correctamente y es una métrica adecuada para comparar y seleccionar diferentes modelos de clasificación o regresión, siempre y cuando se tengan conjuntos de datos simétricos en los cuales los valores de falsos positivos (FP) y falsos negativos (FN) sean equivalentes. El Accuracy se calcula como la suma del número total de verdaderos positivos (TP) y el total de verdaderos negativos (TN) entre la suma del número total de verdaderos positivos (TP), falsos negativos (FN), verdaderos negativos (TN) y falsos positivos (FP). Recall es el número de verdaderos positivos (TP) dividido entre el número de verdaderos positivos (TP) y falsos negativos (FN) en los datos de prueba, la precisión es el número de verdaderos positivos (TP) dividido entre todas las predicciones positivas (TP y FP), una precisión alta se relaciona con una tasa baja de falsos positivos (FP). Por último, el F1-Score es la media armónica entre Precisión y Recall, esta métrica es especialmente útil si se tiene una distribución de clases desigual. A continuación, se presentan las ecuaciones de cada una de las métricas mencionadas anteriormente:
La Tabla 5 presenta un comparativo general de los resultados de las métricas analizadas, se puede observar que la RNA-MLP es el modelo que registra los mejores resultados. Considerando que la desviación estándar (σ²) de las métricas analizadas en cada uno de los modelos es cercana a cero, es decir, no se alejan entre sí, la Media (x̄) es la Medida de Tendencia Central (MTC) más adecuada para analizar hacían donde se tienden a concentrar los datos. Se puede apreciar que todas las métricas obtenidas por la RNA son superiores a la Media (x̄), lo que indica una vez más que es el modelo más adecuado para predecir el rendimiento académico de los estudiantes. La Tabla 6 presenta las tres primeras variables en orden de importancia según la clasificación de la RNA-MLP. El tiempo de estudio y las ausencias son los factores más significativos para predecir si un estudiante aprobará o reprobará, independientemente de su sexo, edad y demás variables consideradas en la base de datos. Se debe aclarar que, los resultados no muestran otros factores como significativos porque la población era muy homogénea en cuanto a otras variables que no resultaron significativas.
Diferentes investigaciones coinciden con los resultados de la RNA-MLP desarrollada. La asociación entre la calidad del sueño y el rendimiento académico en adolescentes está mediada por el tiempo de uso de redes sociales, reducir su uso puede ser una intervención factible para mejorar la calidad del sueño, lo que genera efectos potencialmente positivos sobre el rendimiento académico (Adelantado-Renau et al., 2019). Por otra parte, Plant et al., (2005), afirman que la cantidad de tiempo individual de estudio es un predictor potencial del éxito académico, a mayor cantidad de tiempo mejores calificaciones, sin dejar de lado la importancia de fortalecer las habilidades personales. Por su parte, Marta et al., (2020), identificaron factores biológicos y psicosociales relacionados con el rendimiento académico, incluidos los cambios hormonales en las mujeres, el síndrome de la fase de sueño tardía, la interacción con los compañeros en la vida académica y social, trabajos y actividades extracurriculares, emociones negativas, consumo de tabaco, alcohol y café, problemas familiares y uso desmedido de internet y dispositivos electrónicos. Xie et al., (2020), señalan que la motivación académica es un factor importante en el rendimiento académico de los estudiantes, identificaron una relación entre la motivación y el compromiso de los estudiantes en conductas de orientación académica, como estudiar, participar en discusiones en clase, trabajar con compañeros y realizar cursos más exigentes, estas actividades conducen directamente a un mayor aprendizaje, a un mayor rendimiento académico y a una mejor preparación para el éxito universitario. Finalmente, Begdache et al., (2019) señalan la importancia que tiene la salud mental sobre el rendimiento académico de los estudiantes; la angustia mental baja está asociada positivamente con buenos logros académicos y somnolencia diurna limitada, la angustia mental leve está relacionada con la negligencia académica y con un promedio de calificaciones bajo y la angustia mental severa está relacionada con somnolencia diurna excesiva y bajo rendimiento académico. Los estilos de vida de los estudiantes contribuyen a la salud mental de los mismos, los cuales se convierten en eventos potencialmente cíclicos que pueden afectar su rendimiento académico.
CONCLUSIONES
En esta investigación se entrenó una RNA para predecir el rendimiento académico estudiantil. La RNA clasificó adecuadamente el 73% de la muestra de prueba, lo que nos permite decir que la RNA es correcta para identificar qué estudiantes aprobarían o no. Esta información puede ayudar a los profesores a tomar medidas preventivas para evitar el fracaso escolar de los estudiantes, también puede ayudarles a emplear estrategias personalizadas a los estudiantes que tienen problemas económicos, familiares o de otro tipo y remitirlos a las unidades de permanencia académica o afines. El tiempo de estudio, las ausencias y el tiempo de uso de redes sociales son los factores más importantes para determinar la probabilidad de que un estudiante apruebe o no un curso. La clasificación de los estudiantes según sus condiciones familiares, sociales y económicas puede ayudar a identificar a los posibles estudiantes que tendrán un rendimiento académico inferior al esperado, ya sea por malos hábitos de estudio, problemas económicos en el hogar, malas relaciones con los miembros de la familia o con personas cercanas a ellos.