Predictive Model for the classification of university students at risk of academic loss
Contenido principal de artículos
Resumen
Para las instituciones de educación superior, predecir el riesgo de pérdida académica es un tema prioritario debido a los recursos invertidos por las instituciones, los estudiantes y la comunidad académica en general. Objetivo: el objetivo de esta investigación fue proponer un modelo adecuado que permita predecir a los estudiantes que están en riesgo de pérdida académica en un curso de química. Metodología: la investigación cuasi-experimental, predictiva y longitudinal se desarrolló con los datos de 103 estudiantes de cuatro universidades colombianas. Para construir el modelo se implementó una comparación de cinco algoritmos. Los datos se procesaron con Jupyter-Python. Resultados: el modelo de regresión logística (LR) se construyó con base en los resultados de los estudiantes en la prueba Saber 11 (examen nacional colombiano de admisión a la univer-sidad), en el que la penalización de falsos positivos con pesos diferentes a los falsos negativos mejoró el rendimiento del modelo. Conclusiones: se concluye que LR es sustancialmente mejor que un enfoque codicioso o de adivinanzas, además, se demostró que funciona mejor que un modelo de red neuronal.
Descargas
Detalles de artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Aquellos autores/as que tengan publicaciones con esta revista, aceptan los términos siguientes:
- Los autores/as conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Licencia de reconocimiento de Creative Commons que permite a terceros compartir la obra siempre que se indique su autor y su primera publicación esta revista.
- Los autores/as podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un archivo telemático institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
- Se permite y recomienda a los autores/as difundir su obra a través de Internet (p. ej.: en archivos telemáticos institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto).
Este obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.
Citas
- Alhadabi, A., & Karpinski, A.C. (2020). Grit, self-efficacy, achievement orientation goals, and academic performance in university students. International Journal of Adolescence and Youth, 25(1), 519-535. https://doi.org/10.1080/02673843.2019.1679202
- Ashraf, S., Saleem, S., Ahmed, T., Aslam, Z. and Muhammad, D. (2020). Conversion of adverse data corpus to shrewd output using sampling metrics. Visual Computing for Industry, Biomedicine and Art, 3(1), 1-13. https://doi.org/10.1186/s42492-020-00055-9
- Ávila, L. K., Ospino, E., & Páez, A. J. (2021). Análisis de resultados de las pruebas saber 11 implementando técnicas de minería de datos [Analysis of Saber 11 test results by implementing data mining techniques]. Universidad del Norte. http://hdl.handle.net/10584/9877
- Bai, R., Zhang, C., Wang, L., Yao, C., Ge, J., & Duan, H. (2020). Transfer Learning: Making Retrosynthetic Predictions Based on a Small Chemical Reaction Dataset Scale to a New Level. Molecules, 25(10), 2357. https://doi.org/10.3390/molecules25102357
- Beaulac, C., & Rosenthal, J. S. (2019). Predicting University Students’ Academic Success and Major Using Random Forests. Research in Higher Education, 60, 1048–1064. https://doi.org/10.1007/s11162-019-09546-y
- Burman, I., & Som, S. (2019). Predicting students academic performance using support vector machine. Amity international conference on artificial intelligence (AICAI): 756-759.IEEE. https://doi.org/10.1109/AICAI.2019.8701260
- Cheema, J. R. (2014). The Migrant Effect: An Evaluation of Native Academic Performance in Qatar. Research in Education, 91(1), 65-77. https://doi.org/10.7227/RIE.91.1.6
- Coussement, K., Phan, M., De Caigny, A., Benoit, D., & Raes, A. (2020). Predicting student dropout in subscription-based online learning environments: The beneficial impact of the logit leaf model. Decision Support Systems, 135, 1-13. https://doi.org/10.1016/j.dss.2020.113325
- Deri, M., Mills, P., & McGregor, D. (2018). Structure and Evaluation of a Flipped General Chemistry Course as a Model for Small and Large Gateway Science Courses at an Urban Public Institution. Journal of College Science Teaching, 47(3), 68–77. https://doi.org/10.2505/4/jcst18_047_03_68
- Ene, E., & Ackerson, B. (2018) Assessing learning in small sized physics courses. Physical Review Physics Education Research, 14(010102), 1-21. https://doi.org/10.1103/PhysRevPhysEducRes.14.010102
- Fay, R., & Negangard, E. (2017). Educational Case. Manual journal entry testing: Data analytics and the risk of fraud. Journal of Accounting Education, 38, 37-49. https://doi.org/10.1016/j.jaccedu.2016.12.004
- Gamboa, M. (2014). La evaluación externa en el área de Ciencias a través de las pruebas masivas a gran escala TIMMS y PISA. Análisis del desempeño de los estudiantes colombianos y españoles. Universidad Distrital Francisco José de Caldas y Universidad Nacional Abierta y a Distancia. https://repository.unad.edu.co/bitstream/handle/10596/2792/9789588832692.pdf?sequence=4&isAllowed=y
- Gamboa, M., Ahumada, V., Vera-Monroy, S., Mejía-Camacho, A., & Romero, J. C. (2020). Estudio de las variables asociables al rendimiento académico en la asignatura de Química en cuatro universidades colombianas. Universidad Nacional Abierta y a Distancia. https://doi.org/10.22490/9789586517454
- Gazdula, J., & Farr, R. (2020). Teaching Risk and Probability: Building the Monopoly Board Game In to a Probability Simulator. Management Teaching Review, 5(2), 133-143. https://doi.org/10.1177/2379298119845090
- Gill, H. S., Khehra, B. S., Singh, A., & Kaur, L. (2019). Teaching-learning-based optimization algorithm to minimize cross entropy for Selecting multilevel threshold values. Egyptian Informatics Journal, 20(1), 11-25. https://doi.org/10.1016/j.eij.2018.03.006
- Gladshiya, V., & Sharmila, K. (2021). A HML-EVC Model for Analyzing the Risk of the Students to Predict the Success Probability in the Field of Education. In: 10th International Conference on System Modeling & Advancement in Research Trends (SMART), 341-344. https://doi.org/10.1109/SMART52563.2021.9676327
- Goyal, M., & Vohra, R. (2012). Applications of Data Mining in Higher Education. International Journal of Computer Science Issues, 9(2). https//10.17148/IJARCCE.2020.9124
- Hall, K., & Marchan, P. (2000). Predictors of the Academic Performance of Teacher Education Students. Research in Education, 63(1), 89-99. https://doi.org/10.7227/RIE.63.9
- Harada, T., (2020). Learning from success or failure?–Positivity biases revisited. Frontiers in Psychology, 11, 1627. https://doi.org/10.3389/fpsyg.2020.01627
- He, X., Zhao, K., & Chu, X. (2021). AutoML: A survey of the state-of-the-art. Knowledge-Based Systems, 212, 1-27. https://doi.org/10.1016/j.knosys.2020.106622
- Heredia, J. J., Rodríguez, A. G., & Vilalta, J. A. (2014). Predicción del rendimiento en una asignatura empleando la regresión logística ordinal [Predicting Performance in a Subject Using Ordinal Logistic Regression]. Estudios Pedagógicos, XL(1), 145-162. http://dx.doi.org/10.4067/S0718-07052014000100009
- Instituto Colombiano para Evaluación de la Educación – ICFES. (2018). Guía de orientación Saber 11. 2019-1 [Colombian Institute for Educational Evaluation - ICFES. (2018). Orientation Guide, Saber-11 Test. 2019-1. ICFES publishing]. ICFES https://www.icfes.gov.co/documents/20143/193560/Guia+de+orientacion+saber+11+de+2019.pdf/13d64150-fa02-9062-8bb8-dcee660607c5
- Joshi, A. V. (2020). Decision Trees. In: Machine Learning and Artificial Intelligence. Springer, Cham. 53-63. https://doi.org/10.1007/978-3-030-26622-6_6
- Junca, J. A. (2019). Desempeño académico en las Pruebas Saber 11 [Academic performance in the Saber 11 tests]. Panorama Económico, 27(1), 8-38. https://doi.org/10.19053/01211129.v30.n58.2021.13823
- Lau, E. T., Sun, L., & Yang, Q. (2019). Modeling, prediction and classification of student academic performance using artificial neural networks. SN Applied Sciences, 1(9), 1-10. https://doi.org/10.1007/s42452-019-0884-7
- Lee, S., & Chung, J. Y. (2019). The Machine Learning-Based Dropout Early Warning System for Improving the Performance of Dropout Prediction. Applied Sciences, 9(15), 3093. https://doi.org/10.3390/app9153093
- Miguéis, V. L., Freitas, A., García, P., & Silva, A. (2018). Early segmentation of students according to their academic performance: A predictive modelling approach. Decision Support Systems, 115, 36-51. https://doi.org/10.1016/j.dss.2018.09.001
- Ministerio de Educación Nacional (MEN). (2004). Estándares básicos de competencias en Ciencias Naturales y Sociales. Formar en ciencias: ¡El desafío! Lo que necesitamos saber y saber hacer [Basic standards of competencies in Natural and Social Sciences. Science Education, the challenge! What we need to know and know how to do]. MEN. https://www.mineducacion.gov.co/1759/articles-81033_archivo_pdf.pdf
- Mohr, F., Wever, M., Tornede, A., & Hüllermeier, E. (2021). "Predicting Machine Learning Pipeline Runtimes in the Context of Automated Machine Learning," in IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(9), 3055-3066. https://doi.org/10.1109/TPAMI.2021.3056950
- Mohr, F., Wever, M. (2023). Naive automated machine learning. Machine Learning, 112(4), 1131-1170. https://doi.org/10.1007/s10994-022-06200-0
- Ndirika, M. C. and Njoku, U. J. (2012). Home Influences on the Academic Performance of Agricultural Science Students in Ikwuano Local Government Area of Abia State, Nigeria. Research in Education, 88(1), 75-84. https://doi.org/10.7227/RIE.88.1.7
- Niu, L. (2020). A review of the application of logistic regression in educational research: common issues, implications, and suggestions, Educational Review, 72(1), 41-67. https://doi.org/10.1080/00131911.2018.1483892
- Olaleye, T., & Vincent, O. (2020). A Predictive Model for Students Performance and Risk Level Indicators Using Machine Learning. In: 2020 International Conference in Mathematics, Computer Engineering and Computer Science (ICMCECS 2020), 1-7. https://doi.org/10.1109/ICMCECS47690.2020.240897
- Park, E., & Dooris, J. (2020). Predicting student evaluations of teaching using decision tree analysis. Assessment & Evaluation in Higher Education, 45(5), 776-793. https://doi.org/10.1080/02602938.2019.1697798
- Peña, Y., & González, J.J.F. (2022). Modelo de predicción de los resultados de la prueba ICFES Saber 11 en el área de matemáticas a partir de variables socioeconómicas [Prediction model of the results of the ICFES Saber 11 test in the area of mathematics based on socio-economic variables. Studies in Engineering and Exact] Sciences, Curitiba, 3(1), 31-37. https://doi.org/10.54021/seesv3n1-006
- Planinic, M., Boone, W., Susac, A., & Ivanjek, L. (2019). Rasch analysis in physics education research: Why measurement matters. Physical Review Physics Education Research, 15(020111), 1-14. https://doi.org/10.1103/PhysRevPhysEducRes.15.020111
- Ramos, D., Pedroso, J., Lozano, A., & González, J. (2018). Deconstructing Cross-Entropy for Probabilistic Binary Classifiers. Entropy, 20, 208. https://doi.org/10.3390/e20030208
- Robinson, K., Perez, T., Carmel, J., & Linnenbrink, L. (2019). Science identity development trajectories in a gateway college chemistry course: Predictors and relations to achievement and STEM pursuit. Contemporary Educational Psychology, 56, 180-192. https://doi.org/10.1016/j.cedpsych.2019.01.004
- Rodríguez, F. J., Benavides, H., & Riascos, A.J. (2018). Predicción del desempeño académico usando técnicas de aprendizaje de máquinas [Prediction of academic performance using machine learning techniques]. Universidad de los Andes. ICFES.
- Salmerón-Pérez, H., Gutierrez-Braojos, C., Fernández-Cano, A., & Salmeron-Vilchez, P. (2010). Self-regulated learning, self-efficacy beliefs and performance during the late childhood. RELIEVE, 16(2), 1-18. https://doi.org/10.7203/relieve.16.2.4136
- Selwyn, N., Pangrazio, L., & Cumbo, B. (2021). Attending to data: Exploring the use of attendance data within the datafied school. Research in Education, 109(1), 72–89. https://doi.org/10.1177/0034523720984200
- Son, L. H., & Fujita, H. (2019). Neural-fuzzy with representative sets for prediction of student performance. Applied Intelligence, 49, 172–187. https://doi.org/10.1007/s10489-018-1262-7
- Soo, J., Lok, V., Bong, K., Wha, Y., & Ook, B. (2021). Quantitative risk-based inspection approach for high-energy piping using a probability distribution function and modification factor. International Journal of Pressure Vessels and Piping, 189, 1-14. https://doi.org/10.1016/j.ijpvp.2020.104281
- Suárez-Montes, N., & Díaz-Subieta, L. B. (2015). Estrés académico, deserción y estrategias de retención de estudiantes en la educación superior [Academic stress, desertion, and retention strategies for students in higher education]. Revista de Salud Pública, 17(2), 300–313. https://doi.org/10.15446/rsap.v17n2.52891
- Tai-Chui, K., Chun, D., Lytras, M., & Miu-Lam, T. (2020). Predicting at-risk university students in a virtual learning environment via a machine learning algorithm. Computers in Human Behavior, 107. https://doi.org/10.1016/j.chb.2018.06.032
- Tsiakmaki, M., Kostopoulos, G., & Kotsiantis, S. (2021). Fuzzy-based active learning for predicting student academic performance using autoML: a step-wise approach. Journal of Computing in Higher Education, 33, 635–667. https://doi.org/10.1007/s12528-021-09279-x
- Tsiakmaki, M., Kostopoulos, G., Kotsiantis, S., & Ragos, O. (2020). Transfer Learning from Deep Neural Networks for Predicting Student Performance. Applied Sciences, 10(6), 2145. https://doi.org/10.3390/app10062145
- Vargas, V., & Ardila, L. F. (2019). Predicción del desempeño en las pruebas Saber 11 utilizando variables del contexto socio-económico de los aplicantes mediante un análisis estadístico con técnicas de machine learning [Performance prediction on Saber 11 Tests using socio-economic variables of the applicants through a statistical analysis with machine learning techniques]. Universidad Nacional de Colombia.
- Vargas, V., Gutiérrez, P., & Hervás, C. (2022). Unimodal regularisation based on beta distribution for deep ordinal regression. Pattern Recognition, 122. https://doi.org/10.1016/j.patcog.2021.108310
- Waheed, R., Sarwar, S., Sarwar, S., & Khan, M. K. (2020). The impact of COVID-19 on Karachi stock exchange: Quantile-on-quantile approach using secondary and predicted data. Journal of Public Affairs, 20(4), e2290. https://doi.org/10.1002/pa.2290
- Wang, Y., Pan, Z., Yuan, X., Yang, C., & Gui, W. (2020). A novel deep learning based fault diagnosis approach for chemical process with extended deep belief network. ISA Transactions, 96, 457-467. https://doi.org/10.1016/j.isatra.2019.07.001
- Yang, S., Lu, O., Huang, A., Huang, J., Ogata, H., & Lin, A. (2018). Predicting Students' Academic Performance Using Multiple Linear Regression and Principal Component Analysis. Journal of Information Processing, 26, 170–176. https://doi.org/10.2197/ipsjjip.26.170
- Zois, E., Alexandridis, A., & Economou, G. (2019). Writer independent offline signature verification based on asymmetric pixel relations and unrelated training-testing datasets. Expert Systems with Applications, 125, 14-32. https://doi.org/10.1016/j.eswa.2019.01.058