Estudios e Investigaciones

Asistentes ChatGPT en educación superior en línea y satisfacción del alumnado: un caso de estudio

ChatGPT assistants in online higher education and student satisfaction: a case study

Miguel-Ángel Cabeza-Rodríguez
Universidad Francisco de Vitoria, UFV, España

Asistentes ChatGPT en educación superior en línea y satisfacción del alumnado: un caso de estudio

RIED-Revista Iberoamericana de Educación a Distancia, vol. 28, núm. 2, pp. 9-38, 2025

Asociación Iberoamericana de Educación Superior a Distancia

Cómo citar: Cabeza-Rodríguez, M.-Á. (2025). ChatGPT assistants in online higher education and student satisfaction: a case study [Asistentes ChatGPT en educación superior en línea y satisfacción del alumnado: un caso de estudio]. RIED-Revista Iberoamericana de Educación a Distancia, 28(2), 9-38. https://doi.org/10.5944/ried.28.2.43552

Resumen: En este estudio se han analizado la percepción y satisfacción de los estudiantes sobre un asistente virtual basado en OpenAI ChatGPT 3.5, integrado en 21 asignaturas diferentes del campus virtual de una universidad en línea. Utilizando un enfoque metodológico mixto se recopiló información sobre una muestra de 391 estudiantes mediante el cuestionario validado COMUNICA, que incluyó cuatro constructos: eficiencia del asistente virtual, impacto en el aprendizaje, desarrollo de habilidades, y aspectos técnicos y de accesibilidad. El análisis incluyó estadística descriptiva, pruebas estadísticas inferenciales, análisis factorial exploratorio (AFE) y confirmatorio (AFC), complementado con un análisis cualitativo de comentarios del alumnado y docentes. Los resultados cuantitativos destacan que el género femenino valora más la eficacia del asistente que el masculino. El AFC confirmó que los factores se pueden agrupar bajo una única variable latente: la satisfacción del alumnado. Además, la eficiencia del asistente virtual resultó ser el factor más significativo en la percepción de satisfacción del alumnado, seguido por el impacto en el aprendizaje, desarrollo de habilidades y aspectos técnicos. El análisis cualitativo reveló percepciones mayoritariamente positivas, resaltando la utilidad del asistente en el aprendizaje, un interés en extender su uso a otras asignaturas y sugerencias de mejora en la precisión de las respuestas y la funcionalidad. Se concluye que los asistentes virtuales tienen un impacto positivo en la educación superior, optimizando el aprendizaje autónomo y la interacción educativa, aunque persisten desafíos técnicos y de diseño que limitan su potencial completo.

Palabras clave: inteligencia artificial, chatbot, ChatGPT, educación superior, enseñanza en línea, tecnología.

Abstract: The perception and satisfaction of students about a virtual assistant based on OpenAI ChatGPT 3.5, integrated in 21 different subjects of the virtual campus of an online university, have been analyzed in this study. Using a mixed methodological approach, information was collected on a sample of 391 students using the validated COMUNICA questionnaire, which included four constructs: Virtual Assistant Efficiency, Learning Impact, Skill Development, and Technical and Accessibility Aspects. The analysis included descriptive statistics, inferential statistical tests, Exploratory Factor Analysis (EFA) and Confirmatory Factor Analysis (CFA), complemented by a qualitative analysis of student and teacher comments. The quantitative results highlight that the female gender values the effectiveness of the assistant more than the male gender. The CFA confirmed that the factors can be grouped under a single latent variable: student satisfaction. In addition, the efficiency of the virtual assistant was found to be the most significant factor in the perception of student satisfaction, followed by the impact on learning, skill development and technical aspects. The qualitative analysis revealed mostly positive perceptions, highlighting the usefulness of the assistant in learning, an interest in extending its use to other subjects and suggestions for improvement in the accuracy of answers and functionality. It is concluded that virtual assistants have a positive impact on higher education, optimizing autonomous learning and educational interaction, although technical and design challenges persist that limit their full potential.

Keywords: artificial intelligence, chatbot, ChatGPT, higher education, online teaching, technology.

INTRODUCCIÓN

Contexto general

En los últimos años la educación en línea ha experimentado un crecimiento significativo, impulsada por avances tecnológicos y la creciente demanda de modalidades de aprendizaje flexibles y accesibles (Pokhrel y Chhetri, 2021). La pandemia de COVID-19 aceleró la adopción de tecnologías digitales en la educación, destacando la necesidad de soluciones innovadoras para mantener la calidad y continuidad del aprendizaje a distancia mediante la movilidad virtual (Ruiz-Corbella y García-Aretio, 2023).

Los chatbots son agentes conversacionales, o “asistentes virtuales”, creados mediante programas informáticos que utilizan inteligencia artificial para simular conversaciones humanas; estos han emergido como herramientas prometedoras en el contexto educativo (Labadze et al., 2023). La capacidad de estos asistentes virtuales para brindar asistencia inmediata y personalizada los convierte en herramientas valiosas para mejorar la experiencia educativa en línea.

En este escenario, en el que existe una clara relación entre el aprendizaje autorregulado y el rendimiento académico (Cheng et al., 2023), los asistentes virtuales han sido utilizados para atender consultas frecuentes, ofrecer soporte técnico y proporcionar orientación académica básica, lo que contribuye a aliviar la carga de trabajo del personal docente y administrativo (Dwivedi et al., 2021; Thottoli et al., 2024).

Estado del arte

La aplicación de la inteligencia artificial en educación ha sido ampliamente analizada ( Chen, Chen y Lin, 2020), así como más específicamente en educación superior (Wang et al., 2023). La implementación de estos asistentes virtuales en la educación superior ha generado interés y debate académico (Hwang y Chang, 2023; Pérez et al., 2020; Peters et al., 2024) debido a su potencial para mejorar la interacción entre estudiantes y sus instituciones educativas. Estas herramientas pueden ofrecer soporte en tiempo real, responder preguntas frecuentes, proporcionar recursos de aprendizaje personalizados y facilitar la comunicación, especialmente en cursos en línea donde la interacción humana puede ser limitada (Okonkwo y Ade-Ibijola, 2021).

La implementación de asistentes virtuales en entornos educativos ha demostrado múltiples beneficios según la bibliografía académica reciente (Kuhail et al., 2023; Pérez et al., 2020). En cuanto al acceso y disponibilidad, los asistentes virtuales proporcionan apoyo educativo sin limitaciones de horario, permitiendo a los estudiantes acceder a recursos y asistencia en cualquier momento. Esto resulta particularmente valioso para estudiantes con horarios no convencionales, o en diferente zona horaria con respecto al docente (Winkler y Soellner, 2018).

La personalización del aprendizaje es otro aspecto que ha sido analizado (Pérez-Marín, 2021). Los asistentes virtuales pueden adaptar su interacción según el nivel de conocimiento y ritmo de aprendizaje de cada estudiante, con resultados que indican mejoras significativas en la retención de información cuando se emplea un enfoque personalizado. Permiten además una mayor eficiencia en la gestión docente, al reducir la carga laboral de los profesores, permitiéndoles enfocarse en tareas pedagógicas más complejas (Chen, Xie et al., 2020; Onal y Kulavuz-Onal, 2024).

Los asistentes virtuales educativos presentan una serie de desafíos en su implementación, que abarcan desde los aspectos técnicos hasta los pedagógicos y éticos (Hwang y Chang, 2023). Entre los desafíos técnicos se encuentra una funcionalidad técnica limitada para manejar variaciones en las preguntas, y la necesidad de entrenamiento continuo para mejorar su rendimiento (Okonkwo y Ade-Ibijola, 2021).

Otra dificultad técnica es la de imitar el lenguaje humano de manera auténtica y natural. Los asistentes virtuales deben ser capaces de construir conversaciones coherentes basadas en mensajes previos, lo cual es complejo; sin embargo, desde el lanzamiento de OpenAI ChatGPT (Adiguzel et al., 2023), se ha producido no solo un salto cualitativo, sino también cuantitativo en cuanto a la comercialización y popularización de los modelos de lenguaje extenso (Large Language Models, LLMs) (Han et al., 2021; Tamkin et al., 2021) que forman parte del aprendizaje profundo (deep learning) en redes neuronales (Perrotta y Selwyn, 2020), y este a su vez en el campo del aprendizaje automático (machine learning) que pertenece a la inteligencia artificial.

La efectividad de los asistentes virtuales en entornos educativos (Al-Emran et al., 2024) depende de varios factores clave: La eficiencia del asistente virtual, su impacto real en el proceso de aprendizaje, su contribución al desarrollo de habilidades específicas y los desafíos técnicos y de accesibilidad que presentan son determinantes en la satisfacción del alumnado. Comprender cómo estos factores influyen en la experiencia educativa es crucial para optimizar el diseño e implementación de estas herramientas en la educación en línea.

Objetivo

Este estudio tiene por objetivo analizar la satisfacción de los estudiantes de una universidad en línea con un asistente virtual implementado en el campus mediante una interfaz a OpenAI ChatGPT (Adiguzel et al., 2023; Tlili et al., 2023) en 21 aulas virtuales diferentes en 13 estudios universitarios diferentes. Se eligió ChatGPT por ser considerado el LLM con mayor facilidad para desarrollar la integración en el campus virtual y por su reconocimiento y aceptación por el público en general (Zhao et al., 2023).

A través de un cuestionario validado y confiable, y un análisis estadístico inferencial, se busca encontrar diferencias por género, grupo de edad o centro académico con relación a los cuatro constructos estudiados: eficiencia del asistente virtual, impacto en el aprendizaje, desarrollo de habilidades y aspectos técnicos y de accesibilidad.

También se busca explorar las relaciones de estos constructos con la satisfacción del alumnado mediante la confirmación de un modelo factorial propuesto.

Adicionalmente, se pretende analizar cualitativamente los comentarios proporcionados por el alumnado.

METODOLOGÍA

Fuente

La presente investigación utiliza una metodología mixta (mayoritariamente cuantitativa) no experimental, transversal, descriptiva e inferencial. La muestra de estudiantes (n=391) empleada en este estudio fue obtenida mediante un muestreo no probabilístico por conveniencia, facilitado por la colaboración de 21 docentes de 5 centros académicos de una universidad española en línea que dio acceso a una población de N=3.419 estudiantes. Un primer docente facilitó el acceso a su alumnado como piloto en un primer Proyecto de Innovación Docente Aplicada (PIDA) para, mediante un cuestionario estructurado, obtener información sobre el uso de un asistente virtual con inteligencia artificial integrado en el campus en línea de su asignatura. Este primer PIDA se titulaba “Primus: primer asistente virtual de IA en el grupo PROEDUCA”.

Tras el piloto, se contactó con los coordinadores académicos de todos los estudios universitarios para que distribuyesen en sus claustros una solicitud de colaboración en un PIDA titulado “Evaluación del impacto de un asistente virtual de inteligencia artificial en la experiencia de aprendizaje de estudiantes universitarios en un entorno educativo en línea". De los docentes que respondieron, se seleccionaron los 20 con mayor número de alumnado, quienes proporcionaron acceso directo a su aula y sus estudiantes.

En cuanto a la metodología pedagógica y los medios utilizados, además de la implantación del asistente virtual en el campus, no se realizó ninguna gestión, control o coordinación adicional en las diferentes aulas, manteniendo cada docente su libertad de cátedra.

Instrumento

Cuestionario para el alumnado

Como instrumento de investigación para recabar información del alumnado se diseñó el cuestionario estructurado COMUNICA (Cuestionario de Opinión sobre el Manejo y Uso de Nuevas Interfaces Conversacionales Asistidas). Este instrumento, tal como se muestra en la Tabla 1, consta de cuatro ítems (Hair et al., 2019) por cada uno de sus cuatro constructos: eficiencia del asistente virtual, impacto en el aprendizaje, desarrollo de habilidades, y aspectos técnicos y de accesibilidad. Cada ítem incluye una escala Likert de 5 valores, siendo 1 equivalente a totalmente en desacuerdo y 5 a totalmente de acuerdo. Todos los ítems están formulados en afirmativo (Haladyna et al., 2002) pero, para evitar sesgos, se incluyeron la mitad de los ítems (los que tienen numeración 3 y 4) con un sentido opuesto al constructo, por lo que estos ítems requieren inversión de escala. Al final del cuestionario se incluyó un campo opcional de comentarios. El instrumento recibió una positiva evaluación de idoneidad por el Comité de Ética de Investigación de la Universidad en línea, con referencia UNIR CEI101/2023.

Tabla 1
Ítems y constructos del cuestionario COMUNICA

Constructo Identificador ítem Ítem
Eficiencia del Asistente Virtual E1 El asistente virtual de IA me ayudó a comprender mejor los conceptos de la asignatura.
E2 El asistente virtual de IA proporcionó información y ejemplos que eran relevantes y aplicables a los temas de la asignatura.
E3 Las respuestas proporcionadas por el asistente virtual de IA fueron difíciles de comprender.
E4 El asistente virtual de IA proporcionó respuestas imprecisas o no relevantes a mis consultas relacionadas con la asignatura.
Impacto en el Aprendizaje IM1 El asistente virtual de IA me animó a explorar y aprender de manera autónoma más allá de los contenidos de la asignatura.
IM2 Utilizar el asistente virtual de IA contribuyó a que comprendiera mejor los conceptos de la asignatura.
IM3 El asistente virtual de IA falló en aclarar mis dudas y preguntas relacionadas con la asignatura.
IM4 El asistente virtual de IA me complicó la comprensión de conceptos de la asignatura.
Desarrollo de Habilidades D1 El uso del asistente virtual de IA me impulsó a desarrollar y aplicar el pensamiento crítico sobre los temas de la asignatura.
D2 Utilizar el asistente virtual de IA me ayudó a mejorar mis habilidades de investigación y búsqueda de información.
D3 Interactuar con el asistente virtual de IA dificultó el desarrollo de mi habilidad para resolver problemas relacionados con la asignatura.
D4 El asistente virtual de IA me dificultó la aplicación práctica de los conocimientos adquiridos en la asignatura.
Aspectos Técnicos y de Accesibilidad A1 Acceder al asistente virtual de IA a través del campus fue sencillo y agradable.
A2* Cuando surgieron problemas técnicos con el asistente virtual de IA, se resolvieron rápidamente.
A3 La interfaz del asistente virtual de IA era compleja y difícil de usar.
A4 Encontré problemas técnicos en el uso del asistente virtual de IA.
Fuente: elaboración propia. Nota: *: El ítem A2 fue finalmente eliminado por criterio de optimización de confiabilidad.

Dentro del primer PIDA el instrumento fue validado por 6 expertos, y posteriormente se realizó un piloto con 66 alumnos de la asignatura Física I del Grado en Física de la Universidad en primer cuatrimestre del curso 2023/2024, en el que el único investigador de ese primer PIDA era también docente. En el cuestionario de este piloto se obtuvo respuesta de 17 estudiantes.

Al comienzo del segundo cuatrimestre de ese mismo curso, se desarrolló el segundo PIDA, en el que su investigador principal contó con la colaboración de 20 docentes de 5 de los 6 centros de la Universidad (ver Tabla 2): la Facultad de Ciencias de la Salud, la Facultad de Derecho, la Facultad de Empresa y Comunicación, la Facultad de Educación y la Escuela Superior de Ingeniería y Tecnología. El único centro académico no presente fue la Facultad de Ciencias Sociales y Humanidades, de la que no surgieron docentes con un número suficiente de alumnado para ser seleccionados en el PIDA. En el cuestionario de este segundo PIDA se obtuvo respuesta de un total de 374 estudiantes.

Tabla 2
Centros académicos, estudios y asignaturas involucradas en la investigación del segundo PIDA

Nº Docente Centro académico Estudio universitario Curso Asignatura
1 Facultad de Educación Grado en Maestro en Educación Primaria Conocimiento de las Ciencias Sociales en Educación Primaria
2 Facultad de Educación Grado en Maestro en Educación Primaria Conocimiento de las Ciencias Sociales en Educación Primaria
3 Facultad de Educación Grado en Maestro en Educación Primaria Didáctica de la Educación Física en Educación Primaria
4 Facultad de Educación Grado en Magisterio de Educación Infantil Educación musical y su didáctica
5 Facultad de Educación Grado en Maestro en Educación Primaria Morphosyntax and Semantics of the English Language
6 Facultad de Educación Grado en Maestro en Educación Primaria Educación Musical y su Didáctica
7 Facultad de Educación Grado en Maestro en Educación Primaria Didáctica de las Matemáticas en Educación Primaria
8 Facultad de Educación Grado en Maestro en Educación Primaria Tecnologías de la Información Aplicadas a la Educación II
9 Facultad de Educación Grado en Magisterio de Educación Infantil Tecnologías de la Información Aplicadas a la Educación I
10 Facultad de Educación Grado en Magisterio de Educación Infantil Educación y Convivencia Dentro y Fuera del Aula
11 Facultad de Educación Máster en formación del Profesorado de ESO, Bachillerato y FP Aprendizaje y desarrollo de la personalidad del adolescente
12 Facultad de Educación Máster en formación del Profesorado de ESO, Bachillerato y FP Aprendizaje y desarrollo de la personalidad del adolescente
13 Facultad de Empresa y Comunicación Grado en Finanzas y Contabilidad Microeconomía
14 Facultad de Empresa y Comunicación Grado en Administración y Dirección de Empresas Comunicación personal y organizacional
15 Facultad de Empresa y Comunicación Máster en Marketing Digital Mobile Marketing
16 Escuela Superior de Ingeniería y Tecnología Máster en Energías Renovables Energía Hidráulica y Geotérmica
17 Escuela Superior de Ingeniería y Tecnología Máster en Energías Renovables Energía del Mar
18 Facultad de Derecho Grado en Derecho Fundamentos de Derecho Público
19 Facultad de Derecho Máster de acceso a la abogacía y la procura Práctica procesal contencioso administrativa
20 Facultad de Ciencias de la Salud Máster en Neuropsicología Clínica Rehabilitación Neuropsicológica
Fuente: elaboración propia.

Los 20 docentes del segundo PIDA recibieron una formación del investigador principal sobre el asistente virtual, quien además se responsabilizó de la configuración del asistente en cada asignatura. Estos docentes explicaron el PIDA a su alumnado, informando sobre las limitaciones del asistente, incluyendo la posibilidad de sesgos y errores, y se les alentó a usar su juicio crítico y a buscar confirmación con el docente, o fuentes adicionales, cuando lo considerasen necesario. Al término de su docencia, facilitaron a su alumnado el cuestionario diseñado por el investigador principal, recogiéndose una muestra total de 374 respuestas en el segundo PIDA, que sumadas a las 17 del primer PIDA constituyeron 391 respuestas totales.

Los datos recabados del cuestionario se estudiaron mediante estadística descriptiva. Tras comprobar la consistencia interna de cada constructo (Cronbach, 1951), se analizó mediante estadística inferencial las posibles diferencias debidas al género, los grupos de edad, y los diferentes centros académicos en cada uno de los cuatro constructos.

Tras verificar la adecuación del muestreo para el análisis factorial, se realizó un análisis factorial exploratorio (AFE) como un paso previo y clave para identificar las estructuras subyacentes, ya que permite detectar variables latentes que reflejen constructos teóricos relevantes al tema de estudio (Hair et al., 2019). Este enfoque exploratorio fue necesario debido a la ausencia inicial de una hipótesis inicial clara sobre la estructura factorial, lo que requería una exploración de los datos antes de pretender validar un modelo teórico propuesto. La herramienta empleada para desarrollar el análisis estadístico descriptivo, el inferencial y el AFE fue IBM SPSS 29.0.2.

Los resultados del AFE se emplearon para determinar el número de dimensiones, lo que proporcionó una base sólida para el posterior análisis factorial confirmatorio (AFC) (Brown, 2015; Kline, 2023). La herramienta empleada para el desarrollo del AFC fue e1 lenguaje de programación R 4.4.2 con la biblioteca lavaan 0.6-19 (Rosseel, 2012).

Con el fin de minimizar el impacto de la falta de normalidad en los datos (Curran et al., 2003) se empleó en el AFC una estimación asintótica libre de distribución (Asymptotic Distribution-Free, ADF) con un bootstraping de 5000 remuestreos (Yung y Bentler, 1994). Este estimador también es conocido como Weighted Least Squares (WLS) en algunas herramientas, como la biblioteca lavaan de lenguaje R.

Los cuatro índices de bondad de ajuste empleados en el AFC y sus respectivos valores de corte fueron: el índice de Tucker-Lewis TLI>0,95 (Hu y Bentler, 1999), el Standardized Root Mean Square Residual SRMR <,1 (Kline, 2023), el Comparative Fit Index CFI>,95 (Hu y Bentler, 1999), y el Root Mean Square Error of Approximation RMSEA<,05 (Browne y Cudeck, 1992).

Finalmente, se analizaron las respuestas al campo opcional de comentarios disponible al final del cuestionario, con el fin de estudiar de una forma cualitativa la opinión del alumnado. En un primer lugar, se evaluó el sentimiento general de los comentarios con técnicas de análisis de sentimientos de aprendizaje automático (Nandwani y Verma, 2021) mediante el lenguaje de programación R 4.4.2 y la biblioteca SentimentAnalysis.

En segundo lugar, para capturar de forma contextualizada la complejidad de las percepciones, desde aspectos técnicos hasta implicaciones éticas, se empleó una metodología cualitativa con enfoque inductivo basado en la codificación abierta y la categorización temática. Los datos provinieron del corpus de 185 comentarios del alumnado, y se siguieron tres fases:

Asistente virtual

Pedagógicamente, el asistente virtual toma el papel de un ayudante y guía (coach), con una interacción elegida e iniciada por el alumnado (Pérez-Marín, 2021), que debe seleccionar un enlace en el campus para que le aparezca una ventana (un iframe en lenguaje HTML) integrada en la asignatura del campus en línea.

Se empleó la interfaz de programación de aplicaciones (Application Programming Interface, API) de un LLM, concretamente OpenAI ChatGPT 3.5. La interfaz para el alumnado quedó integrada en el campus en línea de sus respectivas asignaturas, ver Figura 1. Se ajustó la plantilla del asistente virtual para las asignaturas mediante la API del LLM, de forma que el hiperparámetro de temperatura del LLM, que controla su nivel de creatividad, fuese el mínimo, con el fin de reducir la posibilidad de alucinaciones en las respuestas al alumnado (OpenAI, s. f.).

Figura 1
Ejemplo de integración del asistente virtual en el campus en línea para una asignatura

Ejemplo de integración del asistente virtual en el campus en línea para una asignatura
Fuente: elaboración propia.

Se emplearon ajustes de ingeniería de petición (prompt engineering) (White et al., 2023) para configurar el LLM del asistente virtual en sus funciones hacia el campo específico de conocimiento de la correspondiente asignatura, así como también para minimizar la posibilidad de alucinaciones y fomentar al aprendizaje autodirigido (Chang et al., 2023). La redacción del texto en ingeniería de petición resulta clave en la calidad de las respuestas (Liu et al., 2024), y en este estudio se implantó la siguiente plantilla para todos los 21 asistentes virtuales.

“Eres un asistente virtual para el alumnado de la asignatura __________ en el grado/máster universitario _________.

Tu objetivo es enriquecer el aprendizaje del estudiante mediante respuestas precisas aplicables y correctamente fundamentadas, promoviendo al mismo tiempo la curiosidad intelectual y la investigación autodirigida.

Al responder, asegúrate de seguir las siguientes directrices:

  1. 1. Basa tus respuestas en principios y teorías académicas establecidas, citando ejemplos relevantes de aplicaciones en la vida real cuando sea posible.
  2. 2. Prioriza la precisión y la relevancia académica, evitando especulaciones no fundamentadas.
  3. 3. Cuando sea posible, incluye estudios de caso relacionados con el tema en cuestión, para facilitar la comprensión y la aplicación del conocimiento que se presenta.
  4. 4. Cuando proporciones información estadística o datos, aclara el contexto y la fuente de dicha información, y sé transparente sobre la fiabilidad y las limitaciones de los datos.
  5. 5. Si una pregunta está fuera del alcance de tu entrenamiento o es demasiado específica para ser respondida con precisión, guía al usuario a que consulte con su docente.
  6. 6. Para preguntas que impliquen múltiples interpretaciones o enfoques, presenta un espectro de perspectivas académicas, resaltando la diversidad de opiniones y conclusiones.
  7. 7. Utiliza un lenguaje claro y formal, adecuado para un contexto académico, explicando cualquier jerga específica de la asignatura”.

RESULTADOS

Análisis estadístico descriptivo

De los alumnos totales matriculados N=3.419 en las 21 asignaturas, se consiguieron respuestas de un 11 %, con una muestra (n=391) en la que la distribución de género fue 68 % género femenino, 32 % género masculino, y 0 % otros géneros.

En cuanto a las diferentes generaciones de edad, la distribución fue la siguiente: nacidos antes de 1964 (Baby Boomers) un 1 %, entre 1965 y 1980 (generación X) un 25 %, entre 1981 y 1996 (generación Y) un 52 %, y después de 1997 (generación Z) un 23 %.

El alumnado de la muestra se encontró distribuido en 5 de los 6 centros académicos de la Universidad. En la Facultad de Educación un 57 %, en la Facultad de Empresa y Comunicación un 20 %, en la Facultad de Ciencias de la Salud un 10 %, en la Escuela Superior de Ingeniería y Tecnología un 7 %, y en la Facultad de Derecho un 6 %.

En la Figura 2 puede apreciarse que existe una clara falta de normalidad en la distribución de los resultados. Este último aspecto se corrobora mediante una prueba de normalidad (Anderson y Darling, 1952) en los cuatro constructos: AE=17,35, AD=15,08, A I=15,90, AA=18,20, p<,001. En un diagrama de cajas de los resultados del cuestionario para los cuatro constructos se aprecian distribuciones con cierta similitud; además, puede verse que las cuatro medianas resultan encontrarse en el valor 4,5.

Figura 2
Diagrama de cajas de los constructos

Diagrama de cajas de los constructos

Análisis estadístico inferencial

Análisis de constructos según género, grupos de edad y centro académico

Para el constructo de la Eficiencia del asistente virtual, existe una mayor valoración en el grupo femenino, MDf=4,50, frente al masculino, MDm=4,25, que mediante una prueba de la mediana para muestras independientes resulta ser significativa p=,07 (α=,05). Además, de acuerdo con una prueba (no paramétrica de comparación de distribuciones independientes) de Mann-Whitney U(nf=271, nm=120, df=1,p=,03)=14.142,5 se puede rechazar la hipótesis nula de que ambas distribuciones sean iguales entre las dos categorías de género. El tamaño del efecto resultó ser reducido (Cohen, 2013; Hattie, 2023) con d=,22 como medida de tamaño del efecto que cuantifica la diferencia entre las medias de dos grupos en unidades de desviación estándar, permitiendo evaluar la magnitud práctica de dicha diferencia. Para este mismo constructo, y mediante pruebas de Kruskal-Wallis (no paramétrica de comparación de distribuciones independientes), no se encontraron diferencias estadísticamente significativas entre los grupos de edad H( nBB=3, nX=97, nY=202, nZ=89, df=3, p=,42)=2,69, o entre centros académicos H(nEducación=224, nEmpresa=77, nSalud=40, nDerecho=22, nIngeniería=28, df=4, p=,21)=6,73.

Con relación al constructo Desarrollo de habilidades y el género, no se encontraron diferencias estadísticamente significativas entre géneros según una prueba de Mann-Whitney U(nf=271, nm=120, p=,89)=13,58.

Para este mismo constructo, y mediante pruebas de Kruskal-Wallis, no se encontraron diferencias estadísticamente significativas entre los grupos de edad H(nBB=3, nX=97, nY=202, nZ=89, df=3, p=,16)=5,23, o entre centros académicos H( nEducación=224, nEmpresa=777, nSalud=40, nDerecho=22, nIngeniería=28, df=4, p=,23)=6,42.

Analizando el constructo del Impacto en el aprendizaje, no se encontraron diferencias estadísticamente significativas entre géneros según una prueba de Mann-Whitney U(nf=271, nm=120, p=,28)=15,12.

Para este mismo constructo, y mediante pruebas de Kruskal-Wallis, no se encontraron diferencias estadísticamente significativas entre los grupos de edad H(nBB=3, nX=97, nY=202, nZ=89, df=3, p=,16)=5,83, o entre centros académicos H( nEducación=224, nEmpresa=777, nSalud=40, nDerecho=22, nIngeniería=28, df=4, p=,19)=7,59

Finalmente, para el constructo de Aspectos técnicos y accesibilidad, no se encontraron diferencias estadísticamente significativas entre géneros según una prueba de Mann-Whitney U(nf=271, nm=120, p=,10)=15,72.

Para este mismo constructo, y mediante pruebas de Kruskal-Wallis, no se encontraron diferencias estadísticamente significativas entre los grupos de edad H(nBB=3, nX=97, nY=202, nZ=89, df=3, p=,79)=1,52, o entre centros académicos H( nEducación=224, nEmpresa=777, nSalud=40, nDerecho=22, nIngeniería=28, df=4, p=,07)=9,89.

Validación, adecuación del muestreo y confiabilidad

Para la validación del instrumento se aplicó el Índice de Validez del Contenido de la Escala (S-CVI) para evaluar la pertinencia y representatividad de los ítems del cuestionario de acuerdo con los 6 expertos, alcanzándose un alto promedio S-CVI/Ave=99,31. Además, un S-CVI/UA del 95,83 % muestra que una proporción considerable de ítems recibió el acuerdo unánime de los expertos. Estos valores de índices superan los niveles comúnmente aceptados para confirmar la validez de contenido (Haynes et al., 1995; Polit et al., 2007).

La adecuación del muestreo para el análisis factorial ha sido verificada desde tres perspectivas. En primer lugar una prueba de Kaiser-Meyer-Olkin, obteniendo un resultado KMO=,946 que puede considerarse excelente (Kaiser, 1974). En segundo lugar, se superó una prueba de esfericidad (Bartlett, 1954) χ²=4543,25, gl=105, p<,001. Y, en tercer lugar, se realizó un análisis de la matriz de correlaciones, resultando r12=,59.

En este último análisis, la elección de una rotación Promax resultó consistente con los resultados de la matriz de correlación, donde la correlación es moderada, por lo que el uso de una rotación oblicua es adecuado para este análisis, dado que los factores no son ortogonales: la correlación moderada entre los componentes 1 y 2 (,59) puede reflejar una relación significativa entre ellos, y comparten aproximadamente el 35 % de su varianza, pero no son perfectamente redundantes.

La viabilidad del análisis de fiabilidad por alfa de Cronbach se soporta en dos aspectos. Primero, por la existencia de un autovalor 8,80>3 (Yurdugül, 2008), y en segundo lugar, por un tamaño de muestra que supera el mínimo 141<n=391 (Bonett, 2002). Este mínimo ha sido obtenido partiendo de un valor de alfa de Cronbach en la hipótesis nula CA0=,7, un valor esperado CA1=,8, una potencia de 90 %, una probabilidad de error tipo I α=,05, y cuatro ítems por constructo.

Analizando la confiabilidad de cada uno de los cuatro constructos (ver Tabla 3) se aprecia que han obtenido alfas de Cronbach iguales o superiores a ,8, indicando un nivel de consistencia interna adecuado para investigación básica (Nunnally, 1978). Adicionalmente, ninguno de ellos supera un alfa de Cronbach de ,9, lo cual podría llegar a indicar un nivel innecesario de redundancia entre ítems (Streiner, 2003).

Tabla 3
Alfas de Cronbach de los constructos del cuestionario COMUNICA

Constructo Ítems por constructo (inicial) Alfa de Cronbach inicial Ítem a eliminar para mejorar Alfa Alfa de Cronbach final Ítems por constructo (final)
Eficiencia del Asistente Virtual 4 ,82 Ninguno ,82 4
Desarrollo de Habilidades 4 ,82 Ninguno ,82 4
Impacto en el Aprendizaje 4 ,80 Ninguno ,80 4
Aspectos Técnicos y de Accesibilidad 4 ,79 A2 ,80 3
Fuente: elaboración propia.

En el caso del constructo Aspectos Técnicos y de Accesibilidad, mejora su alfa de Cronbach de CAA=,79 a CAA=,80 cuando el ítem A2 es eliminado, por lo que se prescinde de este ítem en el resto del análisis y se deja este constructo con los 3 ítems restantes. Este valor de 3 ítems por constructo es suficiente para la investigación (Hair et al., 2019) y compatible con el tamaño mínimo de muestra para 3 ítems por constructo, 159<n=391 (Bonett, 2002).

Análisis Factorial Exploratorio

En un nuevo análisis de factores exploratorio de 15 ítems del instrumento, al no haber establecido previamente un marco teórico que pueda explicar correlaciones entre factores, se estudian las componentes principales con una rotación Promax, para obtener una estructura de factores simple e interpretable. De estos 15 ítems analizados se obtienen dos autovalores mayores que 1 (8,80 y 2,09) que permiten explicar una varianza total acumulada de 58,13 % y 71,27 % respectivamente.

Tabla 4
Matriz patrón del AFE

Ítem Componente
1 2
A3 ,85 -,04
A4 ,83 -,03
D4 ,83 ,06
I4 ,84 ,04
E3 ,82 -,02
D3 ,80 ,02
E4 ,77 ,02
I3 ,74 -,02
D1 -,12 ,92
E1 ,02 ,85
I1 -,02 ,84
I2 ,04 ,85
D2 ,01 ,86
E2 ,04 ,85
A1 ,23 ,63
Fuente: elaboración propia.

La Tabla 4 muestra la matriz patrón, obtenida en 3 iteraciones, que ajusta las cargas factoriales considerando la correlación entre componentes por haber empleado una rotación oblicua Promax con normalización Kaiser. Se aprecian en ella muy claramente dos componentes. En la primera componente el autovalor es igual a 8,80. En esta componente se encuentran todos los 8 ítems que originalmente se formularon con una asociación negativa a su respectivo constructo. Son fácilmente reconocibles por su numeración en el constructo respectivo, con identificador numérico 3 o 4. Los datos originales en escala Likert necesitaron una inversión para el tratamiento de datos.

En cuanto a la segunda componente, cuenta con autovalor igual a 2,09. En esta componente se encuentran los 7 ítems que se formularon con una asociación positiva a su respectivo constructo. Son fácilmente reconocibles por su numeración en el constructo con identificador numérico 1 o 2.

Se considera que esta estructura de doble componente separando preguntas con asociación positiva y otras con negativa, no es sino un efecto del método, es decir, ha sido producida por la tendencia de los ítems formulados de manera positiva o negativa a agruparse en factores separados no por su contenido real, sino por el formato en que se encuentran formulados. La Figura 3 muestra el gráfico de componentes en espacio rotado. Las respuestas a ítems negativos y positivos tienden a cargar componentes distintos, incluso cuando ambos tipos de ítems pretendan medir iguales constructos (Marsh, 1996; Roszkowski y Soven, 2010). Debido a este efecto, se estima que se ha obtenido una estructura factorial con un reflejo especular de un mismo componente, sin más que una dimensión real diferenciada que permite explicar un total de 71,27 % de la varianza.

Figura 3
Gráfico de componente en espacio rotado

Gráfico de componente en espacio rotado
Fuente: elaboración propia.

Análisis Factorial Confirmatorio

En la Figura 4 se muestra el modelo desarrollado en el AFC, en el que se ha definido como variable latente principal la "Satisfacción del alumnado", que se refleja a través de las cuatro variables observadas: eficiencia del asistente virtual, impacto en el aprendizaje, desarrollo de habilidades y aspectos técnicos y de accesibilidad. Cada uno de estos factores se ha encontrado que está asociado con una carga factorial (,95, ,94, ,91 y ,89 respectivamente), lo que muestra la fuerza de la relación entre la variable latente y los indicadores observados. Además, cada indicador incluye un término de error asociado (ε E, εI, εD y εA), con varianzas de error específicas (,10, ,12, ,17 y ,20 respectivamente).

Figura 4
Modelo del Análisis Factorial Confirmatorio

Modelo del Análisis Factorial Confirmatorio
Fuente: elaboración propia.

Por otro lado, se supera el tamaño mínimo de muestra para realizar este AFC, 30<n=391 ( Wolf et al., 2013), con una variable latente y cuatro factores con cargas λ≥,80.

En cuanto a los índices de bondad de ajuste, el índice de Tucker-Lewis obtenido es mayor que 0,95 (Hu y Bentler, 1999) con TLI=0,97. El valor obtenido del SRMR =,05. es inferior a ,09 (Hu y Bentler, 1999) y ,1 (Kline, 2023). En el Comparative Fit Index, resultó un valor CFI=,98>,95 ( Hu y Bentler, 1999). Finalmente, se obtuvo un índice RMSEA=0,04<0,05 (Browne y Cudeck, 1992). Todos los índices indicados confirman la corrección del ajuste.

Aunque el valor de χ2/gl=1,63<2 con p=,16>,05 puede parecer correcto, solo se indica a modo meramente informativo, ya que su uso como índice de bondad de ajuste es desaconsejable (Brown, 2015; Wheaton, 1987).

Análisis cualitativo

Del alumnado que participó respondiendo el cuestionario (n=391) un 47 % (n com=185) incluyó sus comentarios y sugerencias en un campo opcional reservado para el efecto al final de este. Se analizaron los sentimientos (Nandwani y Verma, 2021) de los 185 comentarios con aprendizaje automático mediante la biblioteca SentimentAnalysis (Feuerriegel y Pröllochs, 2023) en el lenguaje de programación R 4.4.2, empleando el índice SentimentQDAP. El resultado fue mayoritariamente positivo con un índice SentimentQDAP=66 %, donde se ha convertido su rango original de salida [-1,1] a [0,100], siendo el 0 % totalmente negativo, y el 100 % totalmente positivo.

Mediante un enfoque inductivo basado en la codificación abierta y la categorización temática, se obtuvieron las categorías y subcategorías que se muestran en la Tabla 5, que incluye un ejemplo representativo de cada una de ellas. Exceptuando la categoría de “Otros comentarios” que incluye agradecimientos sin evaluación crítica o comentarios genéricos neutros, las tres subcategorías y categorías más frecuentes fueron: “Comentarios positivos” de “Percepción general” (17 %), el “Apoyo académico” en el “Impacto en el aprendizaje” (10 %), y las peticiones de “Integración en otras áreas” como “Sugerencias de mejora” (8 %).

Tabla 5
Categorías y subcategorías de los comentarios

Categoría Subcategoría Número de comentarios Porcentaje Ejemplo representativo
1. Percepción General 1.1. Comentarios positivos 32 17 % "Excelente herramienta, felicidades".
1.2. Comentarios negativos 7 4 % "El chatbot es completamente inútil".
1.3. Comentarios neutros 5 3 % "Es útil, pero no sustituye al profesor".
2. Funcionalidad y usabilidad 2.1. Facilidad de uso 12 6 % "Intuitivo y sencillo de manejar".
2.2. Precisión de las respuestas 9 5 % "A veces da información errónea o confusa".
2.3. Errores técnicos 4 2 % "No permite guardar un historial de sesiones".
3. Impacto en el aprendizaje 3.1. Apoyo académico 18 10 % "Clarifica conceptos científicos complejos".
3.2. Limitaciones 8 4 % "No resuelve problemas prácticos, solo teóricos".
4. Comparación con otras herramientas 4.1. Asistente virtual frente a ChatGPT4 6 3 % "ChatGPT4 da respuestas más completas".
4.2. Ventajas competitivas 3 2 % "Está adaptada al temario específico".
5. Sugerencias de mejora 5.1. Ampliación de funcionalidades 10 5 % "Incluir gráficos o enlaces a recursos externos".
5.2. Capacitación y soporte 5 3 % "Ofrecer tutoriales para usar la herramienta".
5.3. Integración en otras áreas 14 8 % "Implementarla en todas las asignaturas".
6. Innovación educativa 6.1. Aceptación de la IA 9 5 % "Es el futuro de la educación".
6.2. Resistencia o preocupaciones 3 2 % "Fomenta la vaguería en algunos estudiantes".
7. Otros comentarios - 40 22 % "Gracias por la herramienta" (agradecimientos sin evaluación crítica) o "Todo bien" (comentarios genéricos neutros).
Fuente: elaboración propia.

DISCUSIÓN

Análisis de los resultados

Análisis estadístico inferencial

Se ha encontrado de forma estadísticamente significativa una mayor valoración de la eficiencia del asistente virtual por parte del género femenino. Las diferencias en expectativas y percepciones entre géneros pueden haber influido en la evaluación de la eficiencia del asistente virtual, sin embargo, el resultado es el opuesto al indicado por algunos autores (Cai et al., 2017), para quienes el género masculino muestra una actitud más favorable hacia el uso de la tecnología que el femenino, aunque con diferencias menores.

Tras encontrar una única componente en el AFE, y proponer como variable latente la Satisfacción del alumnado, se puede afirmar que todos los índices de bondad de ajuste del AFC indican que el modelo propuesto es aceptable, existiendo por lo tanto una convergencia de este con los datos. El modelo del AFC sugiere que la "Eficiencia del asistente virtual" es el indicador más significativo de la satisfacción, mientras que los “Aspectos técnicos y de accesibilidad” tienen la menor relación. Este modelo permite evaluar la contribución relativa de la satisfacción en cada factor según los datos y el modelo propuesto.

Las cargas de factores encontradas se encuentran dentro del rango ,5 y ,95 (Bagozzi y Yi, 1989), en concreto ,89<λ<,95 p<,001, lo cual sugiere que los factores medidos están explicados en su mayor parte por la variable latente, la satisfacción del alumnado. Es recomendable (Hair et al., 2019) que las cargas factoriales estandarizadas sean mayores a ,7; esto implica que la varianza explicada por el factor (comunalidad) sea al menos 50 % de la varianza total de la variable, lo que a su vez significa que la unicidad (varianza de error) sea ε <,5, indicando que los factores observados están adecuadamente representados por la variable latente (Hair et al., 2019). Estos criterios aseguran que la variable latente explica una proporción significativa de la varianza en las variables observadas, confirmando la validez del modelo.

Análisis cualitativo

El análisis de sentimientos mediante aprendizaje de máquina arrojó un valor mayoritariamente positivo (66m%). Para obtener una visión más completa, el análisis inductivo muestra que, en cuanto a las sugerencias y opiniones expresadas por el alumnado en el campo de comentarios del cuestionario, entre los tres aspectos más comentados, se encontró en primer lugar la utilidad y contribución al aprendizaje. La mayoría de los estudiantes destacan que el asistente virtual de IA es una herramienta muy útil que les ha ayudado a comprender conceptos complejos, resolver dudas rápidamente y mejorar su proceso de aprendizaje en las asignaturas.

El segundo aspecto más comentado fue el deseo de implementación en otras asignaturas. Muchos alumnos expresaron su interés y la necesidad de que el asistente fuese incorporado en otras materias, considerando que su uso sería beneficioso y aumentaría la eficacia de su estudio en general.

El tercer aspecto más frecuente incluyó limitaciones observadas y sugerencias de mejora. Algunos estudiantes señalan áreas de mejora para el asistente virtual, como la mejora, precisión y profundidad de las respuestas, la incorporación de ejemplos más claros, una mejor orientación sobre cómo utilizar la herramienta efectivamente, y la capacidad de mantener el historial de conversaciones, una funcionalidad no existente en la implantación realizada.

En algunos casos también expresaron que la eficacia del asistente virtual se vio limitada, porque echaron en falta una mayor orientación sobre cómo utilizar la herramienta. Adicionalmente, hubo quienes opinaron que el asistente virtual no sustituyó el valor del pensamiento crítico ni la interacción con los docentes.

Los comentarios del alumnado reflejan en general una percepción mayoritariamente positiva del asistente virtual, como complemento en el proceso educativo, reconociendo sus beneficios, pero también señalando áreas donde puede ser perfeccionado para maximizar su potencial en el aprendizaje. Este sentimiento mayoritariamente positivo en los comentarios se ve reflejado en el análisis cuantitativo de sentimientos, y en el análisis cualitativo de los 185 comentarios recibidos en el cuestionario COMUNICA.

Aunque los comentarios netamente positivos (17 %) superan claramente a los negativos (4 %), aparecen aceptaciones con reservas por percibirse como un complemento, no un reemplazo, de la interacción humana. (“no sustituye al profesor”). Además, un 10 % de los comentarios estuvieron relacionados con el impacto en el aprendizaje en el apoyo académico que brindó el asistente virtual. Finalmente, la mayoría de las sugerencias (8 % de todos los comentarios) solicitaban la ampliación de la existencia del asistente a todas las asignaturas del estudio del alumnado. Globalmente, el análisis cualitativo subraya la necesidad de equilibrar avances tecnológicos con pedagogías centradas en el alumnado, asegurando que la IA en educación priorice la rigurosidad académica y la accesibilidad.

Limitaciones de la investigación

Este estudio emplea un muestreo no probabilístico por conveniencia, lo que limita la generalización de los resultados. Para futuros trabajos, se considera emplear muestreo probabilístico y diseñar estrategias para equilibrar la muestra por género, que, aunque representativa de los estudios, se encuentra desbalanceada con un 68 % de mujeres. Adicionalmente, un análisis longitudinal enriquecería la comprensión del efecto sostenido de la herramienta en el aprendizaje y la satisfacción del alumnado. Por ello, se plantea como línea de investigación futura el seguimiento en diversas etapas, lo que ciertamente ampliaría la robustez de los hallazgos, y ofrecería una visión dinámica.

No se pudieron implementar funciones que permitiesen un posterior análisis de aprendizaje ( Learning Analytics) (Chang et al., 2023), por lo que en futuras implementaciones se debería intentar añadir esta característica con el fin de poder extraer más información sobre el empleo de la herramienta por parte del alumnado, como número de sesiones, duración de sesión, etc.

Durante el segundo cuatrimestre del curso 2023/2024, en la ejecución del segundo PIDA con los 20 docentes involucrados, ya se encontró disponible la versión 4 de ChatGPT (Peters et al., 2024), por lo que algunos alumnos realizaron comparaciones y encontraron que en la mayoría de las ocasiones la respuesta con el acceso directo a esta versión resultaba más completa que con la versión 3.5 implantada en el campus virtual para el asistente.

No se incorporaron mecanismos específicos para controlar otras variables externas (por ejemplo, condiciones socioeconómicas, experiencia previa con tecnologías digitales u otros factores ambientales) que podrían influir en la percepción del asistente virtual. En futuras investigaciones se podría estudiar diseños que permitan el control o la inclusión de un mayor número de covariables, así como el uso de métodos estadísticos (por ejemplo, análisis multivariado o modelización estructural) para mitigar el impacto de posibles variables externas.

Los 20 docentes del segundo PIDA fueron contactados en entrevistas no estructuradas, pero no se desarrolló formalmente una investigación cualitativa o cuantitativa sobre sus opiniones debido a limitaciones temporales. En estas entrevistas principalmente se destacó la necesidad de una mayor personalización en la configuración del asistente virtual para adaptarlo a las características particulares de cada asignatura, con el fin de mejorar la precisión de sus respuestas.

Para una investigación futura, podría resultar aconsejable la creación de un cuestionario como instrumento estructurado adicional para recoger las percepciones de los docentes involucrados en el desarrollo del asistente en sus aulas, lo cual permitirá obtener una valiosa información adicional a la del alumnado (Kasneci et al., 2023).

Conclusiones

Este estudio confirma la relevancia y eficacia de los asistentes virtuales basados en inteligencia artificial en el ámbito de la educación superior en línea, destacando tanto sus beneficios como los retos que presenta su implementación, no solo en un determinado campo de conocimiento (Polverini y Gregorcic, 2024; Taani y Alabidi, 2024; Vierhauser et al., 2024; Wardat et al., 2023) sino para 21 diferentes titulaciones universitarias de los diferentes centros en una universidad en línea.

En primer lugar, los hallazgos cuantitativos demuestran que el género femenino ha valorado más la eficiencia del asistente virtual. El género masculino y el femenino difieren significativamente en cómo perciben la utilidad y la facilidad de uso de las herramientas tecnológicas, y en concreto, las mujeres tienden a ser más influenciadas por factores sociales y a tener expectativas diferentes sobre la utilidad de la tecnología en comparación con los hombres, lo cual puede ser la causa de esa mayor valoración de la eficiencia del asistente virtual por parte del género femenino. Mientras que el género masculino solo considera factores relacionados con la productividad, el femenino toma en cuenta diversos aspectos, incluida también la productividad, cuando se toman decisiones sobre la adopción y el uso de tecnología (Venkatesh y Morris, 2000).

Los resultados del AFC subrayan que la eficiencia del asistente virtual es el factor más significativo en la percepción de satisfacción del alumnado. Este aspecto está estrechamente vinculado con la capacidad del asistente virtual para proporcionar respuestas precisas y relevantes, ello refuerza su papel como herramienta de apoyo en el aprendizaje autónomo, lo que concuerda con Følstad y Brandtzæg (2017).

Asimismo, los resultados del análisis factorial confirmatorio muestran que los factores asociados al impacto en el aprendizaje, el desarrollo de habilidades, y los aspectos técnicos y de accesibilidad también contribuyen de manera significativa a la percepción de utilidad del asistente virtual, aunque en menor medida. Estas dimensiones reflejan tanto el potencial pedagógico de los asistentes virtuales como la importancia de su diseño técnico para garantizar una experiencia de usuario óptima (Bahrini et al., 2023).

Sin embargo, además de analizar el potencial de los asistentes virtuales (Grassini, 2023) este trabajo también identifica novelmente limitaciones clave, como las diferencias significativas en la percepción de eficiencia del asistente entre estudiantes de diferentes géneros, así como la menor correlación significativa de los aspectos técnicos y de accesibilidad con la satisfacción general. Esto indica la necesidad de seguir explorando cómo optimizar estas herramientas para garantizar una experiencia equitativa y accesible para todos los usuarios.

Por otro lado, el análisis cualitativo es consistente con estudios previos que destacan la relación entre herramientas de inteligencia artificial y la mejora en el aprendizaje autónomo (Ait Baha et al., 2024).

Finalmente, este estudio contribuye a la bibliografía existente proporcionando evidencia empírica sobre la implementación y el impacto de asistentes virtuales en contextos educativos (Motlagh et al., 2023). Los hallazgos tienen implicaciones prácticas para instituciones académicas, desarrolladores de tecnología educativa y responsables de políticas, quienes podrán tomar decisiones más fundamentadas sobre cómo integrar estas herramientas de manera efectiva y sostenible en los procesos de enseñanza y aprendizaje (Dempere et al., 2023).

Conflicto de intereses

No se declara ningún potencial conflicto de intereses con respecto a la investigación, autoría y/o publicación de este artículo.

Financiación

Ambos Proyectos de Innovación Docente Aplicada asociados a esta investigación fueron financiados por la Universidad Internacional de la Rioja durante el curso 2023/2024, recibiéndose por ellos el segundo premio en la VI edición de los “Premios a las mejores prácticas en el aula virtual” de la Universidad Internacional de la Rioja con fecha 10 de julio de 2024.

REFERENCIAS

Adiguzel, T., Kaya, M. H. y Cansu, F. K. (2023). Revolutionizing education with AI: Exploring the transformative potential of ChatGPT. Contemporary Educational Technology, 15(3), ep429. https://doi.org/10.30935/cedtech/13152

Ait Baha, T., El Hajji, M., Es-Saady, Y. y Fadili, H. (2024). The impact of educational chatbot on student learning experience. Education and Information Technologies, 29(8), 10153-10176. https://doi.org/10.1007/s10639-023-12166-w

Al-Emran, M., AlQudah, A. A., Abbasi, G. A., Al-Sharafi, M. A. y Iranmanesh, M. (2024). Determinants of Using AI-Based Chatbots for Knowledge Sharing: Evidence From PLS-SEM and Fuzzy Sets (fsQCA). IEEE Transactions on Engineering Management, 71, 4985-4999. https://doi.org/10.1109/TEM.2023.3237789

Anderson, T. W. y Darling, D. A. (1952). Asymptotic theory of certain "goodness of fit" criteria based on stochastic processes. The Annals of Mathematical Statistics, 23(2), 193-212. https://doi.org/10.1214/aoms/1177729437

Bagozzi, R. P. y Yi, Y. (1989). The Degree of Intention Formation as a Moderator of the Attitude-Behavior Relationship. Social Psychology Quarterly, 52(4), 266. https://doi.org/10.2307/2786991

Bahrini, A., Khamoshifar, M., Abbasimehr, H., Riggs, R. J., Esmaeili, M., Majdabadkohne, R. M. y Pasehvar, M. (2023). ChatGPT: Applications, Opportunities, and Threats. 2023 Systems and Information Engineering Design Symposium (SIEDS), 274-279. https://doi.org/10.1109/SIEDS58326.2023.10137850

Bartlett, M. S. (1954). A Note on the Multiplying Factors for Various χ2 Approximations. Journal of the Royal Statistical Society Series B: Statistical Methodology, 16(2), 296-298. https://doi.org/10.1111/j.2517-6161.1954.tb00174.x

Bonett, D. G. (2002). Sample Size Requirements for Testing and Estimating Coefficient Alpha. Journal of Educational and Behavioral Statistics, 27(4), 335-340. https://doi.org/10.3102/10769986027004335

Brown, T. A. (2015). Confirmatory factor analysis for applied research. The Guilford Press.

Browne, M. W. y Cudeck, R. (1992). Alternative Ways of Assessing Model Fit. Sociological Methods & Research, 21(2), 230-258. https://doi.org/10.1177/0049124192021002005

Cai, Z., Fan, X. y Du, J. (2017). Gender and attitudes toward technology use: A meta-analysis. Computers & Education, 105, 1-13. https://doi.org/10.1016/j.compedu.2016.11.003

Chang, D. H., Lin, M. P.-C., Hajian, S. y Wang, Q. Q. (2023). Educational Design Principles of Using AI Chatbot That Supports Self-Regulated Learning in Education: Goal Setting, Feedback, and Personalization. Sustainability, 15(17), 12921. https://doi.org/10.3390/su151712921

Chen, L., Chen, P. y Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278. https://doi.org/10.1109/ACCESS.2020.2988510

Chen, X., Xie, H., Zou, D. y Hwang, G.-J. (2020). Application and theory gaps during the rise of Artificial Intelligence in Education. Computers and Education: Artificial Intelligence, 1, 100002. https://doi.org/10.1016/j.caeai.2020.100002

Cheng, Z., Zhang, Z., Xu, Q., Maeda, Y. y Gu, P. (2023). A meta-analysis addressing the relationship between self-regulated learning strategies and academic performance in online higher education. Journal of Computing in Higher Education. https://doi.org/10.1007/s12528-023-09390-1

Cohen, J. (2013). Statistical Power Analysis for the Behavioral Sciences (0 ed.). Routledge. https://doi.org/10.4324/9780203771587

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297-334. https://doi.org/10.1007/BF02310555

Curran, P. J., Bollen, K. A., Chen, F., Paxton, P. y Kirby, J. B. (2003). Finite Sampling Properties of the Point Estimates and Confidence Intervals of the RMSEA. Sociological Methods & Research, 32(2), 208-252. https://doi.org/10.1177/0049124103256130

Dempere, J., Modugu, K., Hesham, A. y Ramasamy, L. K. (2023). The impact of ChatGPT on higher education. Frontiers in Education, 8, 1206936. https://doi.org/10.3389/feduc.2023.1206936

Dwivedi, Y. K., Hughes, D. L., Coombs, C., Constantiou, I., Duan, Y., Edwards, J. S., Gupta, B., Lal, B., Misra, S., Prashant, P., Raman, R., Rana, N. P., Sharma, S. K. y Upadhyay, N. (2021). Impact of COVID-19 pandemic on information management research and practice: Transforming education, work and life. International Journal of Information Management, 55, 102211. https://doi.org/10.1016/j.ijinfomgt.2020.102211

Feuerriegel, S. y Pröllochs, N. (2023). Sentiment Analysis R Package (Versión 1.3-5) [R]. https://cran.r-project.org/web/packages/SentimentAnalysis/vignettes/SentimentAnalysis.htmlhttps://doi.org/10.1016/j.ijinfomgt.2020.102211

Følstad, A. y Brandtzæg, P. B. (2017). Chatbots and the new world of HCI. Interactions, 24(4), 38-42. https://doi.org/10.1145/3085558

Glaser, B. G., Strauss, A. L. y Strutzel, E. (1968). The Discovery of Grounded Theory; Strategies for Qualitative Research. Nursing Research, 17(4), 364. https://doi.org/10.1097/00006199-196807000-00014

Grassini, S. (2023). Shaping the Future of Education: Exploring the Potential and Consequences of AI and ChatGPT in Educational Settings. Education Sciences, 13(7), 692. https://doi.org/10.3390/educsci13070692

Hair, J. F., Black, W. C., Babin, B. J. y Anderson, R. E. (2019). Multivariate data analysis (Eighth edition). Cengage.

Haladyna, T. M., Downing, S. M. y Rodriguez, M. C. (2002). A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement in Education, 15(3), 309-333. https://doi.org/10.1207/S15324818AME1503_5

Han, X., Zhang, Z., Ding, N., Gu, Y., Liu, X., Huo, Y., Qiu, J., Yao, Y., Zhang, A., Zhang, L., Han, W., Huang, M., Jin, Q., Lan, Y., Liu, Y., Liu, Z., Lu, Z., Qiu, X., Song, R., … Zhu, J. (2021). Pre-trained models: Past, present and future. AI Open, 2, 225-250. https://doi.org/10.1016/j.aiopen.2021.08.002

Hattie, J. (2023). Visible Learning: The Sequel: A Synthesis of Over 2,100 Meta-Analyses Relating to Achievement (1.a ed.). Routledge. https://doi.org/10.4324/9781003380542

Haynes, S. N., Richard, D. y Kubany, E. S. (1995). Content validity in psychological assessment: A functional approach to concepts and methods. Psychological assessment, 7(3), 238. https://doi.org/10.1037/1040-3590.7.3.238

Hu, L. y Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling: A Multidisciplinary Journal, 6(1), 1-55. https://doi.org/10.1080/10705519909540118

Hwang, G.-J. y Chang, C.-Y. (2023). A review of opportunities and challenges of chatbots in education. Interactive Learning Environments, 31(7), 4099-4112. https://doi.org/10.1080/10494820.2021.1952615

Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39(1), 31-36. https://doi.org/10.1007/BF02291575

Kasneci, E., Sessler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., Krusche, S., Kutyniok, G., Michaeli, T., Nerdel, C., Pfeffer, J., Poquet, O., Sailer, M., Schmidt, A., Seidel, T., … Kasneci, G. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274. https://doi.org/10.1016/j.lindif.2023.102274

Kline, R. B. (2023). Principles and Practice of Structural Equation Modeling (Fifth edition). Guilford.

Kuhail, M. A., Alturki, N., Alramlawi, S. y Alhejori, K. (2023). Interacting with educational chatbots: A systematic review. Education and Information Technologies, 28(1), 973-1018. https://doi.org/10.1007/s10639-022-11177-3

Labadze, L., Grigolia, M. y Machaidze, L. (2023). Role of AI chatbots in education: Systematic literature review. International Journal of Educational Technology in Higher Education, 20(1), 56. https://doi.org/10.1186/s41239-023-00426-1

Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. y Tang, J. (2024). GPT understands, too. AI Open, 5, 208-215. https://doi.org/10.1016/j.aiopen.2023.08.012

Marsh, H. W. (1996). Positive and negative global self-esteem: A substantively meaningful distinction or artifactors? Journal of Personality and Social Psychology, 70(4), 810-819. https://doi.org/10.1037/0022-3514.70.4.810

Motlagh, N. Y., Khajavi, M., Sharifi, A. y Ahmadi, M. (2023). The Impact of Artificial Intelligence on the Evolution of Digital Education: A Comparative Study of OpenAI Text Generation Tools including ChatGPT, Bing Chat, Bard, and Ernie (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2309.02029

Nandwani, P. y Verma, R. (2021). A review on sentiment analysis and emotion detection from text. Social Network Analysis and Mining, 11(1), 81. https://doi.org/10.1007/s13278-021-00776-6

Nunnally, J. C. (1978). Psychometric theory (2d ed). McGraw-Hill.

Okonkwo, C. W. y Ade-Ibijola, A. (2021). Chatbots applications in education: A systematic review. Computers and Education: Artificial Intelligence, 2, 100033. https://doi.org/10.1016/j.caeai.2021.100033

Onal, S. y Kulavuz-Onal, D. (2024). A Cross-Disciplinary Examination of the Instructional Uses of ChatGPT in Higher Education. Journal of Educational Technology Systems, 52(3), 301-324. https://doi.org/10.1177/00472395231196532

OpenAI. (s. f.). OpenAI API Reference. Recuperado 25 de noviembre de 2024, de https://platform.openai.com/docs/api-reference/chat/create#chat-create-temperature

Pérez, J. Q., Daradoumis, T. y Puig, J. M. M. (2020). Rediscovering the use of chatbots in education: A systematic literature review. Computer Applications in Engineering Education, 28(6), 1549-1565. https://doi.org/10.1002/cae.22326

Pérez-Marín, D. (2021). A Review of the Practical Applications of Pedagogic Conversational Agents to Be Used in School and University Classrooms. Digital, 1(1), 18-33. https://doi.org/10.3390/digital1010002

Perrotta, C. y Selwyn, N. (2020). Deep learning goes to school: Toward a relational understanding of AI in education. Learning, Media and Technology, 45(3), 251-269. https://doi.org/10.1080/17439884.2020.1686017

Peters, M. A., Jackson, L., Papastephanou, M., Jandrić, P., Lazaroiu, G., Evers, C. W., Cope, B., Kalantzis, M., Araya, D., Tesar, M., Mika, C., Chen, L., Wang, C., Sturm, S., Rider, S. y Fuller, S. (2024). AI and the future of humanity: ChatGPT-4, philosophy and education – Critical responses. Educational Philosophy and Theory, 56(9), 828-862. https://doi.org/10.1080/00131857.2023.2213437

Pokhrel, S. y Chhetri, R. (2021). A Literature Review on Impact of COVID-19 Pandemic on Teaching and Learning. Higher Education for the Future, 8(1), 133-141. https://doi.org/10.1177/2347631120983481

Polit, D. F., Beck, C. T., & Owen, S. V. (2007). Is the CVI an acceptable indicator of content validity? Appraisal and recommendations. Research in nursing & health, 30(4), 459-467. https://doi.org/10.1002/nur.20199

Polverini, G. y Gregorcic, B. (2024). How understanding large language models can inform the use of ChatGPT in physics education. European Journal of Physics, 45(2), 025701. https://doi.org/10.1088/1361-6404/ad1420

Rosseel, Y. (2012). lavaan: An R Package for Structural Equation Modeling. Journal of Statistical Software, 48(2). https://doi.org/10.18637/jss.v048.i02

Roszkowski, M. J. y Soven, M. (2010). Shifting gears: Consequences of including two negatively worded items in the middle of a positively worded questionnaire. Assessment & Evaluation in Higher Education, 35(1), 113-130. https://doi.org/10.1080/02602930802618344

Ruiz-Corbella, M. y García-Aretio, L. (2023). Virtual mobility in higher education, ¿chance or utopy? Revista Española de Pedagogía, 68(246). https://doi.org/10.22550/2174-0909.3568

Streiner, D. L. (2003). Starting at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency. Journal of Personality Assessment, 80(1), 99-103. https://doi.org/10.1207/S15327752JPA8001_18

Taani, O. y Alabidi, S. (2024). ChatGPT in education: Benefits and challenges of ChatGPT for mathematics and science teaching practices. International Journal of Mathematical Education in Science and Technology, 1-30. https://doi.org/10.1080/0020739X.2024.2357341

Tamkin, A., Brundage, M., Clark, J. y Ganguli, D. (2021). Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2102.02503

Thottoli, M. M., Alruqaishi, B. H. y Soosaimanickam, A. (2024). Robo academic advisor: Can chatbots and artificial intelligence replace human interaction? Contemporary Educational Technology, 16(1), ep485. https://doi.org/10.30935/cedtech/13948

Tlili, A., Shehata, B., Adarkwah, M. A., Bozkurt, A., Hickey, D. T., Huang, R. y Agyemang, B. (2023). What if the devil is my guardian angel: ChatGPT as a case study of using chatbots in education. Smart Learning Environments, 10(1), 15. https://doi.org/10.1186/s40561-023-00237-x

Venkatesh, V. y Morris, M. G. (2000). Why Don’t Men Ever Stop to Ask for Directions? Gender, Social Influence, and Their Role in Technology Acceptance and Usage Behavior. MIS Quarterly, 24(1), 115. https://doi.org/10.2307/3250981

Vierhauser, M., Groher, I., Antensteiner, T. y Sauerwein, C. (2024). Towards Integrating Emerging AI Applications in SE Education. 2024 36th International Conference on Software Engineering Education and Training (CSEE&T), 1-5. https://doi.org/10.1109/CSEET62301.2024.10663045

Wang, T., Lund, B. D., Marengo, A., Pagano, A., Mannuru, N. R., Teel, Z. A. y Pange, J. (2023). Exploring the Potential Impact of Artificial Intelligence (AI) on International Students in Higher Education: Generative AI, Chatbots, Analytics, and International Student Success. Applied Sciences, 13(11), 6716. https://doi.org/10.3390/app13116716

Wardat, Y., Tashtoush, M. A., AlAli, R. y Jarrah, A. M. (2023). ChatGPT: A revolutionary tool for teaching and learning mathematics. Eurasia Journal of Mathematics, Science and Technology Education, 19(7), em2286. https://doi.org/10.29333/ejmste/13272

Wheaton, B. (1987). Assessment of Fit in Overidentified Models with Latent Variables. Sociological Methods & Research, 16(1), 118-154. https://doi.org/10.1177/0049124187016001005

White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., Elnashar, A., Spencer-Smith, J. y Schmidt, D. C. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT (arXiv:2302.11382). arXiv. http://arxiv.org/abs/2302.11382

Winkler, R. y Soellner, M. (2018). Unleashing the Potential of Chatbots in Education: A State-Of-The-Art Analysis. Academy of Management Proceedings, 2018(1), 15903. https://doi.org/10.5465/AMBPP.2018.15903abstract

Wolf, E. J., Harrington, K. M., Clark, S. L. y Miller, M. W. (2013). Sample Size Requirements for Structural Equation Models: An Evaluation of Power, Bias, and Solution Propriety. Educational and Psychological Measurement, 73(6), 913-934. https://doi.org/10.1177/0013164413495237

Yung, Y. y Bentler, P. M. (1994). Bootstrap‐corrected ADF test statistics in covariance structure analysis. British Journal of Mathematical and Statistical Psychology, 47(1), 63-84. https://doi.org/10.1111/j.2044-8317.1994.tb01025.x

Yurdugül, H. (2008). Minimum sample size for Cronbach's coefficient alpha: A Monte-Carlo study. Hacettepe Üniversitesi eğitim fakültesi dergisi, 35(35), 1-9.

Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., … Wen, J.-R. (2023). A Survey of Large Language Models (Versión 15). arXiv. https://doi.org/10.48550/ARXIV.2303.18223


Recibido: 01 Diciembre 2024
Aprobado: 12 Marzo 2025
OnlineFirst: 30 Abril 2025
Publicado: 01 Julio 2025