Abstract:
El desarrollo de los Modelos de Lenguaje Multimodal de Gran Tamaño MLLMs con su capacidad para procesar simultáneamente texto imagen audio y video ha transformado el panorama de la Inteligencia Artificial en la educación superior abriendo una nueva era de entornos de aprendizaje enriquecidos e interactivos Sin embargo la literatura científica carece de modelos de integración pedagógica estructurados que orienten la incorporación didáctica de estos modelos en contextos universitarios Este artículo propone un marco tecno pedagógico para la integración de Google Gemini en la educación superior a partir de una revisión cualitativa sistematizada de literatura y un análisis temático El enfoque propuesto articula una taxonomía de modalidades de interacción multimodal un conjunto de estrategias instruccionales operacionalizadas con roles docentes y estudiantiles diferenciados y lineamientos éticos para la evaluación de aprendizajes mediados por inteligencia artificial Las aplicaciones identificadas abarcan desde la tutoría visual interactiva y el andamiaje para la escritura académica hasta el análisis contextual en tiempo real modalidad que extiende el aprendizaje hacia entornos físicos situados A pesar de las oportunidades identificadas el estudio subraya que ninguna estrategia de integración adquiere sentido pedagógico pleno sin un marco ético simultáneo que garantice la autoría intelectual del estudiante prevenga la dependencia cognitiva y proteja su privacidad informacional Este trabajo aporta un lenguaje conceptual compartido para docentes diseñadores instruccionales e instituciones de educación superior y abre líneas de investigación empírica sobre el impacto diferencial de las modalidades de interacción en el aprendizaje universitario