¿Qué ocurre cuando se usa la IA para fijar las calificaciones?
por Theodoros Evgeniou, David R. Hardoon, Anton Ovchinnikov

Personal de HBR/Michael Prince/InfoCustVideo/Getty Images
¿Cómo se sentiría si un algoritmo determinara dónde va a la universidad su hijo?
Este año, la COVID-19 bloqueó a millones de estudiantes de último año de instituto y los gobiernos de todo el mundo cancelaron los exámenes de graduación de fin de año, lo que obligó a las juntas examinadoras de todo el mundo a considerar otras formas de fijar las calificaciones finales que determinarían en gran medida el futuro de la promoción de 2020. Una de estas juntas, la Organización del Bachillerato Internacional (IBO), optó por utilizar la inteligencia artificial (IA) para ayudar a fijar las puntuaciones generales de los graduados del instituto en función de los trabajos anteriores de los estudiantes y otros datos históricos. (Usamos el término IA en sentido amplio para referirnos a un programa de ordenador que utiliza datos para ejecutar una tarea que los humanos suelen realizar, en este caso procesar las puntuaciones de los estudiantes).
El experimento no tuvo éxito y, desde entonces, miles de estudiantes y padres descontentos han lanzado un furioso campaña de protesta. Entonces, ¿qué salió mal y qué nos dice la experiencia sobre los desafíos que conllevan las soluciones con IA?
¿Qué es el Bachillerato Internacional?
El IB es un riguroso y prestigioso programa de certificados y diplomas de instituto que se imparte en algunos de los mejores colegios del mundo. Abre las puertas a las principales universidades del mundo a estudiantes talentosos y trabajadores en más de 150 países.
En un año normal, las calificaciones finales las determina el trabajo de curso realizado por los estudiantes y el IBO administra y corrige directamente un examen final. Los cursos representan entre el 20 y el 30% de la calificación final total y el examen representa el resto. Antes del examen, los profesores imparten las calificaciones «previstas», lo que permite a las universidades ofrecer plazas condicionadas a que las calificaciones finales de los candidatos cumplan con las predicciones. El IBO también organizará la calificación independiente de muestras de los cursos de cada estudiante para desalentar la inflación de calificaciones en las escuelas.
Por lo general, el proceso se considera un protocolo de evaluación riguroso y respetado. El IBO ha recopilado una cantidad sustancial de datos sobre cada materia y cada escuela, cientos de miles de puntos de datos que, en algunos casos, se remontan a más de 50 años. Significativamente, la relación entre las calificaciones previstas y las finales ha sido estrecha. En los principales colegios del IB, más del 90% de las calificaciones han sido iguales a las previstas y más del 95% de las puntuaciones totales están dentro de un punto de lo previsto (las puntuaciones totales se establecen en una escala del 1 al 45).
Y luego llegó la COVID-19.
En la primavera de 2020, los IBO tuvieron que decidir si permitían que los exámenes continuaran o los cancelaban y otorgaban las calificaciones de alguna otra forma. Permitir los exámenes ponía en riesgo la seguridad de los estudiantes y los profesores y podía crear problemas de equidad si, por ejemplo, a los estudiantes de algunos países se les permitiera hacer los exámenes en casa y en otros tuvieran que presentarse en la escuela.
La cancelación de los exámenes planteó la cuestión de cómo asignar las calificaciones, y fue entonces cuando los IBO recurrieron a la IA. Utilizando su tesoro de datos históricos sobre los trabajos de los cursos de los estudiantes y las calificaciones previstas, así como los datos sobre la calificación real obtenida en los exámenes de años anteriores, el IBO decidió crear un modelo para calcular la puntuación global de cada estudiante, es decir, predecir lo que habrían obtenido los estudiantes de 2020 en los exámenes. La construcción de maquetas se subcontrató a un subcontratista no revelado en el momento de publicar este artículo.
Se desató una crisis cuando se publicaron los resultados a principios de julio de 2020. Decenas de miles de estudiantes de todo el mundo recibieron calificaciones que no solo se desviaban sustancialmente de las calificaciones previstas, sino que lo hicieron de formas inexplicables. Desde entonces, unos 24 000, o más del 15% de todos los que reciben el diploma del IB de 2020, han firmado la protesta. Las páginas de redes sociales de los IBO están inundados de comentarios furiosos. Varios gobiernos también han iniciado investigaciones formales y se están preparando numerosas demandas, algunas por abuso de datos en virtud del RGPD de la UE. Además, las escuelas, los estudiantes y las familias que participan en otros programas de instituto que también han adoptado soluciones de IA están planteando preocupaciones muy similares, especialmente en el Reino Unido, donde los resultados de nivel A se publicarán el 13 de agosto de 2020.
El margen de apelación es limitado
A medida que la indignación se ha extendido, estudiantes y padres frustrados han planteado constantemente una pregunta crítica y muy práctica: ¿Cómo pueden apelar las calificaciones?
En años normales, el proceso de apelación estaba bien definido y constaba de varios niveles, desde volver a calificar el examen de un estudiante individual hasta la revisión de las calificaciones de los cursos por materia en una escuela determinada. Lo primero significa echar otro vistazo al trabajo de un estudiante, un primer paso natural cuando las calificaciones se basan en ese trabajo. Esta última se refiere a un ajuste que los IBO pueden aplicar a la calificación de los cursos de la escuela en caso de que una muestra de trabajo evaluada de forma independiente por el IBO arroje calificaciones sustancialmente diferentes, en promedio, de las que otorga la escuela. El proceso de apelación se entendió bien y arrojó resultados consistentes, pero no se utilizó con frecuencia, sobre todo porque, como se ha dicho, hubo pocas sorpresas cuando se publicaron las calificaciones finales.
Este año, los colegios del IB trataron inicialmente las apelaciones como solicitudes de comentarios sobre el trabajo de los estudiantes. Pero esto plantea un desafío fundamental: las calificaciones no estaban en disputa, sino la evaluación de la IA lo que se puso en tela de juicio. En realidad, la IA no corrigió ningún artículo; solo obtuvo las calificaciones finales en función de los datos que se le proporcionaron, que incluían los cursos corregidos por el profesor y las calificaciones previstas. Como no se divulgan los detalles del programa, lo único que la gente puede ver son los resultados, muchos de los cuales eran muy anómalos, con puntuaciones finales en algunos casos muy por debajo de las calificaciones de los cursos calificados por el profesor de los estudiantes involucrados. Como era de esperar, el enfoque de apelaciones del IBO no ha tenido éxito, no está en absoluto alineado con la forma en que la IA creó las calificaciones.
¿Qué podemos aprender?
La principal lección que se extrae de esta experiencia es que cualquier organización que decida utilizar una IA para obtener un resultado tan crítico y delicado como un grado de instituto que marque 12 años de trabajo de un estudiante, debe tener muy claro cómo se producen los resultados y cómo se pueden apelar en caso de que parezcan anómalos o inesperados. Desde fuera, parece que el IBO simplemente conectó la IA al sistema del IB para reemplazar los exámenes y, luego, supuso que el resto del sistema, en particular el proceso de apelación, podría funcionar como antes.
Entonces, ¿qué tipo de proceso de apelación debería haber diseñado el IBO? En primer lugar, el proceso general de puntuación y, lo que es más importante, de apelación de la decisión debería ser fácil de explicar, de modo que las personas entiendan cuál será cada paso siguiente. Tenga en cuenta que no se trata de explicar la «caja negra» de la IA, como hacen los reguladores actuales cuando argumentan sobre la necesidad de una «IA explicable». Eso sería casi imposible en muchos casos, ya que entender la programación utilizada en la IA generalmente requiere un alto nivel de sofisticación técnica. Más bien, se trata de asegurarse de que las personas entienden qué información se utiliza para evaluar las calificaciones y cuáles son los pasos del propio proceso de apelación. Así que lo que el IBO podría haber hecho en su lugar era ofrecer a los apelantes el derecho a una reevaluación dirigida por humanos de las calificaciones anómalas, especificar en qué datos de entrada se centraría el comité de apelaciones para volver a analizar el caso y explicar cómo se solucionaría el problema.
La forma en que se solucionaría el problema dependería de si el problema era específico del estudiante, de la escuela o de la materia; el atractivo de un solo estudiante bien podría afectar a otros estudiantes según los componentes de la IA a los que se refiera la apelación.
Si, por ejemplo, un problema con la calificación de un estudiante individual parece deberse a los datos del nivel escolar (es posible que varios estudiantes que estudian en ese mismo centro hayan obtenido calificaciones finales muy diferentes de las previstas), el proceso de apelación analizaría las calificaciones de todos estudiantes de esa escuela. Si fuera necesario, el propio algoritmo de IA se ajustaría para el colegio en cuestión, sin afectar a otros centros, asegurándose de que las nuevas puntuaciones de la IA son coherentes en todos los centros y siguen siendo los mismos en todos los centros excepto en uno. Por el contrario, si el problema está relacionado con factores específicos del estudiante, el análisis se centrará en identificar por qué la IA produjo un resultado anómalo para ese estudiante y, de ser necesario, volver a puntuar a ese estudiante y a cualquier otro estudiante cuyas calificaciones se hayan visto afectadas de la misma manera.
Por supuesto, gran parte de esto se aplicaría a cualquier proceso de calificación. La anomalía de un estudiante podría indicar un fracaso más sistemático en cualquier proceso de calificación, participe o no una IA. Pero la forma en que se diseñe el proceso de apelación debe reflejar las diferentes formas en que los humanos y las máquinas toman decisiones y el diseño específico de la IA utilizada, así como la forma en que se pueden corregir las decisiones.
Por ejemplo, dado que la IA otorga las calificaciones en función de su modelo de relaciones entre los diversos datos de entrada, por lo general no debería ser necesario analizar el trabajo real de los estudiantes en cuestión y se podrían hacer correcciones a todos los estudiantes afectados (aquellos con características de datos de entrada similares) de una sola vez. De hecho, en muchos sentidos, apelar una calificación de IA podría ser un proceso más fácil que apelar una calificación tradicional basada en un examen.
Además, con un sistema de IA, un proceso de apelación como el descrito permitiría una mejora continua de la IA. Si el IBO hubiera creado un sistema de este tipo, los resultados de las apelaciones habrían generado comentarios que podrían haber actualizado el modelo para usos futuros, en caso, por ejemplo, de que los exámenes se cancelen de nuevo el año que viene.
***
La experiencia del IBO obviamente tiene lecciones para implementar la IA en muchos contextos, desde la aprobación del crédito hasta búsqueda de empleo o policial. Las decisiones en todos estos casos pueden, al igual que en el IB, tener consecuencias que cambien la vida de las personas involucradas. Es inevitable que se produzcan disputas sobre los resultados, dado lo que está en juego. Incluir la IA en el proceso de toma de decisiones sin pensar detenidamente en un proceso de apelación y vincular el proceso de apelación con el propio diseño del algoritmo probablemente acabe no solo con nuevas crisis, sino también con el rechazo de las soluciones basadas en la IA en general. Y eso nos priva a todos del potencial de la IA, cuando se combina con los humanos, de mejorar drásticamente la calidad de la toma de decisiones.
Divulgación: Uno de los autores de este artículo es el padre de un estudiante que termina el programa del IB este año.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.