lunes, 13 de marzo de 2017

Concursos docentes: Cómo integrar opiniones de los jurados

El año pasado fui parte del jurado de un concurso docente para cubrir cargos en el Departamento de Computación (FCEN-UBA). Una parte del concurso consistió en evaluar la prueba de oposición (PO) de los concursantes. En nuestro caso, decidimos que cada jurado evaluara la prueba de oposición y cuantificara con un solo número del 0 al 1 al concursante. Tras haber completado todas  las pruebas de oposiciones nos preguntamos cómo íbamos a hacer para juntar nuestras opiniones en un orden de mérito.

En principio pensamos en usar simplemente el promedio de la valoraciones de las POs pero nos dimos cuenta de algunos de los problemas que ocurren tomando esta decisión:

1) ¿Las opiniones de los jurados valen igual?
2) ¿Qué hacemos con las abstenciones?

Para intentar responderlas, junto a David Gonzalez Marquez, usamos datos de 3 concursos distintos (de manera 100% anonima). De cada concurso usamos una tabla con tres puntajes correspondientes a la valoración de la PO de cada jurado (distintos para cada concurso) para cada concursante. Para cada concurso contamos en promedio con 24 candidatos.

El primer acercamiento a los datos que hicimos fue mirar la distribución de puntajes del orden de méritos y notamos cosas interesantes: cada concurso tiene formas y usos de rangos bastante particulares entre si y distintas entre los concursos. Por ejemplo el concurso 3 tiene un uso del rango mucho mayor que  los demás concursos para todos los jurados. Inclusive, tomando todas las valoraciones y comparando por concursos resultan estadísticamente distintas entre si (Concurso 1 vs Concurso 3 pval<10^-5, Concurso 2 vs Concurso 3 pval<10^-8).
No sabemos bien a qué se debe esto. Podría ser que realmente haya un buen uso del rango por todos los jurados y justo la muestra a la cual accedimos en cada año sea muy distinta entre concursos, aunque esto parece muy poco probable. Nos inclinamos más a pensar que puede haber una sugestión por parte de un jurado o un sesgo en como reportan las PO los jurados con más experiencia y un ajuste en los nuevos jurados a medida que pasa el concurso.


Mirando las mismas distribuciones pero por jurado se ve que si bien entre concursos hay formas particulares también hay cierta heterogeneidad entre los jurados en el uso del rango y distribución de los puntajes.


Esto nos llevó a preguntarnos si había una valoración coherente de los candidatos entre las distintas opiniones de los jurados. Para eso medimos la correlación entre los jurados por concurso. Vemos en la figura que las correlaciones son muy altas, esto significa que los jurados concuerdan en opiniones, es decir, están típicamente de acuerdo si un candidato es muy bueno, promedio o malo.

Si bien la alta correlación es alta, en el mismo gráfico se ve que los rangos de uso de las PO son algo distintos. Por ejemplo los Jurados 1 y 2 en el Concurso 3 tiene una correlación lineal muy alta (rho >0.87) sin embargo también se ve que el Jurado 1 suele tener una valoración  significativamente (pval<0.001) menor que el jurado 2.


Esta cualidad de los datos hace que tomar el promedio para juntar las opiniones de los jurados no sea buena idea pues, si un jurado usa un rango muy grande, por ejemplo valora 1 a los malos, 5 a los medios y 10 a los buenos, y otro jurado usa  4 para los malos, 5 para los medios y 6 para los buenos el promedio de las valoraciones lo único que hará es tomar en cuenta la decisión del primer jurado pues en el caso donde haya mayor discrepancia de opiniones pesará más la del primer jurado.

Por ejemplo si cierta PO el jurado X la evalúa como buena (10) y el jurado Y como media (5), el promedio de estos dos seria 7.5, ahora si el jurado Y la puntua como mala (4) la valoración promedio será 7.  En caso contrario, si el jurado X con el rango grande vota otra cosa, por ejemplo que es mala (1) y el jurado Y que es buena el promedio seria 3.5, ponderando más la decisión del jurado X en ambos casos. Si bien este problema está mitigado si la correlación entre jurados es alta, esto no garantiza nada pues para los pocos sujetos que haya discrepancia una opinión valdrá de igual manera más que otra.

Otro problema que encontramos de usar el promedio es cómo proceder frente a los casos donde un jurado se abstiene de calificar de un candidato. El problema es similar al anterior, en los casos donde se usen distintos rangos la abstención puede mover la valoración de un participante sustancialmente rompiendo con el orden relativo que tiene el candidato para los demás jurados.

Por ejemplo, supongamos que el concursante A, dio una PO media y hay consenso en esto, entonces el jurado Z (que suponemos usa un rango de 7 a 9 para calificar) le otorga un 8, el jurado T (q se comporta como Z) le otorga otro 8 y por otro lado, el jurado W (que suponemos usa el rango [2,3,4]) lo califica con algún valor cercano a 3. El promedio de estas valoraciones son: (3+8+8) / 3 = 6.33, de este modo todos los candidatos con PO promedio van a moverse en torno al 6.33, sin embargo, si el jurado W se abstiene de evaluar al candidato, el promedio del candidato se va a 8 puntos ( (8+8)/2 ). Esta distorsión hace que un candidato promedio que tiene en promedio una PO entorno al 6 ahora tenga uno entorno a 8.  Mucho mayor al promedio de los candidatos con consenso de PO alta.

Si bien este ejemplo de juguete es extremadamente exagerado, vimos, cuando probamos el promedio como medida primera, que ocurren este tipo de distorsiones con algunos candidatos y nos dimos cuenta que eran producto de los distintos usos de las escalas de valoración (muchos más sutiles que el ejemplo de juguete).

En el caso de un concurso real, si tomamos el Concurso 3 y simulamos una abstención al azar de un jurado al azar vemos la siguiente distribución de cambios del orden de mérito (si repetimos el experimento 30K veces partiendo cada vez del estado inicial)
Es decir, cualquier abstención al azar cambia por lo menos en una posición a los candidatos (tomamos el valor de cambio de posiciones del primer candidato con cambio en la posición más alta), un 6% de las veces genera un cambio de 2 posiciones, un 3%  de 3 posiciones y 2% cambios de 4 posiciones o más. En datos reales se ve que la influencia de las abstenciones es mucho menor que en el ejemplo de juguete, sin embargo hay posiciones donde cambiar en uno la posición es quedarse sin cargo.  

Una solución posible: normalizar

Como solución para mitigar este efecto, propusimos normalizar las series de los jurados primero y luego tomar el promedio. Par eso probamos usando z-score. Z-score esencialmente consiste en normalizar con la siguiente formula: Para cada valor de una serie se resta la media y se divide por el desvío estándar. Las propiedades que tiene esta cuenta son claras, primero al restar se centra la media a 0 y al dividir por el desvío, normalizamos el rango de dispersión de la muestra.

Haciendo el mismo experimento de abstenciones al azar, pero con los datos reales del concurso 3 se ven los siguientes cambios:


Sin normalización
Z-score
Sin cambios
0 %
43 %
Un cambio
89 %
46 %
Dos cambios
6 %
6%
Tres cambios
3 %
3%
4 cambios o más
2 %
3%

Esta tabla muestra que la normalización por z-score disminuye mucho las distorsiones de las abstenciones aumentando mucho la cantidad de casos donde no cambia el orden de merito por una abstención al azar. Por supuesto tal vez haya una mejor forma de hacer estar normalización pero entre que tomamos la prueba de oposición y cerramos el dictamen tuvo que pasar poco tiempo y nos conformamos con esta.