jueves, 2 de junio de 2016

Estadística Exactas-UBA: alumnos y examenes finales

Hace algunos años con Pablo Zivic (@ideasrapidas) analizamos los datos de los alumnos / cursadas / finales de la facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires disponibles en materias.fcen.uba.ar. Dichos datos contienen información de alumnos (nombre, libreta universitaria, email) , cuándo cursaron cada materia y cuándo rindieron los finales con su resultado, entre otras cosas.


Encontramos algunas cosas interesantes... primero describimos los datos, luego planteamos 3 preguntas que intentamos responder:

1 - ¿(des) aprobamos igual durante toda la carrera?
2 - ¿Hay relación entre el resultado de un final y el tiempo que tardamos en rendirlo?
3 - ¿Los alumnos del primer cuatrimestre desaprueban menos que los del segundo?

Finalmente tomamos los alumnos de una carrera en particular y miramos cómo es el orden de cursada real en comparación con el plan de estudio




Datos




La distribución de alumnos por el año de su libreta muestra valores coherentes para cierto rango de años. Se ve notoriamente un pozo en 1985 debido al inicio de la puesta en marcha del ciclo básico común (CBC) en remplazo del examen de ingreso. A su vez se ve un pico positivo para el año 1973 (desconocemos el motivo, tal vez el contexto argentino). Lo datos de los alumnos más antiguos probablemente no estén completos en el sistema por eso también vemos muy pocos datos previos a 1960.


Los alumnos con libretas posteriores al 2005 no terminaron su carrera (para el momento que obtuvimos los datos) por lo que para contestar las preguntas que nos planteamos, filtramos algunos datos.


Recién a partir (aproximadamente) de 1985 los finales parecen estar todos cargados y empieza a bajar el promedio a partir de 1992 con una abrupta caída desde el 2003. Esta última caída es fácilmente explícame, pues es producto de la gente aun no recibida. Sin embargo la caída de finales para los alumnos que ingresaron a partir del 1992 y hasta el 2003 se debe a alumnos que bien se les alargo mucho la carrera o más posiblemente abandonaron lo estudios.



La distribución de finales por mes no es uniforme, probablemente porque las materias promocionadas que en actas aparecen como finales y ocurren a fin de cuatrimestre. En cuanto a la distribución por días, están más concentrados en Martes y Viernes (>51%)




Finales desaprobados

En exactas muchas veces no se pasan finales (cuando la nota es mala o baja) esto podría explicarse, en parte, por qué solo el 5% de todos los finales en el sistema están desaprobados. Históricamente la tasa de finales desaprobados fue bajando hasta el 2006 (llegando a 3%) donde empieza a subir al 5%.


Es interesante la distribución de finales desaprobados agrupados por mes. Los finales rendidos en marzo tienen una tasa de desaprobación del 7% cuando en Julio tan solo de 2.5%. En cuanto a los dias de la semana de distribuyen uniformemente.



Pregunta 1: ¿(des) aprobamos igual durante toda la carrera?


Tomando alumnos con al menos 15 finales (para descartar aquellos que abandonaron tempranamente la carrera) calculamos la tasa de finales aprobados en función al inicio de su carrera. Los datos muestran que al principio de la carrera desaprobamos más finales relativamente y a medida que avanzan los años crece la tasa de aprobación. A partir del quinto año la tasa se estabiliza pero lo cierto es que disminuye fuertemente la cantidad de alumnos con finales a medida que pasan los años.



Pregunta 2: ¿Hay relación entre el resultado de un final y el tiempo que tardamos en rendirlo?


Tomando, nuevamente, alumnos con mas de 15 finales medimos el efecto de "colgar un final". Vemos que hay una correlación negativa en la tasa de aprobación y el tiempo que esperamos para rendir el final. Es decir, a medida que demoramos más en rendir un final después de haber aprobado la cursada, la tasa de aprobación del final baja. Si bien el primer punto de la figura (0-5 meses) debe corresponder a las materias promocionadas, el efecto mencionado se conserva para los demás puntos también.




Pregunta 3: ¿Los alumnos del primer cuatrimestre desaprueban menos que los del segundo?


Podríamos estimar cuales alumnos ingresaron el primer cuatrimestre y cuales el segundo en cada camada. Sin embargo decidimos ir por otro lado... normalizamos la primera parte del numero de libreta XXX (para una libreta XXX/YY) por la cantidad de alumnos en esa camada. Por lo que el primer alumno con libreta 1/YY va a tener orden 1 / #camada y el último 1. Teniendo en cuenta esto, agrupamos todas las camadas filtrando como mencionamos varias veces (más de 15 finales). Lo que vemos inicialmente que el primer 68% de lo alumnos tienen un orden promedio de aprobación separado (y superior) del otro restante. No sabemos bien cual es la distribución de alumnos en primer cuatrimestre con respecto al segundo, pero si fuera constante a lo largo de los años, esta separación podría explicar bien los dos cuatrimestres. Al menos podríamos decir hay una diferencia con los últimos alumnos en anotarse en las carreras, estos tienen menor tasa de aprobación que los primeros (68%) en anotarse (p<10^-11).



Comparación plan de estudio de computación con el plan de estudio real

La carrera de computación consta de 5 años donde se deben cursar por lo general dos materias por cuatrimestre. En promedio, la diferencia en fechas de inscripción de un cuatrimestre a otro son 6 meses. Por lo cual, si los alumnos siguieran el plan de estudio propuesto la cursada se vería así:



Cada circulo representa una materia, dos materias con el mismo color se deben cursar el mismo cuatrimestre según el plan. Existen flechas entre materias cuando una materia sigue a la otra según el plan y el número  de la flecha corresponde a la cantidad de meses que separan las materias.

Teniendo en cuenta este plan, tomamos varios alumnos de computación (con al menos 15 finales, en total 650) y medimos la mediana de los tiempos para todos los alumnos para cada flecha. De esta manera, tenemos un plan de estudios real poblacional.  

Dibujamos, de la misma forma, solo anotamos los links donde la mediana difiere al menos en 3 meses con el plan de estudios.


El tamaño de los nodos representa  el nivel de distorsión que reciben en cuanto al tiempo que tardan en cursarse. El primer año y medio de carrera los alumnos siguen el plan bastante ordenadamente pero al llegar a métodos numéricos empiezan a cambiarlo. Si se ve el árbol de correlativas (de cubawiki.com.ar), parece lógico que métodos numéricos sea dejado un poco de lado. A su vez también corresponde con el momento en que los alumnos empiezan a conseguir buenos trabajos pues ya tienen un nivel de formación interesante para algunas tareas de la industria. También teoría de lenguajes  recibe alumnos tardíamente, junto con Base de datos y Paradigmas de Lenguajes de Programación. Casi todas estas materias son materias que no habilitan a cursar ninguna otra materia obligatoria (es decir hojas en el árbol de correlatividad) por lo que tiene sentido que sean las más demoradas. 








12 comentarios:

  1. díganme que los diagramitas se mueven y no soy yo sola viendo unicornios!
    preguntas: están interesados en hacer más estadísticas de este tipo? qué los llevó a hacerlo?

    ResponderEliminar
  2. Me molesta un toque que cualquiera sin pedir permiso (cualquier ayudante de segunda incluso) tenga acceso a todo el historial académico de todos los alumnos.

    Si un alumno quiere usar estos datos, la facultad le da los datos anonimizados. Sin embargo, cualquier persona puede scrappear el sistema viejo de inscripciones y tener gran parte de la info, y si es ayudante, más todavía.

    Más allá de eso, muy copado el análisis :)

    ResponderEliminar
    Respuestas
    1. Coincido, acorde a esto no publicamos nada usando esa información. El sistema nuevo contempla la privacidad mostrando sólo lo necesario a cada docente. Supongo q este lo cerrarán inminente.

      Eliminar
    2. Coincido, acorde a esto no publicamos nada usando esa información. El sistema nuevo contempla la privacidad mostrando sólo lo necesario a cada docente. Supongo q este lo cerrarán inminente.

      Eliminar
  3. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  4. Muy copado el análisis, hay un par de cosas que se condicen con la tesis que hicimos con Nico Varaschin sobre estos y otros temas (http://www.dc.uba.ar/inv/tesis/licenciatura/2016/varaschin.pdf) con datos anonimizados como dijo Marco , pero con datos del 2000 al 2014 :D

    Daniel

    ResponderEliminar
    Respuestas
    1. Buenisimo, gracias x compartirla. Me imagino q deben haber encontrado cosas muy copadas. Este fue un análisis acotado en términos de tiempo blog pero imagino q es un gran dataset para explorar.

      Con respecto a la privacidad, coincido q es un bajón como está y por eso nosotros para trabajar hasheamos las libretas y tiramos nombres y emails y claramente no publicamos nada personal

      Eliminar
  5. Coincide con lo que se hablo hace unos años en el cambio de plan de estudios. Hay que partir Métodos en 2 materias.

    ResponderEliminar
  6. Con respecto a la segunda pregunta, creo que hay profesores que toman más difícil si no rendís al final de su cursada.

    ResponderEliminar
  7. Excelente análisis, super interesante y relevante!

    ResponderEliminar