sábado, 30 de septiembre de 2017

Respuesta al artículo titulado “Crítica a la Evaluación de Impacto de las #EscuelasDelMilenio por parte del Ministerio de Educación y a su mal uso comunicacional”


A continuación, en virtud del derecho a la replica, publico la respuesta que me hace llegar el MinEduc mediante Ruthy Intriago sobre la Crítica a la Evaluación de Impacto de las #EscuelasDelMilenio por parte del Ministerio de Educación y a su mal uso comunicacional. Felicito el hecho de que exista una respuesta al mismo, no obstante aún no se da respuesta a lo esencial por lo siguiente: 

1) ¿Por qué el MinEduc no libera las bases de datos de Ser2008? -ejercicio que habría costado 5 millones de dólares. No se sabe cuánto costó la evaluación de impacto financiada por el BID a cargo de Juan Ponce, Marcelo Drouet y Ruthy Intriago.-

2) ¿Cuál es el listado de escuelas -Código Amie y nombre- que se utilizan para el grupo de tratamiento (17) y cuál es el listado utilizado para el grupo de control? Una muestra insuficiente que contiene sesgo de selección, porque las Escuelas del Milenio sustituyen a varias escuelas pequeñas por lo cual no es posible tener una línea de base con Ser2008, siendo que al no saber cómo se construye la línea de base para una institución que absorbe a varias instituciones de menor tamaño el estudio de MinEduc pierde toda validez, mi estudio identifico 41 UEM lo cual es mas del doble de las 17 que utiliza el MinEduc para el mismo periodo en mención. 

3) ¿Por qué se insiste en manifestar que el factor socioeconómico no es relevante, cuando la literatura empírica, por más de 60 años y a lo largo de miles de estudios en diferentes países, determina que es el principal factor asociado al rendimiento académico, siendo que su omisión es lo que causa endogeneidad? Con referente a mi estudio, el citar un estudio clásico como el de Coleman 1966, con más de 15,300 referencias académicas al mismo, no puede ser catalogado como desactualizado, sino más bien como algo relevante dentro de la revisión literaria puesto que se entiende que este no es un campo de investigación nuevo y que no se trata de inventar el agua tibia.

Debo así mismo manifestar sobre mi estudio las siguientes aclaraciones, que son importantes para comprender la respuesta del MinEduc en el entorno de un debate académico en el que se da una replica y contra replica: 

1) El factor socioeconómico se toma en cuenta dentro de mi estudio puesto que así lo dictamina el modelo teórico y empírico, las referencias son extensas por ejemplo el estudio de Sirin 2005 tiene más de 2,600 citas académicas, y el de White 1982 más de 1,700 citas académicas. Este es un factor que NO se ve alterado por la intervención del programa puesto que este se construye utilizando como fuente la encuesta a padres de familia, en la cual se indaga por: el nivel educativo de los padres, los servicios con los que cuenta el hogar y los bienes del mismo. Por ende, es imposible que la construcción de mejor infraestructura y dotar a las escuelas con planta docente completa altere el factor socioeconómico, siendo que la omisión de esta variable es más bien lo que generaría sesgo de selección porque no se estaría comparando estudiantes y escuelas homogéneas entre el grupo de control y el grupo de tratamiento. 

2) Las covariables que se utilizan en mi estudio afectan la probabilidad de ser parte del programa "Escuelas del Milenio" y al resultado del mismo que son los puntajes en las pruebas Ser Bachiller. Con esto se controla que el grupo de control y el de tratamiento sean lo más homogéneamente posible, siendo que se utiliza el par más cercano para armar el grupo de soporte común a partir del algoritmo de Mahalanobis, como ya se explicó luego de realizar el emparejamiento el sesgo se redujo de 14% a 0.8%. Son varias las variables como ubicación geográfica de la escuela (Urbano-Rural), régimen de la escuela (costa-sierra), autodeterminación étnica del estudiante (indígena, afro ecuatoriano o mestizo), sexo del estudiante (hombre, mujer) que no cambian en el tiempo, por ende es claro que con esto se logra un adecuado contrafactual con el cual se puede comparar estudiantes que recibieron el tratamiento y otros que no lo recibieron pero que tenían unas condiciones de base semejantes -antes de la intervención-. La inclusión de variables como la aspiración estudiantil o el trabajo juvenil, que podrían ser afectados por la intervención -hipótesis no comprobada- en realidad hace más robusto al estudio puesto que si estás variables se omiten el efecto encontrado es mayor. La inclusión de estas variables se hace tomando en cuenta el unconfoundeness asumption (ver video explicativo), puesto que de esta forma se busca evitar que puedan existir variables omitidas que hagan no contrastables al grupo de control y al de tratamiento puesto que no existe una selección aleatoria para la implementación del programa.

3) Está ampliamente documentado en la literatura económica que la unidad de observación debe de ser el estudiante y no la escuela puesto que el 70% de la varianza del rendimiento académico se explica por características del mismo. Ver algunos ejemplos como W.Hoy (2012), Konstantopoulos, Spyros; Borman, Geoffrey (2011) y Hanushek et al (2009) estudios que abordan factores institucionales de las escuelas y usan al estudiante como unidad de análisis. Es así que, controlando por características individuales y por medio de la utilización de errores clusterizados por escuela o modelos jerárquicos es que se miden los efectos de las características de las escuelas sin incurrir en sesgos o una mala inferencia, tal como lo hace mi estudio que utiliza errores clusterizados a nivel de escuela. 

4) Cuando me refiero a que aún no se puede determinar efectos causales y definitivos para las Escuelas del Milenio, lo hago en el sentido de que la intervención debe de ser constantemente evaluada en el tiempo. Esto porque, el tiempo de exposición al tratamiento aún es insuficiente por lo que recién en 2020 se tendrá resultados robustos al mismo. No obstante, los resultados preliminares muestran que las UEM han tenido un impacto positivo, por lo cual no se entiende la pasividad del MinEduc a titulares totalmente descontextualizados. Mi estudio utiliza 3 métodos de estimación, los dos primeros son de carácter más descriptivo aunque dado la buena selección de variables de control se puede asumir causalidad (ver video explicativo) y el tercero -el matching o emparejamiento- es una técnica que permite establecer causalidad más robustamente. Adicionalmente se ha realizado una nueva estimación utilizando la descomposición de Blinder-Oaxaca, siendo que los resultados se mantienen similares a los del emparejamiento, por lo cual, se reafirma que las Escuelas del Milenio tienen un efecto positivo sobre los aprendizajes. 


Sin alargarme más, a continuación puede encontrar la respuesta que da el MinEduc sobre la crítica al estudio de evaluación de impacto que realice en una entrada anterior del blog: 


Por: Juan Ponce, Marcelo Drouet y Ruthy Intriago.

El domingo 17 de septiembre de 2017, el Econ. Juan Pablo Jaramillo publica en el blog ECUANOMICA un artículo titulado “Crítica a la Evaluación de Impacto de las #EscuelasDelMilenio por parte del Ministerio de Educación y a su mal uso comunicacional”, en el cual expone ciertas especificaciones sobre los resultados del documento de política del Ministerio de Educación realizado por Juan Ponce y Marcelo Drouet (2017) que trata sobre la Evaluación de Impacto de las Unidades Educativas del Milenio, en virtud de que el Econ. Jaramillo ha realizado un estudio titulado de manera similar pero con el uso de otras estrategias metodológicas.

En este artículo el Econ. Jaramillo pide que le comentemos su investigación para enriquecer el debate académico. Por ello, el presente documento se compone de dos partes. La primera realiza comentarios académicos al estudio del Econ. Jaramillo, mientras que la segunda parte responde a sus inquietudes respecto a nuestro estudio.

1.- Observaciones al documento de Jaramillo.

- El estudio contiene una revisión de la literatura desactualizada y no pertinente. Mientras el estudio busca conocer el impacto en logros académicos por parte del programa de construcción de las Unidades Educativas del Milenio (UEM), la revisión de la literatura no revisa estudios de casos parecidos y se concentra en estudios (desactualizados) que analizan los efectos de las condiciones socioeconómicas sobre logros. Por ello, se sugiere la revisión de literatura de programas relacionados con la construcción de infraestructura educativa y la dotación de equipamiento tecnológico en unidades educativas, y no solamente concentrarse en las condiciones socioeconómicas del estudiante o de las instituciones educativas.

- Al presentar un documento o estudio sobre evaluación de impacto de algún programa, es de suma importancia realizar una descripción detallada del mismo, de esta manera los lectores tendrán la posibilidad de conocer en detalle en que consiste el programa, cuáles fueron los objetivos de su implementación, cómo se desarrolló el proceso para la toma de decisión de la intervención, cuál fue su presupuesto, su cobertura, entre otros aspectos. El estudio de Juan Pablo carece de una detalla descripción del programa “Construcción de las Unidades Educativas del Milenio”.

- Respecto a la metodología utilizada en el estudio, no se evidencia una estrategia de identificación sólida que permita evaluar el impacto del programa “Construcción de las Unidades Educativas del Milenio” respecto a logros. El estudio utiliza 3 métodos. Los dos primeros son simples correlaciones, que no abordan para nada el problema de le endogeneidad ni presentan una adecuada estrategia de identificación (regresión multivariada y modelos logísticos); mientras que el tercer método que consiste en un emparejamiento, que podría considerarse como una metodología de evaluación de impacto, tiene serias falencias metodológicas que se exponen a continuación:

i. Las técnicas de emparejamiento parten del supuesto de la no existencia de no observables que hayan influido en la participación del programa (esto se conoce en inglés como “unconfoundedness assumption”). Este supuesto es duro y difícil de probar en un estudio de este caso, en el cual la selección de las escuelas que se van a hacer UEMs no fue aleatoria, y no se conoce adecuadamente los criterios de selección (en especial no observables).

ii. El emparejamiento se debe realizar utilizando un modelo de selección que permita calcular la probabilidad de participar en el programa (el propensity score). Sobre esta variable se realiza el emparejamiento. Se debe trabaja solo con la región de “common support”. Además es fundamental para el modelo de selección utilizar variables que no puedan ser influenciadas por la intervención, y que sean anteriores a la intervención. Nada de esto se hace en el estudio en mención. Todo lo cual invalida el emparejamiento realizado.

iii. En un estudio de impacto es fundamental realizar pruebas de robustez de los resultados, para lo cual se presentan diferentes especificaciones econométricas en las que se incluyen diferentes variables de control. Se espera que el coeficiente de impacto no tenga cambios radicales entre una especificación y otra, así como los errores estándares (aunque a medida que se incluyen más controles las estimaciones van a ser siempre más exactas). Es importante no incluir como variables de control a variables que pueden verse afectadas por la intervención, dado que esto sesga los resultados. El estudio analizado no presenta pruebas de robustez y solo reporta una especificación econométrica. Además, en dicha especificación econométrica se incluyen variables endógenas y que pueden haber sido influenciadas por la participación en el programa como el nivel socio-económico, la aspiración a ir a una universidad, considerar si los estudiantes trabajan o no trabajan, el quintil socioeconómico del individuo y de la institución.

iv. Es importante en un emparejamiento mostrar que las escuelas de tratamiento y de control son lo más parecidas antes de la intervención. Con la base del Archivo Maestro de Instituciones Educativas (Publicadas en la página web del Ministerio de Educación) se pueden efectuar test de medias para los grupos de tratamiento y control con variables antes de la intervención y verificar si el emparejamiento en realidad balanceó los grupos. Esto no se hace en el estudio de Jaramillo.

- La unidad de análisis tiene que estar definida según la intervención que se evaluará, que en este caso es la construcción de escuelas (Unidades Educativa del Milenio). Por lo tanto, la unidad de análisis debe ser la institución educativa y no los individuos. La evaluación se realizaría a nivel de individuos siempre que haya una intervención, en una escuela, en la que unos estudiantes reciben y otros no reciben la intervención. En caso de que se insista en trabajar con individuos, los errores estándar deben ser corregidos por autocorrelación intra-escuela, lo cual no se cumple en este estudio. Se debería reportar también los resultados a nivel de escuela. Y se debe reportar, a nivel de escuela, el análisis de potencia y el efecto mínimo detectable de la muestra.

- Uno de los objetivos fundamentales del programa de construcción de las Unidades Educativas del Milenio es ampliar la cobertura, por lo tanto se debería evaluar resultados en matrícula. En este caso, el estudio no evalúa este impacto pese a que la información se encuentra pública y disponible.

- En el estudio no queda claro si los resultados corresponden a los logros escolares para el año 2015 o 2016, por lo que sería pertinente incluir la especificación de los años y también evaluar los resultados del año 2017, que ya están disponibles.

2.- Respuesta a las observaciones realizadas al documento de Ponce y Drouet.

Para empezar, el Econ. Jaramillo menciona al Dr. Juan Ponce como único autor del documento de política “Evaluación de Impacto de las Unidades Educativas del Milenio”. En el mundo académico hay que ser riguroso en la cita de los estudios. Se aclara que el estudio tiene como co-autores al Doctor Juan Ponce y el Economista Marcelo Drouet, con el apoyo técnico de la Dirección Nacional de Investigación Educativa del Ministerio de Educación y la asesoría técnica del Doctor Norbert Schady, Asesor Económico Principal para el Sector Social del Banco Interamericano de Desarrollo (BID) y la Doctora Yyannu Cruz, Economista Senior para el Sector Social del BID. Agradecemos por citar nuestros resultados en el blog y que se haya visibilizado la importancia de la magnitud que se encontró en los logros de matemáticas para el año 2016.

A continuación se especifican las críticas con sus respectivas réplicas: “La evaluación del MinEduc se realiza con datos que son parcialmente públicos, pues la evaluación Ser 2008, no cuenta con bases de datos que se pueden descargar desde su página web como lo son las de Ineval para las evaluaciones Ser Bachiller. Por ende, la evaluación de MinEduc no se puede replicar, elemento clave de toda investigación que pretende tener carácter científico.”

La base de datos de los resultados de las Evaluaciones SER Estudiante 2008 se encontraron a disposición de la Coordinación de Investigación de INEVAL, institución en la cual el Econ. Jaramillo laboró como Director de Investigación desde junio de 2015 hasta septiembre de 2016. La mencionada base de datos fue transferida por dicha Coordinación al Ministerio de Educación, por lo tanto es responsabilidad del INEVAL hacerla pública, así como lo ha hecho, de manera acertada, con las otras evaluaciones.

Los resultados de la evaluaciones SER Estudiante 2008 fueron presentados por el MINEDUC en el año 2008 y tuvo un costo para el país de aproximadamente 5 millones de dólares. En este sentido, no existe ningún informe técnico que invalide la calidad de las pruebas SER Estudiante 2008 y se le invita al Eco. Jaramillo y al Sr. Harvey Sanchez (mencionado en su artículo) que presenten los informes respectivos donde se sustente la declaración de que las pruebas SER Estudiante 2008 “carecen de validez de constructo y de medición (...)”. Ni el Ministerio de Educación ni el INEVAL han descartado estas pruebas aplicadas a los estudiantes que representaron una fuerte inversión para el país. Adicional a lo anterior, empíricamente nuestro estudio demuestra que la prueba SER Estudiante 2008 es un buen predictor de las pruebas 2015 y 2016. Revise el coeficiente de las pruebas y el error estándar que reportamos en el estudio.

“Para el caso del documento del MinEduc la unidad de observación son las escuelas, esto genera sesgo en los resultados puesto que la literatura económica ampliamente determina que el 70% de la varianza del rendimiento educativo obedece a características de los individuos y no al de las escuelas. Omitir variables relevantes como el Factor Socioeconómico genera endogeneidad y por ende sesga el resultado. Dado a que el programa de las UEM se prioriza en zonas deprimidas, es claro que el sesgo de omitir dicha variable va en el sentido de que el impacto de las UEM podría estar subestimado al omitirlo.”

Como se ha comentado previamente en el apartado de observaciones al estudio de Jaramillo (2017), la evaluación de impacto debe realizarse al mismo nivel al que se da la intervención. El programa consiste en la construcción de escuelas. Por tanto la unidad de análisis correcta son las escuelas. Realizar el análisis a nivel de individuo, además de inflar artificialmente la muestra, conlleva problemas de correlación intra-escuela, lo cual afecta al cálculo de los errores estándares. En cuanto a incluir el nivel socio económico como variable de control es importante recordar que en un estudio de evaluación de impacto NO se deben incluir como variables de control en las especificaciones a variables que pueden haber sido influenciados por la intervención, dado que ello genera sesgo. Por ejemplo, la existencia de escuelas nuevas, más grandes y modernas puede atraer a estudiantes que antes estaban en escuelas privadas y por ello alterar el nivel socioeconómico tanto de los estudiantes como de los planteles. Una forma más robusta de corregir y hacer más comparables los grupos de tratamiento y control es reportar tres especificaciones, donde la tercera especificación tiene más de 120 variables de control. Por último, a pesar de no ser lo correcto, hemos corrido una cuarta especificación en donde se ha incluido como variable de control el índice socioeconómico y no se alteran las conclusiones de nuestro estudio.

“Puesto que la unidad de análisis en el estudio MinEduc es la Escuela, sus estimaciones contienen en algunos casos menos de 35 escuelas de control y solo 17 Escuelas Educativas del Milenio. El contraste con mi estimación es evidente, mi unidad analítica es el estudiante dentro de la escuela y por ende mis estimaciones se hacen con más de 10,000 casos, de los cuales alrededor de 3,800 estudiantes asistieron a Escuelas del Milenio. Además, se logró identificar a 41 UEM para el mismo periodo de análisis que es el año 2016, por ende es claro que el MinEduc sesga la selección de su tratamiento al seleccionar solo una parte de las UEM (17 entre 41 que tenían datos de Ser Bachiller)” En nuestro estudio se reportan, de manera transparente, pruebas de potencia y efecto mínimo detectable de los estimadores de acuerdo al número de escuelas de la muestra. El número de UEM que se seleccionaron es el que logró el adecuado balance entre los grupos de tratamiento y control en línea de base, con lo que se demuestra que son comparables en observables (región ‘of common support’)

“La metodología del MinEduc es un emparejamiento con línea de base que simula el método de diferencias en diferencias, controla por variables no observables que no cambian en el tiempo, pero no controla por variables observables y no observables que cambian en el tiempo, como lo es la composición socioeconómica de las escuelas. Mi método de estimación, por el contrario, es un emparejamiento sin línea de base que busca controlar por variables observables con el fin de tener un adecuado contrafactual, el emparejamiento o pareo en mi caso redujo el sesgo por observables de 14 puntos a 0.8 puntos porcentuales.” En nuestro estudio se presentan 2 estrategias metodológicas robustas que se sustentan en una estrategia de Diferencias en Diferencias con un matching a lo Hirano Imbens Ridder (HIR), así como Diferencias en Diferencias con lista de espera, metodologías que han sido aplicadas recientemente en el mundo académico. La aplicación de una metodología de Diferencias en Diferencias permite corregir por no observables fijos en el tiempo y el matching a lo HIR permite corregir por observables previo a la intervención. En el caso de lista de espera permite corregir por sesgo de selección. Ningún método de evaluación de impacto controla por observables que cambien en el tiempo. Es imposible. En tanto que el cambio en observables en el tiempo, y su diferencia entre tratamiento y control, es justamente el impacto del programa. En la estrategia metodológica aplicada por el Econ. Jaramillo ninguno de estos elementos es considerado. La inclusión de observables que hayan sido cambiados por efectos de la intervención sesgan los resultados.

“Las variables que el MinEduc utiliza para hacer el emparejamiento tienen potencialmente colinealiadad con la variable de tratamiento. A modo simple, una UEM se caracteriza por tener mayor tamaño con respecto a las instituciones que fueron fusionadas previo a su existencia, se caracteriza por tener planta docente completa y mejor infraestructura. Por ende usar variables como número de alumnos, número de profesores o número de computadores hace que el grupo de control y el grupo de tratamiento sean homogéneos y por ende se anule el posible efecto de las UEM. El estudio de MinEduc estaría evaluando escuelas bien dotadas de infraestructura y docentes cuya marca es UEM contra otras bien dotadas de infraestructura y docentes cuya marca no es UEM. En términos simples compara la medicina marca A vs la marca B, cuando lo relevante es comparar la medicina marca A vs no tomar ninguna medicina. Es decir, lo relevante es medir el impacto de la mejor infraestructura y planta docente completa, el nombre publicitario del programa “Escuelas del Milenio” es secundario.” En términos simples, para efectuar una evaluación de impacto se busca que los grupos sean balanceados (homogéneos) previo a la intervención para comparar los mismos elementos (manzanas con manzanas). Lo que se menciona en esta crítica es lo que en efecto se realiza al momento de aplicar una estrategia de evaluación de impacto, comparar grupos similares entre sí para determinar el impacto propio de la intervención de política, para el caso la construcción de Unidades Educativas del Milenio. Es fundamental que los grupos de tratamiento y de control hayan tenido condiciones similares antes de la intervención y que sean comparables. Solo así se puede ver el cambio que causó la intervención en el grupo de tratamiento versus el no cambio en el grupo de control. 

“El estudio del MinEduc se limita a evaluar el impacto en Matemáticas y Lenguaje. Deja de lado Estudios Sociales, Ciencias Naturales, el Promedio Global y los niveles de desempeño que Inevalpublica. Por ende, es claro que es un estudio incompleto que no permite la adecuada toma de decisiones.” En nuestro estudio no se aplica una evaluación de impacto sobre logros de Ciencias Naturales y Estudios Sociales porque la prueba SER Estudiante 2008 fue censal solo para los logros de Matemáticas y Lenguaje. Para las otras áreas no existe línea de base. 

“Como he mencionado, mi primera aproximación al impacto de las UEM determina que estás han sido positivas. No obstante, dicha evaluación es aún insuficiente y se debe de ampliar en el tiempo, partiendo en 2014 y midiendo en 2020 es que se podría establecer un vínculo causal.” Estamos de acuerdo con este último comentario. El Econ. Jaramillo claramente reconoce que su estudio no demuestra causalidad sino únicamente correlación. Lo cual es correcto.

1 comentario:

  1. Soy una persona que ofrece préstamos con tasas de interés bajas para individuos, pequeñas empresas, inversiones personales, etc. Son préstamos locales e internacionales para personas de todo el mundo. Comuníquese conmigo hoy mismo y dígame cuáles son sus necesidades. Estoy listo para otorgarle este préstamo en un plazo máximo de 48 horas o 72 horas a partir de la recepción de la solicitud. Póngase en contacto conmigo para obtener información sobre los términos de mi préstamo. Correo electrónico: sophiacarlot2@gmail.com

    ResponderEliminar