top of page
Una guía para principiantes sobre la investigación de la lectura

La instrucción basada en evidencia se usa comúnmente como una etiqueta en las pedagogías de enseñanza; sin embargo, rara vez significa lo que la gente piensa que significa. Por ejemplo, tanto los defensores de la alfabetización equilibrada como los defensores de la alfabetización estructurada se refieren a sí mismos como basados en la evidencia. Sin embargo, los tipos de pruebas que utilizan son muy diferentes. Cuando afirmamos que una estrategia de enseñanza está basada en evidencia, lo que estamos tratando de decir es que hay evidencia de investigación que respalda la eficacia de esa estrategia. Pero no todos los tipos de evidencia de investigación son iguales. En este artículo, intentaré brindarle al lector una comprensión básica sobre cómo evaluar la eficacia de una estrategia de enseñanza y la solidez de la evidencia detrás de ella. 

 

Hay tres tipos principales de trabajos de investigación en educación. El primero es cualitativo. La investigación cualitativa tiende a ser observacional y racionalista. Los investigadores generalmente observan a los maestros usando una estrategia de enseñanza específica y luego registran sus observaciones e hipótesis con respecto a esas observaciones. La investigación cualitativa puede ser un gran lugar para comenzar la investigación, porque puede darnos pistas sobre qué estrategias podrían ser interesantes para explorar más a fondo. La investigación cualitativa también puede ser útil para explicar por qué una estrategia funciona mejor que otra o cómo se podría utilizar mejor una estrategia. Dicho esto, los estudios cualitativos nunca deben usarse como prueba definitiva de la eficacia o la falta de ella. En última instancia, un estudio cualitativo es realmente solo una anécdota muy bien pensada.  

 

El segundo tipo principal de investigación es cuantitativo. La investigación cuantitativa por lo general busca crear un experimento y medir los resultados del experimento usando análisis estadísticos, más comúnmente tamaños de efectos. Se utilizan muchos cálculos del tamaño del efecto en la literatura, pero el más común se conoce como D de Cohen. La D de Cohen se calcula dividiendo la diferencia media o los resultados encontrados de una intervención con la desviación estadística (el rango de resultados). Los tamaños del efecto deben interpretarse por su magnitud. Un tamaño del efecto por debajo de .20 generalmente significa que el resultado fue estadísticamente insignificante. .20 a menudo se usa como umbral porque es el tamaño del efecto promedio encontrado para una intervención de placebo. Dentro de la investigación en educación, encontramos que el estudio de educación promedio presenta un tamaño del efecto de .40. Este es en realidad un tamaño de efecto más alto en comparación con otros campos de estudio; sin embargo, existen algunas prácticas comunes en la investigación educativa que pueden inflar los tamaños del efecto. Dicho esto, según mis experiencias personales, cualquier cosa en el rango de .40-.69 probablemente debería describirse como moderada o promedio. Los tamaños del efecto entre .70 y .99 probablemente deberían considerarse altos, lo que significa que existe una fuerte evidencia de que la intervención funciona. Y los tamaños del efecto por encima de 1,0 deben considerarse muy fuertes, lo que significa que hay pruebas muy sólidas de que la intervención funciona. Es importante recordar que en ciencia hablamos en grados de probabilidades, no absolutos. Esto significa que cuanto mayor sea el tamaño del efecto que vemos en la investigación, más dispuestos debemos estar a creer en la eficacia de esa estrategia. Sin embargo, nunca debemos estar verdaderamente seguros de nada. Por supuesto, las pautas anteriores son mis recomendaciones personales para la investigación educativa. A continuación puede ver las pautas de interpretación recomendadas por Jacob Cohen, el inventor de la fórmula. 

Guide to Interpreting Effect Sizes (1).png

Dicho todo esto, no todos los estudios experimentales se crean por igual. Algunos pueden estar mal diseñados. Por ejemplo, el año pasado me encontré con un estudio en el que en el grupo experimental un maestro leía un libro a un estudiante y luego hacía que el estudiante leyera el libro para sí mismo. En el grupo de control, el maestro hizo que el estudiante leyera el libro para sí mismo. Su estudio mostró que el grupo experimental superó al grupo de control en comprensión y concluyeron en su discusión que esto demostró la eficacia de la "lectura del oído". Por supuesto, este es un estudio terriblemente diseñado por dos razones. En primer lugar, los estudiantes pudieron leer la historia dos veces en el grupo experimental y solo una vez en el grupo de control. En segundo lugar, por supuesto, los lectores con dificultades entendían mejor el texto si un maestro se los leía primero; sin embargo, esto no prueba la eficacia de la “lectura de oído” como estrategia de instrucción.  

 

Cuando observamos artículos cuantitativos, generalmente queremos ver un experimento rigurosamente diseñado, un tamaño de muestra suficiente e, idealmente, un grupo de control aleatorio. Dicho esto, muchos estudios de educación no utilizan un grupo de control en absoluto. Simplemente tienen una prueba previa y una prueba posterior para la intervención y miden el tamaño del efecto de los resultados. Sin embargo, el problema con el diseño de este estudio es que en realidad no estamos probando la eficacia de la idea en comparación con la instrucción regular. En última instancia, asumiríamos que cualquier tiempo dedicado a la instrucción debería hacer que los estudiantes aprendan. Cuando llevamos a cabo un experimento, debemos probar si este método de enseñanza funciona mejor que la instrucción regular. Cuando hacemos un experimento, el marco de tiempo también es realmente importante, ya que cuanto más largo sea el experimento, cuanto más tiempo tengan los estudiantes para aprender el plan de estudios, mayores deberían ser los resultados. Cuando vemos estudios sin grupos de control, o horizontes de tiempo muy largos, o peor ambos, debemos esperar tamaños de efecto más grandes. Cuando ve un estudio que no tiene un grupo de control y se lleva a cabo durante un período de tiempo excesivamente largo (como un año o más) y ve un tamaño del efecto pequeño, puede estar razonablemente seguro de que la evidencia de ese estudio es extremadamente débil. 

 

Otras cosas que deberían hacernos desconfiar al leer investigaciones son los tamaños de muestra muy pequeños, el sesgo del investigador o la falta de aleatorización. Cuando un estudio utiliza una muestra más pequeña, esto afecta drásticamente el rango de resultados y puede terminar creando tamaños de efectos distorsionados en ambos extremos del espectro. Además, normalmente vemos investigadores que están muy interesados en una idea, publican estudios con resultados más altos que los investigadores que están probando las hipótesis de otras personas. Es probable que esto no sea intencional, sino más bien el resultado de que el investigador dedicado haga todo lo posible para asegurarse de que el grupo de intervención tenga éxito. Si bien esto no es necesariamente incorrecto, queremos asegurarnos de que los resultados sean reproducibles para el maestro promedio. Por último, aunque un estudio con un grupo de control casi siempre será mejor que un estudio sin uno, idealmente queremos que un grupo experimental y un grupo de control se asignen al azar. Ahora bien, esto es menos importante que algunos de los otros puntos mencionados; sin embargo, todavía puede importar. Por ejemplo, no querríamos que el grupo de control estuviera formado por nuestros alumnos más débiles y que nuestro grupo experimental fueran nuestros alumnos más fuertes, ya que eso obviamente sesgaría los resultados.  

 

Incluso si tenemos un estudio realmente bien hecho, generalmente no le damos un valor alto a los estudios individuales, eso se debe a que generalmente vemos una variedad de resultados en la investigación. Esta es a menudo la parte de la ciencia en la que el público en general se equivoca más. No solo en la educación, sino en la ciencia en general. Por ejemplo, recientemente hice un metanálisis secundario sobre morfología y encontré un estudio con un tamaño del efecto de .29 y otro con un tamaño del efecto de 1.24. Obviamente, ambos tamaños del efecto no pueden representar mejor el efecto de la instrucción morfológica, por lo que necesitamos un método para determinar mejor lo que se conoce como consenso científico. Aquí es donde entra en juego nuestro tercer tipo principal de investigación. El metanálisis analiza todos los estudios en un área de investigación e intenta utilizar el análisis estadístico para encontrar los resultados medios. 

 

Idealmente, el metanálisis se realiza ponderando los estudios de acuerdo con el diseño y el tamaño de la muestra, de modo que no le demos el mismo peso a un estudio con un tamaño de muestra de 10 y a un estudio con un tamaño de muestra de 500. Sin embargo, esto no siempre es así. posible y no todos los metanálisis hacen esto. Cuando los investigadores no pueden ponderar un metanálisis, tomarán un promedio de los tamaños del efecto informados, mientras que idealmente eliminarán cualquier tamaño del efecto atípico. El metanálisis es, con diferencia, la mejor forma de determinar la eficacia de una intervención docente. Sin embargo, no todos los metanálisis son iguales. Por ejemplo, me encontré con un metanálisis sobre instrucción individualizada con un tamaño del efecto de 2,35. Este es un tamaño de efecto extremadamente grande; sin embargo, se basó en 4 estudios. La fonética, por otro lado, generalmente tiene un resultado de alrededor de .45 según el metanálisis examinado. Sin embargo, algunos de estos metanálisis tienen más de 100 estudios a sus espaldas. Esto me da más confianza en la investigación detrás de la fonética que en la investigación detrás de la instrucción individualizada, aunque creo que ambas son una estrategia basada en la evidencia. 

 

Tangencialmente, un último tipo de investigación que cubriré es el metanálisis secundario. El metanálisis secundario es una estrategia popularizada en la educación por John Hattie, y es algo que suelo hacer yo mismo en mi sitio web.www.pedagogynograta.com. Los metanálisis secundarios son metanálisis de muchos otros metanálisis (¿qué tan meta es eso?). Esta idea a veces es criticada por adoptar un enfoque demasiado amplio, ya que puede usarse para comparar investigaciones que son difíciles de comparar, es decir, diferentes poblaciones de estudiantes, tamaños de muestra, cálculos de efectos y tipos de investigación. Sin embargo, personalmente, soy un gran admirador de este tipo de investigación, ya que permite a las personas digerir fácilmente grandes cantidades de investigación educativa rápidamente, para identificar qué estrategias de enseñanza tienen evidencia sólida que las respalda y cuáles no. Como ejemplo de esto, compartiré una infografía de mi metanálisis secundario de 2021 sobre estrategias de enseñanza de uso común. 

Escrito por
Nathaniel Hansford

Última edición: 2021-12-19

bottom of page