An Intermediate Guide to Reading Researc

Una guía intermedia para la investigación de la lectura

En mi último artículo escribí una guía para principiantes sobre la investigación en educación lectora. Para mi sorpresa, terminó siendo mi segundo artículo más popular y recibí múltiples solicitudes para escribir una guía intermedia. En este artículo, intentaré hacer precisamente eso. Sin embargo, como asumo que los lectores ya habrán leído mi primer artículo, intentaré abordar algunos de los matices relacionados con los subtemas, en lugar de explicar paso a paso, cómo la gente debe interpretar la literatura. Habiendo dicho todo eso, no escribiré una guía avanzada, ya que no me siento calificado para hacerlo. Pasé los últimos años investigando y hablando sobre la educación basada en la evidencia, mientras dirigía este blog, un podcast y escribía un libro sobre el tema. Sin embargo, al final del día, no soy profesor, no tengo un doctorado. Solo soy un profesor nerd. Sin embargo, creo que hay un malentendido grave sobre cómo leer la ciencia en general y esta serie ha sido mi intento de agregar una pequeña cantidad de claridad para la persona promedio.

El problema de la inflación:

En la investigación educativa, tendemos a ver tamaños de efecto exagerados. En promedio, los estudios de educación producen un tamaño del efecto de .40. Comparativamente, vemos en la ciencia del ejercicio y la investigación en nutrición que la mayoría de los tamaños del efecto están por debajo de .20. Dado que el tamaño del efecto promedio de una intervención con placebo es de 0,20, la investigación en muchos campos se considera pertinente en el momento en que cruza la barrera de 0,20 y demuestra que es mejor que un placebo. Sin embargo, en educación la gran mayoría de estudios muestran un efecto muy superior a .20.

Es probable que haya muchos factores aquí que inflen el tamaño del efecto promedio en la investigación educativa. Uno de esos factores, como me señaló Dylan William, es el "problema del cajón de archivos". El “problema del archivador” es el fenómeno conocido de los investigadores que no se molestan en publicar estudios con resultados insignificantes. De hecho, esta es la razón por la que algunos de los investigadores más reputados registran previamente sus estudios, para que sus compromisos queden registrados antes de comenzar. Sin embargo, que yo sepa, la mayoría de los investigadores no registran previamente sus estudios.

Es probable que otro problema esté relacionado con la calidad de los estudios de educación en general. Dado que la educación se ha visto principalmente como un arte y no como una ciencia, existe un cierto déficit en términos de calidad de los estudios educativos. De hecho, esto parece ser un problema más pronunciado en los artículos más antiguos. Muchos trabajos sobre educación no tienen un grupo de control, muestras de tamaño pequeño y duraciones excesivamente largas. En general, esto tiende a exagerar enormemente el tamaño del efecto.

Además, existe lo que yo llamaría el factor de estructura. En general, vemos que las intervenciones que están más estructuradas tienen mayores tamaños de efecto que las intervenciones que no lo están. Por ejemplo, la instrucción directa supera al aprendizaje basado en la investigación, el aprendizaje basado en la investigación supera al aprendizaje basado en problemas y el aprendizaje basado en problemas supera al aprendizaje basado en el descubrimiento. Dicho esto, la mayoría de los estudios que incluso tienen un grupo de control, no asignan intervenciones o estrategias de enseñanza específicas al grupo de control. Entonces, lo que terminamos teniendo es un grupo de enseñanza estructurado frente a un grupo de enseñanza no estructurado y, he aquí, el grupo estructurado casi siempre supera al grupo no estructurado.

Por todas estas razones, creo que los investigadores en educación deben adoptar la mentalidad de que el tamaño del efecto de un placebo educativo debe considerarse como .40, no como .20. Dicho esto, creo que podría haber un momento y un lugar para implementar intervenciones con tamaños de efecto más pequeños. En última instancia, la razón por la que me metí en esta investigación fue porque me di cuenta de que las intervenciones educativas tienen un costo de oportunidad. Todo lo que haces en tu salón de clases lleva tiempo, tanto en su curva de aprendizaje como en su implementación, por eso es importante utilizar estrategias de alto rendimiento. Sin embargo, el costo de tiempo para diferentes estrategias no es igual. Prefiero sugerir una estrategia de costo de tiempo súper bajo con un impacto de pequeño a moderado, que una estrategia de enseñanza con un costo de tiempo extremadamente alto y un impacto de moderado a alto. Aunque, en última instancia, creo que las mejores estrategias son las que son fáciles de implementar y de alto rendimiento. Podríamos referirnos a este paradigma como la relación impacto-tiempo.

El problema de la calidad:

Como sin duda te darás cuenta a estas alturas, no todos los estudios se crean por igual. Sin embargo, en el metanálisis, asignamos el mismo peso a los estudios de diferentes niveles de calidad. Desafortunadamente, cuanto mayor sea la calidad o más estructurado sea un trabajo de investigación, menor tiende a ser el tamaño del efecto. Esto podría deberse a que estamos eliminando algunos de los efectos del placebo de la intervención. Como se señaló anteriormente, los estudios con grupos de control tienden a tener tamaños de efecto más bajos que los estudios sin grupos de control. Dicho esto, existen muchos diseños de grupos de control diferentes, todos destinados a reducir parte de la aleatoriedad de los resultados de la intervención.

El estándar de oro de los diseños experimentales es un ensayo controlado aleatorio. Esto significa que las personas se asignan aleatoriamente al grupo de control y al grupo experimental. Esto tiene como objetivo evitar que los investigadores hagan cosas sin escrúpulos, como poner a todos los estudiantes más fuertes en el grupo experimental. Sin embargo, un diseño aún mejor (en mi opinión) que a veces se usa, implica basar grupos en función de los puntajes de las pruebas. Así que asegúrese de que tanto el grupo de control como el grupo experimental tengan las mismas puntuaciones medias previas a la prueba.

Como se señaló anteriormente, la estructura casi siempre supera a la menos estructura. Esta es la razón por la que algunos investigadores, en lugar de que el grupo de control no tenga una estructura, asignan a los maestros del grupo de control a una intervención alternativa específica y les dan a ambos grupos la misma capacitación. Por ejemplo, en lugar de tener un grupo de fonética y un grupo no estructurado, tener un grupo de fonética y un grupo de alfabetización equilibrada. Es probable que este tipo de enfoque sea más justo, especialmente si ningún grupo sabe si es el grupo de control o el grupo experimental. Sin embargo, los estudios con este diseño tienden a tener tamaños del efecto muy bajos. En última instancia, cuanto más justo y más estructurado sea el diseño del estudio, menores serán los resultados.

Por estas razones, algunos académicos argumentarían en contra de un metanálisis que dé cuenta de diseños de estudio menos rigurosos. Y en algunos casos pueden tener razón. ¿Preferiría ver un estudio muy bien realizado o 4 estudios muy mal realizados? Desafortunadamente, hay varias razones que hacen que este enfoque reduccionista sea menos útil. En primer lugar, muchos temas educativos no tienen estudios de alta calidad detrás de ellos, por lo que si solo basamos nuestras hipótesis en áreas donde hay estudios de alta calidad, nos obligamos a no tomar ninguna postura sobre quizás la mayor parte de la literatura. Sin embargo, esto no refleja el proceso científico. Una posición más reflexiva sería reconocer que la evidencia siempre es fluida, nunca perfecta, y ser conscientes de que solo podemos hablar en grados de posibilidades, no absolutos. Dicho esto, cuando tenemos un alto rendimiento encontrado en múltiples estudios de alta calidad y dentro de un metanálisis, podemos estar razonablemente seguros de que la estrategia es de alto rendimiento. Mientras que, cuando tenemos múltiples estudios mal realizados, con un alto rendimiento, una declaración más reflexiva podría ser "la estrategia parece estar basada en la evidencia, de acuerdo con la evidencia que tenemos ahora, pero es necesario que haya más investigación de alta calidad"._cc781905- 5cde-3194-bb3b-136bad5cf58d_

Otro problema de ignorar la investigación de menor calidad es que nos obliga a ignorar la mayoría de las investigaciones más antiguas. Muy pocos estudios de los años 80 y 90 tienen pruebas de control aleatorias o grupos de prueba corregidos estadísticamente y si ignoramos esta investigación, terminaremos desechando grandes cantidades de nuestro cuerpo de investigación. Esto podría ser aconsejable algún día, pero dentro del campo de la educación, no tenemos suficiente base de investigación de alta calidad construida para que esto sea factible. Por último, nuestra comprensión de los tamaños del efecto en la investigación educativa proviene en gran medida de estudios de baja calidad. Como la mayor parte de la investigación es de baja calidad, las comparaciones naturales que se hacen son con la comprensión contextual de cuál es el rango normal para los tamaños del efecto en la investigación educativa.

El problema del patrocinio:

Dentro de la investigación, a menudo vemos que la investigación realizada por partes específicas obtiene resultados específicos. Los investigadores de IE que critican una estrategia específica tienden a obtener resultados menos positivos que los investigadores que promueven la misma estrategia. Por supuesto, esta es la razón por la que tratamos de utilizar diseños de estudio rigurosos para corregir este sesgo. Sin embargo, esto no siempre funciona. Por ejemplo, recientemente realicé mi propio metanálisis del tema LLI. Dentro de este metanálisis me encontré con una serie de experimentos realizados por un instituto a favor de LLI. Estos artículos, a pesar de que aparentemente son los artículos mejor hechos sobre el tema, mostraron consistentemente resultados muy superiores a todos los demás estudios realizados sobre el tema. Para empeorar las cosas, a pesar de que los experimentos del instituto eran los únicos experimentos realizados con rigor, tenía algunas dudas sobre la fiabilidad, ya que noté varias anomalías estadísticas extrañas en sus documentos.

El problema de ejemplo:

En promedio, los tamaños de muestra grandes tienden a producir resultados más normalizados que los tamaños de muestra más pequeños. Como los tamaños de muestra más pequeños pueden distorsionar un cálculo SD, puede hacer que los datos parezcan más o menos aleatorios de lo que realmente son. Por ejemplo, digamos que tenemos una muestra de 6 y todos los estudiantes obtienen un resultado dentro del 5 % de diferencia entre ellos, esto creará una SD extremadamente baja y un tamaño del efecto extremadamente alto. Ahora, digamos que dentro de un tamaño de muestra adecuado, veríamos que la mayoría de los estudiantes en promedio tienen un rango de resultados dentro del 10 %, con valores atípicos que van hasta el 40 % en cualquier dirección. Si tenemos otro estudio con un tamaño de muestra de 6 y obtenemos dos valores atípicos grandes, entonces nuestra SD de repente será extremadamente alta y el ES será extremadamente bajo. Por estas razones, a veces puede ser mejor tomar prestada una SD hipotética, de un estudio diseñado de manera similar con una muestra de gran tamaño, al calcular el ES de un estudio con una muestra demasiado pequeña. Por supuesto, en general, probablemente no deberíamos dar mucha importancia a los estudios que tienen tamaños de muestra inferiores a 20.

El tamaño no es la única consideración que tenemos que hacer al examinar muestras, ya que diferentes datos demográficos tienden a tener resultados diferentes. En general, vemos que los estudiantes más jóvenes progresan mucho más rápido que los estudiantes mayores, en parte porque su plan de estudios es más elemental. De hecho, también vemos que diferentes intervenciones educativas pueden tener resultados drásticamente diferentes en diferentes grados de estudiantes. Por ejemplo, las intervenciones de fonética tienden a tener, con mucho, los mejores resultados entre prekínder y segundo grado. Mientras que el aprendizaje basado en problemas tiende a tener los mejores resultados en estudiantes de grado 12 o mayores. Por estas razones, es probable que sea inapropiado incluir estudios en un metanálisis que no pertenezcan a lo que debería ser el grupo demográfico objetivo. Por último, en el tema de la muestra, vemos que los estudiantes en demografía desfavorecida, es decir, barrios empobrecidos, tienden a tener resultados informados más bajos que los estudiantes de barrios ricos.

Tipos de cálculos del tamaño del efecto:

Si bien la d de Cohen es probablemente el tamaño del efecto más utilizado en la investigación educativa, no es el único que se utiliza. La g de Hedge también se usa comúnmente en la investigación educativa y está destinada a normalizar los resultados para tamaños de muestra más pequeños. La g de Hedge se calcula dividiendo los resultados por la DE agrupada. Cuando el grupo de control tiene desviaciones sustancialmente diferentes del grupo experimental, se recomienda en su lugar el Delta de Glass, que solo usa la DE del grupo de control. Se utiliza un tamaño del efecto de Pearson cuando se examina el efecto de dos variables para determinar la correlación. Por ejemplo, usaría un cálculo de Pearson si quisiera examinar la correlación entre los ingresos de los padres y los resultados de los estudiantes. Si bien todos estos cálculos son diferentes, están destinados a usarse en circunstancias específicas y para normalizar los resultados dentro de una interpretación estándar. Algunos autores critican los metanálisis que incluyen estudios con diferentes tipos de cálculos del tamaño del efecto; sin embargo, como todos estos cálculos deben interpretarse de la misma manera, no puedo decir que estoy de acuerdo con la crítica. A veces, en lugar de utilizar un cálculo del tamaño del efecto, los autores utilizarán un valor T o un valor p; estas pruebas se utilizan para determinar la probabilidad de significación, al tener en cuenta el grado de variabilidad. Básicamente, están tratando de medir el grado en que los resultados del estudio pueden ser ruido aleatorio.

El problema de la comparación:

Entonces, por supuesto, todo plantea la pregunta: ¿cómo comparamos la investigación de baja calidad con la de alta calidad, si generan diferentes tamaños de efecto? La realidad es con humildad. Si bien el estado de la literatura está lejos de ser perfecto, tenemos que trabajar con la investigación que tenemos. Sí, los estudios de alta calidad incluidos en el metanálisis en promedio reducirán el tamaño del efecto y sí, los estudios de baja calidad en promedio aumentarán el tamaño del efecto. Pero solo debemos examinar la investigación en grados de probabilidades, no absolutos. Además, no es como si todos los estudios bien controlados tuvieran tamaños del efecto por debajo de 0,40 y todos los estudios mal controlados tuvieran tamaños del efecto por encima de 0,70. De hecho, me he encontrado con múltiples estudios bien realizados con tamaños del efecto por encima de 1 y múltiples estudios mal realizados con tamaños del efecto por debajo de 0,2. En última instancia, solo debemos entender que todo esto influye en el posible resultado del metanálisis y, por lo tanto, debe moderar nuestras confidencias.

Idealmente, el tamaño de la muestra corrige todos los errores. Tome la fonética por ejemplo. La fonética es uno de los temas mejor estudiados en la literatura, con más de 1000 estudios realizados. Dentro de estudios individuales he visto resultados por debajo de .20 y por encima de 1.0; sin embargo, dentro del metanálisis he visto un rango de resultados mucho más limitado. El tamaño del efecto de metanálisis más bajo que se me ocurre para la fonética encontró un tamaño del efecto de 0,4 y el más alto fue de alrededor de 0,8; sin embargo, la mayoría de los metanálisis sobre el tema encontraron un tamaño del efecto dentro del rango relativamente pequeño de 0,40 a 0,70. El metanálisis más grande sobre el tema fue realizado por John Hattie y encontró un tamaño del efecto de .60. Cuando la gran mayoría de los metanálisis sobre el tema encuentran consistentemente que la fonética tiene un tamaño de efecto moderadamente grande, me siento seguro al decir que la fonética tiene un resultado moderadamente positivo.

Algunos argumentarían que el grado de variabilidad dentro de la investigación sugeriría que debemos ignorar el metanálisis y centrarnos en analizar los estudios mejor construidos en cada tema; sin embargo, no estoy de acuerdo con este enfoque por varias razones. En primer lugar, incluso dentro de estudios bien construidos, todavía vemos una gran variabilidad. La condición humana es compleja y determinar el efecto de una intervención humana es un desafío. En segundo lugar, descuenta la mayor parte de la investigación. Pero por último y más importante, en mi opinión, desdemocratiza la investigación.

Sin metanálisis, tenemos que depender en gran medida de la capacidad de académicos benignos y brillantes para interpretar la literatura para todos los demás, el "sabio en el escenario", por así decirlo. Sin embargo, el problema con este enfoque es que requiere que los maestros individuales encuentren académicos confiables para interpretar la evidencia por ellos. Este ha sido en gran medida el método más popular para comprender la literatura. Sin embargo, por lo general no son los académicos más informados los que ganan popularidad, sino los que son mejores en marketing. Es esta práctica y sistema de creencias lo que ha permitido que las prácticas pseudocientíficas, como los estilos de enseñanza y aprendizaje, se vuelvan populares dentro de nuestro campo para empezar.

Cuando usamos el metanálisis, empoderamos a los maestros para que puedan interpretar rápida y fácilmente la eficacia de diferentes intervenciones de enseñanza dentro de la literatura. Si soy completamente honesto, creo que esta es la verdadera razón por la que el metanálisis a veces es criticado dentro del campo. de Educación. El metanálisis tiene la capacidad de demostrar que las pedagogías que la gente ha pasado su vida promoviendo e investigando son inútiles. Además, disminuye la importancia de todos aquellos académicos que han aspirado a ser el “sabio en el escenario”, ya que permite a las personas la capacidad de interpretar la literatura por sí mismos, sin pasarse la vida leyendo cada estudio publicado.

Una guía intermedia para la investigación de la lectura

Formulario de suscripción