A Beginners Guide to Reading Research

阅读研究初学者指南

循证教学通常被用作教学法的标签；然而，它很少意味着人们认为它意味着什么。例如，平衡素养倡导者和结构化素养倡导者都将自己称为基于证据的。然而，他们使用的证据类型却大不相同。当我们声称教学策略是基于证据的时，我们想说的是有研究证据支持该策略的有效性。但并非所有类型的研究证据都是平等的。在本文中，我将尝试让读者基本了解如何评估教学策略的有效性及其背后的证据强度。

教育研究论文主要分为三种类型。首先是定性的。定性研究往往是观察性和理性主义的。研究人员通常使用特定的教学策略观察教师，然后记录他们对这些观察的观察和假设。定性研究可能是开始研究的好地方，因为它可以提示我们哪些策略可能有兴趣进一步探索。定性研究也有助于解释为什么一种策略比另一种更好，或者如何最好地使用一种策略。话虽如此，定性研究绝不应用作有效性或缺乏有效性的明确证据。归根结底，定性研究实际上只是一个经过深思熟虑的轶事。

第二种主要的研究类型是定量的。定量研究通常寻求创建实验并使用统计分析（最常见的效应大小）来衡量实验结果。文献中使用了许多效应量计算，但最常见的一种称为 Cohen's D。Cohen's D 是通过将平均差异或干预发现的结果除以统计偏差（结果范围）来计算的。效应大小是用它们的大小来解释的。低于 0.20 的效应量通常表示结果在统计上可以忽略不计。 .20 通常用作阈值，因为它是安慰剂干预的平均效应量。在教育研究中，我们发现平均教育研究的影响大小为 0.40。与其他研究领域相比，这实际上是一个更高的效应量；然而，教育研究中有一些常见的做法可能会夸大效应大小。话虽如此，根据我的个人经验，0.40-0.69 范围内的任何东西都应该被描述为中等或平均水平。 0.70 和 0.99 之间的效应量可能被认为是高的，这意味着有强有力的证据表明干预有效。大于 1.0 的效应量应该被认为是非常强的，这意味着有非常强有力的证据表明干预是有效的。重要的是要记住，在科学中，我们用概率的程度来说话，而不是绝对的。这意味着我们在研究中看到的效应量越大，我们就越愿意相信该策略的有效性。然而，我们永远不应该真正确定任何事情。当然，以上指南是我个人对教育研究的建议。下面你可以看到公式的发明者雅各布科恩推荐的解释指南。

Guide to Interpreting Effect Sizes (1).png

话虽如此，并非所有的实验研究都是平等的。有些可能设计得很差。例如，去年我遇到一项研究，在实验组中，一位老师给一个学生读一本书，然后让学生自己读这本书。在对照组中，老师让学生自己读这本书。他们的研究表明，实验组在理解方面的表现优于对照组，他们在讨论中得出结论，这证明了“耳朵阅读”的功效。当然，这是一项精心设计的研究，原因有两个。首先，学生在实验组读了两遍故事，而在对照组只读了一遍。其次，如果老师先给他们朗读，当然有困难的读者会更好地理解课文；然而，这并不能证明“耳朵阅读”作为一种教学策略的有效性。

当我们查看定量论文时，通常我们希望看到设计严谨的实验、足够的样本量以及理想的随机对照组。话虽如此，许多教育研究根本不使用对照组。他们只是对干预进行了前测和后测，并测量结果的效果大小。然而，这项研究设计的问题在于，与常规教学相比，我们并没有真正测试这个想法的有效性。最终，我们会假设花在教学上的任何时间都应该让学生学习。当我们进行实验时，我们应该测试这种教学方法是否比常规教学更有效。当我们做实验时，时间框架也很重要，因为实验时间越长，学生学习课程的时间越长，结果就应该越大。当我们看到没有对照组的研究，或者很长的时间范围，或者更糟糕的是，我们应该期待更大的影响大小。当您看到一项研究没有对照组并且进行的时间跨度过长（例如一年或更长时间）并且您看到较小的效应量时，您可以合理地确定来自该研究的证据是极弱.

在阅读研究时，其他应该让我们保持警惕的事情是样本量非常小、研究人员的偏见或缺乏随机性。当一项研究使用较小的样本时，这会极大地影响结果的范围，并最终会在光谱的两端产生扭曲的效应大小。此外，我们通常会看到对某个想法非常投入的研究人员发表的研究结果比测试其他人假设的研究人员要高。这可能不是故意的，而是投资研究人员尽其所能确保干预组成功的结果。虽然这不一定是错误的，但我们希望确保结果可以被普通教师重现。最后，虽然有对照组的研究几乎总是比没有对照组的研究要好，但理想情况下，我们希望随机分配一个实验组和对照组。现在，这不如提到的其他一些要点重要；但是，它仍然很重要。例如，我们不希望对照组是我们最弱的学生，而我们的实验组是我们最强的学生，因为这显然会使结果产生偏差。

即使我们有一项非常出色的研究，我们通常也不会高度重视个别研究，这是因为我们通常会在研究中看到一系列结果。这通常是公众最容易犯错的科学部分。不仅在教育领域，在整个科学领域也是如此。例如，我最近对形态学进行了二次元分析，发现一项研究的效应大小为 0.29，而另一项研究的效应大小为 1.24。显然，两种效果大小都不能最好地代表形态学教学的效果，因此我们需要一种方法来最好地确定所谓的科学共识。这就是我们的第三类主要研究发挥作用的地方。 Meta分析着眼于一个研究领域的所有研究，并尝试使用统计分析来找到平均结果。

理想情况下，荟萃分析是通过根据设计和样本量对研究进行加权来完成的，因此我们不会对样本量为 10 的研究和样本量为 500 的研究给予相同的权重。然而，这并不总是可能，并非所有荟萃分析都这样做。当研究人员无法对荟萃分析进行加权时，他们将对报告的效应量取平均值，同时理想地去除任何异常效应量。迄今为止，荟萃分析是确定教学干预效果的最佳方法。然而，并非所有的荟萃分析都是平等的。例如，我遇到了一个关于个性化教学的荟萃分析，效果大小为 2.35。这是一个非常大的效果大小；但是，它基于 4 项研究。另一方面，Phonics 的结果通常约为 0.45，具体取决于所查看的元分析。然而，其中一些荟萃分析背后有超过 100 项研究。这让我对语音背后的研究比个性化教学背后的研究更有信心，尽管我确实认为两者都是基于证据的策略。

切线地，我将介绍的最后一种研究类型是二次荟萃分析。二次元分析是 John Hattie 在教育中推广的一种策略，也是我自己经常做的事情，在我的网站上www.pedagogynograta.com.二级荟萃分析是对多个其他荟萃分析的荟萃分析（那是怎样的荟萃分析？）。这个想法有时会因为采用过于宽泛的方法而受到批评，因为它可用于比较难以比较 IE 不同学生群体、样本量、效果计算和研究类型的研究。然而，就我个人而言，我是这类研究的忠实拥护者，因为它可以让人们轻松快速地消化大量教育研究，确定哪些教学策略有强有力的证据支持，哪些没有。作为一个例子，我将分享我 2021 年关于常用教学策略的二次元分析的信息图。

作者：
纳撒尼尔汉斯福德

最后编辑：2021-12-19

阅读研究初学者指南

订阅表格