top of page
읽기 연구에 대한 중급 가이드

지난 기사에서 나는 교육 연구 읽기에 대한 초보자 가이드를 썼습니다. 놀랍게도 이 기사는 내 두 번째로 인기 있는 기사가 되었고 중급 가이드를 작성해 달라는 여러 요청을 받았습니다. 이 글에서는 그렇게 하려고 합니다. 그러나 독자들이 내 첫 번째 기사를 이미 읽었을 것이라고 가정하기 때문에 사람들이 문헌을 어떻게 해석해야 하는지를 단계별로 설명하기보다는 하위 주제와 관련된 약간의 뉘앙스를 다루려고 합니다. 모든 것을 말하지만, 나는 그럴 자격이 없다고 느끼기 때문에 고급 가이드를 작성하지 않을 것입니다. 나는 지난 몇 년 동안 이 블로그, 팟캐스트를 운영하고 주제에 대한 책을 쓰면서 증거 기반 교육에 대해 연구하고 이야기했습니다. 하지만 결국 저는 교수도 아니고 박사 학위도 없습니다. 저는 그냥 멍청한 선생님일 뿐입니다. 나는 일반적으로 과학을 읽는 방법에 대해 심각한 오해가 있다고 생각합니다. 이 시리즈는 평범한 사람에게 약간의 명확성을 추가하려는 시도였습니다.

 

 인플레이션 문제:

교육 연구에서 우리는 과장된 효과 크기를 보는 경향이 있습니다. 평균적으로 교육 연구는 .40의 효과 크기를 생성합니다. 이에 비해 운동 과학 및 영양 연구에서는 대부분의 효과 크기가 .20 미만임을 알 수 있습니다. 위약 중재의 평균 효과 크기가 .20이므로 많은 분야의 연구가 .20 장벽을 넘어 위약보다 더 나은 것으로 입증되는 순간 적절한 것으로 간주됩니다. 그러나 교육에서 대다수의 연구는 .20. 보다 훨씬 높은 효과를 보여줍니다.

 

여기에는 교육 연구에서 평균 효과 크기를 부풀리는 많은 요인이 있을 수 있습니다. Dylan William이 나에게 지적한 한 가지 요인은 "파일 서랍 문제"입니다. "파일 서랍 문제"는 연구자들이 중요하지 않은 결과를 가진 연구를 출판하는 것을 귀찮게하지 않는 주목할만한 현상입니다. 실제로 이것이 일부 더 평판이 좋은 연구원들이 연구를 사전 등록하여 시작하기 전에 자신의 연구를 기록에 남기는 이유입니다. 그러나 내가 아는 한 대부분의 연구자는 연구를 사전 등록하지 않습니다. 

 

또 다른 문제는 일반적으로 교육 연구의 질과 관련이 있을 수 있습니다. 교육은 대부분 과학이 아닌 예술로 여겨져 왔기 때문에 교육 연구의 질적 측면에서 다소 부족한 부분이 있다. 실제로 이것은 특히 오래된 논문에서 더 두드러진 문제인 것 같습니다. 많은 교육 논문에는 대조군이 없고 표본 크기가 작으며 기간이 너무 깁니다. 이것은 일반적으로 효과 크기의 크기를 크게 과장하는 경향이 있습니다. 

 

추가적으로 내가 구조적 요인이라고 부르는 것이 존재한다. 일반적으로 우리는 보다 구조화된 개입이 그렇지 않은 개입보다 더 큰 효과 크기를 갖는다는 것을 알 수 있습니다. 예를 들어, 직접 교육은 탐구 기반 학습을 능가하고, 탐구 기반 학습은 문제 기반 학습을 능가하며, 문제 기반 학습은 발견 기반 학습을 능가합니다. 즉, 통제 그룹이 있는 대부분의 연구에서는 통제 그룹에 특정 교육 개입이나 전략을 할당하지 않습니다. 따라서 우리가 갖게 되는 것은 구조화된 교육 그룹 대 구조화되지 않은 교육 그룹이며 구조화된 그룹이 거의 항상 구조화되지 않은 그룹보다 성능이 더 좋습니다. 

 

이러한 모든 이유로 교육 연구자들은 교육 위약의 효과 크기를 .20이 아닌 .40으로 간주해야 한다는 사고 방식을 채택해야 한다고 생각합니다. 즉, 더 작은 효과 크기로 개입을 구현할 때와 장소가 있을 수 있다고 생각합니다. 궁극적으로 내가 이 연구에 참여하게 된 이유는 교육 개입에는 기회 비용이 있다는 인식이었습니다. 교실에서 하는 모든 일은 학습 곡선과 구현 모두에 시간이 걸리므로 높은 수율 전략을 사용하는 것이 중요합니다. 그러나 다른 전략에 소요되는 시간 비용은 모두 동일하지 않습니다. 나는 매우 높은 시간 비용과 중간에서 높은 영향을 주는 교육 전략보다 작은 또는 중간 수준의 영향을 미치는 초저 시간 비용 전략을 제안합니다. 궁극적으로 최고의 전략은 구현하기 쉽고 높은 수율을 제공하는 전략이라고 생각합니다. 우리는 이 패러다임을 시간 비율에 대한 영향이라고 부를 수 있습니다. 

 

품질 문제:

이 시점에서 의심의 여지없이 모든 연구가 동등하게 생성되는 것은 아닙니다. 그러나 메타 분석에서는 다양한 품질 수준의 연구에 동일한 가중치를 적용합니다. 불행히도 연구 논문의 질이나 구조가 높을수록 효과 크기가 작아지는 경향이 있습니다. 이는 개입에서 일부 위약 효과를 제거하기 때문일 수 있습니다. 앞서 지적했듯이 대조군 연구는 대조군이 없는 연구보다 효과 크기가 더 작은 경향이 있습니다. 즉, 다양한 통제 그룹 디자인이 있으며, 모두 개입 결과의 무작위성을 줄이는 것을 목표로 합니다.

 

실험 설계의 황금 표준은 무작위 대조 시험입니다. 이것은 사람들이 통제 그룹과 실험 그룹에 무작위로 할당되었음을 의미합니다. 이것은 연구원들이 실험 그룹에 가장 강한 학생을 모두 넣는 것과 같은 파렴치한 일을 하는 것을 막기 위한 것입니다. 그러나 때때로 사용되는 훨씬 더 나은 디자인(제 생각에는)은 테스트 점수를 기반으로 그룹을 구성하는 것입니다. 따라서 대조군과 실험군 모두 사전 테스트 평균 점수가 동일한지 확인합니다. 

 

앞에서 지적했듯이 구조는 거의 항상 덜 구조를 이깁니다. 이것이 일부 연구자들이 통제 그룹에 구조가 없는 것보다 통제 그룹의 교사를 특정 대안 개입에 할당하고 두 그룹에 동일한 교육을 제공하는 이유입니다. 예를 들어 파닉스 그룹과 구조화되지 않은 그룹이 아니라 파닉스 그룹과 균형 잡힌 문해 그룹이 있습니다. 이러한 유형의 접근 방식은 특히 두 그룹 모두 자신이 통제 그룹인지 실험 그룹인지 모르는 경우 더 공정할 수 있습니다. 그러나 이 디자인을 사용한 연구는 효과 크기가 매우 낮은 경향이 있습니다. 궁극적으로 우리는 더 공정하게 수행하고 연구 설계를 구조화할수록 결과가 더 낮은 경향이 있습니다. 

 

이러한 이유로 일부 학자들은 덜 엄격한 연구 설계를 설명하는 메타 분석에 반대할 것입니다. 그리고 어떤 경우에는 그들이 옳을 수도 있습니다. 하나의 매우 잘 수행된 연구 또는 4개의 매우 저조한 연구를 보시겠습니까? 불행히도, 이 환원주의적 접근을 덜 유용하게 만드는 몇 가지 이유가 있습니다. 첫째, 많은 교육 주제에는 고품질 연구가 없습니다. 따라서 고품질 연구가 있는 영역에만 가설을 세운다면 아마도 대부분의 문헌에 대해 어떠한 입장도 취하지 않을 것입니다. 그러나 이것은 과학적 과정을 반영하지 않습니다. 더 반성적인 입장은 증거가 항상 유동적이며 결코 완벽하지 않다는 것을 인식하고 우리가 절대적인 것이 아니라 가능성의 정도에서만 말할 수 있다는 것을 인식하는 것입니다. 즉, 여러 고품질 연구와 메타 분석 내에서 높은 수율이 발견되면 전략이 높은 수율임을 합리적으로 확신할 수 있습니다. 반면에 우리가 다수의 제대로 수행되지 않은 연구를 높은 수율로 수행할 때 더 반성적인 진술은 "우리가 지금 가지고 있는 증거에 따르면 전략은 증거 기반으로 보이지만 더 높은 품질의 연구가 필요합니다."일 수 있습니다._cc781905- 5cde-3194-bb3b-136bad5cf58d_

 

낮은 품질의 연구를 무시하는 것과 관련된 또 다른 문제는 우리가 대부분의 오래된 연구를 무시하도록 강요한다는 것입니다. 80년대와 90년대의 연구는 무작위 대조 실험이나 통계적으로 수정된 테스트 그룹을 가진 연구가 거의 없으며 이 연구를 무시하면 결국 많은 양의 연구를 버려야 합니다. 이것은 언젠가는 바람직할 수 있지만 교육 분야에서는 이것이 실현 가능할 정도로 구축된 고품질 연구 기반이 충분하지 않습니다. 마지막으로, 교육 연구에서 효과 크기에 대한 우리의 이해는 주로 낮은 품질의 연구에서 비롯됩니다. 대부분의 연구는 품질이 낮기 때문에 교육 연구에서 효과 크기의 정상적인 범위가 무엇인지에 대한 문맥적 이해와 자연스러운 비교가 이루어집니다.

 

후원 문제:

연구 내에서 특정 당사자가 수행한 연구가 특정 결과를 얻는 것을 종종 봅니다. 특정 전략에 비판적인 IE 연구원은 동일한 전략을 추진하는 연구원보다 덜 긍정적인 결과를 얻는 경향이 있습니다. 물론 이것이 우리가 이 편향을 수정하기 위해 엄격한 연구 설계를 사용하려는 이유입니다. 그러나 이것이 항상 작동하는 것은 아닙니다. 예를 들어, 나는 최근에 LLI라는 주제에 대한 메타 분석을 수행했습니다. 이 메타 분석에서 저는 LLI를 지지하는 기관에서 수행한 일련의 실험을 보았습니다. 이 논문은 해당 주제에 대해 가장 잘 수행된 논문처럼 보이지만 지속적으로 해당 주제에 대해 수행된 다른 모든 연구보다 훨씬 우수한 결과를 보여주었습니다. 설상가상으로 연구소 실험이 유일하게 엄격하게 수행된 실험이라는 사실에도 불구하고 나는 그들의 논문에서 몇 가지 이상한 통계적 예외를 지적했기 때문에 신뢰성에 대한 우려가 있었습니다.

 

샘플 문제: 

평균적으로 큰 표본 크기는 작은 표본 크기보다 더 정규화된 결과를 생성하는 경향이 있습니다. 샘플 크기가 작을수록 SD 계산이 왜곡될 수 있으므로 데이터가 실제보다 다소 무작위로 보일 수 있습니다. 예를 들어 표본이 6이고 모든 학생이 서로 5% 이내의 결과를 얻는다고 가정해 보겠습니다. 이렇게 하면 SD가 매우 낮고 효과 크기가 매우 높아집니다. 이제 적절한 표본 크기 내에서 대부분의 학생들이 평균적으로 10% 이내의 결과 범위를 가지며 이상치는 어느 방향으로든 최대 40% 범위에 이른다고 가정해 보겠습니다. 표본 크기가 6인 또 다른 연구가 있고 두 개의 큰 이상값을 얻는다면 SD는 갑자기 극도로 높아지고 ES는 극도로 낮아질 것입니다. 이러한 이유로 표본이 너무 작은 연구의 ES를 계산할 때 표본 크기가 큰 유사하게 설계된 연구에서 가상 SD를 차용하는 것이 더 나을 수 있습니다. 물론 일반적으로 표본 크기가 20개 미만인 연구에 높은 가중치를 두어서는 안 됩니다.

 

인구 통계에 따라 다른 결과가 나오는 경향이 있기 때문에 샘플을 검사할 때 크기만 고려해야 하는 것은 아닙니다. 전반적으로 우리는 부분적으로 그들의 커리큘럼이 더 기초적이기 때문에 어린 학생들이 나이가 많은 학생들보다 훨씬 더 빠르게 발전하는 것을 봅니다. 실제로, 우리는 또한 다른 교육 개입이 다른 학년의 학생에 따라 크게 다른 결과를 가질 수 있음을 봅니다. 예를 들어, 파닉스 개입은 유아원과 2학년 사이에 단연코 가장 큰 결과를 가져오는 경향이 있습니다. 반면 문제 기반 학습은 12학년 이상의 학생들에게 최상의 결과를 가져오는 경향이 있습니다. 이러한 이유로, 대상 인구 통계학적 대상이 아닌 연구를 메타 분석에 포함시키는 것은 부적절할 수 있습니다. 마지막으로 표본 주제에 대해, 우리는 인구 통계학적으로 불리한 환경, IE 빈곤 지역의 학생들이 부유한 지역의 학생들보다 보고된 결과가 더 낮은 경향이 있음을 알 수 있습니다. 

 

효과 크기 계산 유형: 

Cohen의 d는 교육 연구에서 가장 일반적으로 사용되는 효과 크기일 수 있지만 유일하게 사용되는 것은 아닙니다. Hedge의 g는 또한 교육 연구에서 일반적으로 사용되며 더 작은 표본 크기에 대한 결과를 정규화하기 위한 것입니다. 헤지 g는 결과를 합동 SD로 나누어 계산됩니다. 대조군과 실험군의 편차가 상당히 다른 경우 대조군의 SD만 사용하는 Glass's Delta를 대신 사용하는 것이 좋습니다. 피어슨 효과 크기는 상관 관계를 결정하기 위해 두 변수의 효과를 조사할 때 사용됩니다. 예를 들어, 부모 소득과 학생 결과 간의 상관 관계를 조사하려는 경우 Pearson 계산을 사용합니다. 이러한 계산은 모두 다르지만 특정 상황에서 사용하고 표준 해석 내에서 결과를 정규화하기 위한 것입니다. 일부 저자는 다양한 유형의 효과 크기 계산에 대한 연구를 포함하는 메타 분석을 비판합니다. 그러나 이 모든 계산은 동일하게 해석되어야 하기 때문에 비판에 동의한다고 말할 수는 없습니다. 때때로 저자는 효과 크기 계산을 사용하는 대신 T 값이나 p-값을 사용합니다. 이러한 검정은 변동성의 정도를 설명할 때 유의 가능성을 결정하는 데 사용됩니다. 그들은 본질적으로 연구 결과가 무작위 잡음일 수 있는 정도를 측정하려고 합니다. 

 

비교 문제:

따라서 이것은 물론 모두 질문을 던집니다. 만약 그들이 다른 효과 크기를 생성한다면 우리는 저품질 연구와 고품질 연구를 어떻게 비교할 수 있을까요? 현실은 겸손입니다. 문헌의 상태가 완벽하지는 않지만 우리는 우리가 가지고 있는 연구와 함께 일해야 합니다. 예, 메타 분석에 포함된 고품질 연구는 평균적으로 효과 크기를 낮추고 품질이 낮은 연구는 평균적으로 효과 크기를 가져옵니다. 그러나 우리는 절대적인 것이 아니라 확률의 정도에서만 연구를 조사해야 합니다. 더욱이, 잘 통제된 모든 연구의 효과 크기가 .40 미만이고 제대로 통제되지 않은 모든 연구의 효과 크기가 .70 이상인 것은 아닙니다. 실제로, 나는 효과 크기가 1보다 큰 잘 수행된 여러 연구와 효과 크기가 .2 미만인 제대로 수행되지 않은 여러 연구를 보았습니다. 궁극적으로, 우리는 이 모든 것이 메타 분석의 가능한 결과에 영향을 미치므로 우리의 확신을 완화해야 한다는 것을 이해해야 합니다. 

 

이상적으로는 표본 크기가 모든 오류를 수정합니다. 예를 들어 파닉스를 가져 가라. 파닉스는 1000개 이상의 연구가 수행된 문헌에서 가장 잘 연구된 주제 중 하나입니다. 개별 연구 내에서 .20 미만 및 1.0 이상의 결과를 보았습니다. 그러나 메타 분석 내에서 훨씬 더 좁은 범위의 결과를 보았습니다. 파닉스에 대해 내가 생각할 수 있는 가장 낮은 메타 분석 효과 크기는 .4의 효과 크기를 찾았고 가장 높은 효과 크기는 약 .8이었습니다. 그러나 주제에 대한 메타 분석의 대부분은 .40-.70의 비교적 작은 범위 내에서 효과 크기를 발견했습니다. 이 주제에 대한 가장 큰 메타 분석은 John Hattie가 수행했으며 효과 크기가 .60임을 발견했습니다. 주제에 대한 메타 분석의 대다수가 파닉스가 중간 정도의 큰 효과 크기를 갖는다는 것을 일관되게 발견할 때 나는 파닉스가 적당한 긍정적인 결과를 가지고 있다고 자신있게 말합니다. 

 

어떤 사람들은 연구 내의 변동성의 정도가 메타 분석을 무시하고 각 주제에서 가장 잘 구성된 연구를 분석하는 데 집중해야 한다고 제안할 것이라고 주장합니다. 그러나 나는 몇 가지 이유로 이 접근 방식에 동의하지 않습니다. 첫째, 잘 구성된 연구 내에서도 여전히 큰 변동성을 보입니다. 인간의 조건은 복잡하고 인간 개입의 효과를 결정하는 것은 어렵습니다. 둘째, 대부분의 연구를 할인합니다. 그러나 마지막으로 가장 중요한 것은 내 의견으로는 연구를 민주화합니다. 

 

메타 분석 없이는 "무대 위의 현자"인 다른 모든 사람들을 위해 문학을 해석하는 유순하고 뛰어난 학자들의 능력에 크게 의존해야 합니다. 그러나 이 접근 방식의 문제는 개별 교사가 증거를 해석할 신뢰할 수 있는 학자를 찾아야 한다는 것입니다. 이것은 문학을 이해하기 위한 가장 보편적인 방법이었습니다. 그러나 인기가 상승하는 것은 일반적으로 가장 지식이 풍부한 학자가 아니라 마케팅에 가장 뛰어난 학자입니다. 학습 스타일을 가르치는 것과 같은 유사 과학적 관행이 우리 분야에서 먼저 대중화되도록 허용한 것은 이러한 관행과 신념 시스템입니다. 

 

우리가 메타 분석을 사용할 때 우리는 교사들이 문헌 내에서 다양한 교수 개입의 효과를 빠르고 쉽게 해석할 수 있도록 권한을 부여합니다. 제가 완벽하게 정직하다면, 이것이 메타 분석이 현장에서 때때로 비판받는 진정한 이유라고 생각합니다. 교육의. 메타 분석은 사람들이 자신의 삶을 홍보하고 연구하는 데 헛된 교육학을 보냈다는 것을 증명할 수 있는 능력이 있습니다. 또한, 출판된 모든 연구를 평생 읽지 않고도 사람들이 스스로 문헌을 해석할 수 있는 능력을 제공하기 때문에 "무대 위의 현자"가 되기를 열망하는 모든 학자의 중요성을 감소시킵니다.

bottom of page