分類: K-12 教育階段

自訂與獨立的測量工具：分別有多大？

Wolf和Harbatkin最近的一項研究檢視了不同類型測量工具所得效應值的差異。在系統性回顧中，採納研究的條件包括：使用隨機或準實驗設計；研究主題為閱讀、STEM或行為；並收集於美國有效教育策略資料中心（What Works Clearinghouse）存儲庫內。此回顧共納入373項研究，1,553項效應值。

作者將每項研究中使用的測量工分為四類：

獨立廣義：該測量不是由進行該研究或設計該計劃的研究人員/開發者建立的，並且旨在評估學生在某一學科中的成績。
獨立狹義：與前一項類似，但旨在評估學科中某一具體要素。
非獨立開發人員：由開發該被評估研究計劃的開發者所建立的測量工具。
非獨立研究人員，由研究作者所建立的測量工具。

大多數使用的測量是獨立狹義（42%），其次是非獨立研究人員（30%），獨立廣義（22%），其餘（5%）是非獨立開發人員。結果表明，獨立和非獨立測量的效應值之間存在較大差異。廣義測量的平均效應值為+0.10，狹義測量為+0.17，研究人員測量為+0.38，開發人員測量為+0.41。當僅考慮至少一項獨立測量和一項非獨立測量的研究時，效應量的差異也是相似的。

作者指出一個可能的解釋，非獨立測量評估的概念與獨立測量不同，且當中甚少重疊。當研究人員建立一項測量工具以評估一項計劃的效能時會完全對準計劃內容，而標準化測試完全獨立於干預。作者的結論是，為前線教育工作者和政策制定者提供研究的有效性時應使用獨立測量。

文獻來源: Wolf, B., & Harbatkin, E. (2022). Making sense of effect sizes: Systematic differences in intervention effect sizes by outcome measure type. Journal of Research on Educational Effectiveness, 0(0), 1–28. https://doi.org/10.1080/19345747.2022.2071364… Read the rest

社交及情意成果 K-12 教育階段教育行政及領導

減少抑鬱或焦慮的干預

Zhang及團隊最近進行的一項統合分析評估了校本的心理健康干預對抑鬱和焦慮的有效性。統合分析包括29項研究，評估了在幼稚園至12年級實施的32個計劃。大多數研究在澳洲（41%）和美國（28%）進行。研究發現：

整體而言，干預減少了抑鬱和焦慮（ES=+0.24，p=0.002）。
在中學實施的干預具有顯著平均效應值+0.42（p=0.006），而在小學階段實施的干預卻不顯著（ES=+0.06，p=0.547）。
具有認知行為治療元素的干預顯著改善了有關心理健康情況（ES=+0.33，p=0.002）。認知行為療法可以在臨床和學校環境中實施，幫助個人學會改變思想和行為模式，更好地應對抑鬱和焦慮等狀況。

隨著解決青少年心理健康問題的需求日益增長，這項研究的結果表明，在中學實施包含認知行為治療的計劃可能有助於改善學生的社會及情感成果。

文獻來源（開放取用）：Zhang, Q., Wang, J., & Neitzel, A. (2022). School-based mental health interventions targeting depression or anxiety: A meta-analysis of rigorous randomized controlled trials for school-aged children and adolescents. Journal of Youth and Adolescence. https://doi.org/10.1007/s10964-022-01684-4… Read the rest

計劃評鑑 K-12 教育階段教育行政及領導有效教學法

Think Bright 是一個早期干預計劃，使用「導引學習」（mediated learning）來增強有發展遲緩的兒童的認知功能。Keung及其團隊進行了一項隨機對照試驗，以調查該計劃對發展遲緩的香港學前兒童的影響。干預聚焦於思維技能三方面的培訓活動：類比思維、排序能力和邏輯推理。與以教師為中心的直接教學相比，導引學習是一個可循環的四步驟過程：「探索—嘗試—介入—總結」。在這個過程中，教師使用導引技巧，通過鼓勵孩子放聲思考並用語言表達他/她的方法和發現來促進和引導孩子完成學習任務。因此，研究人員假設導引學習不僅可以提升思維能力，還可以提高語言技能。

從全港15間康復服務中心招募68名認知及/或語言發展遲緩的學前兒童（48名男童、20名女童，平均年齡=58個月）。參予者被隨機分配到干預組（n = 34）和活性對照組（n = 34）。實驗組在6個月內接受了12次60分鐘的一對一認知訓練（Think Bright），而對照組在此期間接受了12次單獨的常規訓練。在干預之前，教師接受了6個小時有關如何實施「Think Bright」計劃的培訓。研究評估了三個領域：1）語言能力（例如，接收性和表達性詞彙，語法）；2）一般認知（如基本顏色、形狀、數量的概念，配對、分類的認知能力）；3）思維技能。

多變量共變異數分析（MANCOVA）的結果表明，Think Bright組在所有六個測試中都顯著優於對照組：一般認知（ES=+0.82），語言能力（ES = +0.81），邏輯推理（ES=+0.79），非語言類比思維（ES = +0.48），語言類比思維（ES= +0.41）和排序能力（ES = +0.41）。
相關分析表明，教學中使用的導引技能越多，語言能力的增益得分就越高。

由於樣本量小，本研究結果的普遍性（推廣應用）仍不確定。此外，評估是由對實驗條件知情的教育心理學家進行的。因此，必須對結果謹慎詮譯。儘管存在局限性，但該研究顯示使用導引學習來提昇發展遲緩學前兒童的認知和語言技能的有效性具有潛力。作者建議，這種訓練也可用於提高典型發展兒童的思維能力。

文獻來源（開放取用）：Keung, A. Y., Ho, V. F., & Shum, K. K. (2022). Early cognitive intervention using mediated learning for preschoolers with developmental delay: A randomized controlled trial. British Journal of Educational Psychology, 92(3), 1109–1132. https://doi.org/10.1111/bjep.12490… Read the rest

計劃評鑑 K-12 教育階段數學及理科學習

影響數學干預效果的因素

最近發表在《Journal of Research on Educational Effectiveness》的一項統合分析研究了 1990 年代至 2017 年美國 PreK-12 數學干預的效果，目的是檢視哪些研究特徵導致不同的效果（異質性）。選擇研究的標準很廣泛，為要對在美國進行、用英語撰寫的數學干預隨機研究進行全面回顧。因此，作者納入了在方法上具不同質素（例如，測量工具、流失率、基線差異）的研究，並試圖在分析中控制這些因素。

共191項研究符合納入標準，平均效應值為+0.31，並且存在顯著的異質性，95%的預測區間（真實效應值的95%範圍）為-0.60至+1.23。為了解釋這種異質性，作者測試了不同組別的調節因素（可能引致不同效果的因素）。在獨立測試每組後，建立了一個組合模型，其中包括在先前分析中發現的略為重要的所有調節因素。

組合模型的結果表明，干預類型、干預實施、研究發表年份和測量工具是重要調節因素。

在干預類型方面，補充時間干預（ES = +0.53）比課程干預（ES = +0.34）或教學方法/指導干預（ES = +0.27）更有效。
在干預實施方面，教師（ES = +0.37）和校外干預人員（ES = +0.39）實施的計劃比科技（ES = +0.12）更有效。
關於發表時間，前幾十年發表的研究比最近的研究具有更高的效應值。
最後，研究人員自訂的測量工具（ES = +0.45）的效果是標準化評量（ES = +0.15）的三倍。

作者的結論是，效應值於不同研究之間的差異大部分不能用此次分析中包含的因素來解釋。研究應盡量報告有關計劃和方法的詳細資訊，以便能夠檢視和發現哪些是影響干預措施有效性的因素。

文獻來源：Williams, R., Citkowicz, M., Miller, D. I., Lindsay, J., & Walters, K. (2022). Heterogeneity in mathematics intervention effects: Evidence from a meta-analysis of 191 randomized experiments. Journal of Research on Educational Effectiveness, 15(3), 584–634. https://doi.org/10.1080/19345747.2021.2009072… Read the rest

計劃評鑑 K-12 教育階段學業成績教育行政及領導

混合學習模式對學生成績的影響

Li及其團隊最近進行了一項統合分析，以調查混合學習對 K-12 學生成績的影響。近年來，混合學習在 K-12 教育中越來越受歡迎，尤其在 COVID-19 之後更是如此。混合式學，是指傳統的面授與在線學習相結合。在這項統合分析中，在線學習被定義為這樣的正規教育：部分教學和內容通過線上傳授給學生，學生某程度上可以控制時間、地點、路徑和／或速度。

該統合分析納入從2000到2020年發表的84項研究，共112個效應值。

總體而言，與僅面對面學習相比，混合學習方法顯示出更大的效果（效應值 = +0.65），且異質性很大。
學習成績領域之間的效果差異顯著不同。認知領域（例如考試成績，效應值 = +0.74）最強，其次是情感領域（例如滿意度和動機，效應值 = +0.52）和心理動作領域（例如，涉及動作的技能能力，效應值 = +0.46 ）。
關於調節分析，混合學習模型之間沒有發現顯著差異，當中翻轉教室的效果最大（效應值 = 0.79），實驗室輪轉的效果最小（效應值 = +0.30）。
兼具小組活動的混合學習（效應值 = +0.94）效果大於沒有小組活動的混合學習（效應值 = +0.18），然而，只有四項研究不包含小組活動。
不同年級從混合式學習模式中獲得不同程度的益處。雖然對幼稚園沒有顯著成效（只有 2 項研究），但小學 (效應值 = +0.70) 和中學 (效應值 = +0.67) 都有顯著得益。
不同學科表現出顯著不同的影響，計算機課程的效果最大（效應值 = +1.09），閱讀課程的效果最小（效應值 = +0.15）。
統合回歸分析的結果表明，儘管科技隨著時間的推移而進步，但在 20 年的研究中，效應值沒有顯著變化。

出版偏差測試的結果表明數據中存在潛在的向上偏差。可能的原因之一是效果不顯著並且未發表的研究未納入在該統合分析中。儘管如此，作者相信這項統合分析的結果豐富了教育工作者對 K-12 教育中有效實行混合學習的理解。

文獻來源：Li, S., & Wang, W. (2022). Effect of blended learning on student performance in K-12 settings: A meta-analysis. Journal of Computer Assisted Learning, 38(5), 1254–1272. https://doi.org/10.1111/jcal.12696… Read the rest

計劃評鑑 K-12 教育階段教育行政及領導

研究中測試與干預內容的一致性

最近發表在《Social Sciences & Humanities Open》上的一項研究為如何管理成果測試和干預內容之間一致性（對齊）的差距提供了指引。在現實中進行研究時，研究人員嘗試通過解釋研究瑕疵（例如：測量誤差或實施問題）的影響來減少結果偏差。不僅是瑕疵，其他因素也會影響效果的大小。其中一項因素是計劃內容及測試成果之間的內容對齊（一致性）。如果研究人員開發的測試與干預內容過度一致，則使用研究人員開發的測試通常與更大的效應值相關。

考慮到計劃內容與測試過度一致的問題，以此產生了放大效應值的傾向，作者提出了一種量化「差異一致性」的計算方法，該方法不同於其他研究人員的方法，因為它不依賴於評量工具的個別項目層面，而是基於不同干預組別計劃內容和評估來獲取信息。「差異一致性」主要量化了干預組和對照組之間測試一致性的差異。

在說明了實施這種方法的一些挑戰之後，作者建議研究人員詳細說明特定主題的一致性和整體差異一致性值。至少，通過在研究附錄中包含一致性資料和完整版本的成果測試工具，研究綜合者將能夠更好地計算整體差異一致性。通過這種方式可提供回顧標準，增強統合分析調節因素的分析，並可能建立綜合分析的納入標準。事實上，更好的綜合分析將幫助前線工作者和政策制訂者對計劃項目或教學方法的潛力做出更好的決定。

文獻來源（開放取用）：Taylor, J. A., Polanin, J. R., Kowalski, S. M., Wilson, C. D., & Stuhlsatz, M. A. M. (2022). Addressing test fairness in education research: A process for quantifying the alignment between outcome measures and education interventions. Social Sciences & Humanities Open, 6(1), 100312. https://doi.org/10.1016/j.ssaho.2022.100312… Read the rest

分享這篇文章 (Share this)：

分享這篇文章 (Share this)：

分享這篇文章 (Share this)：

分享這篇文章 (Share this)：

分享這篇文章 (Share this)：

分享這篇文章 (Share this)：