一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment)
一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment). 日本学術振興会・東京工業大学 村山 航 murakou@orion.ocn.ne.jp. Contents. 一般化可能性理論とは パフォーマンス評価に対する一般化可能性理論研究の現状. Contents. 一般化可能性理論とは パフォーマンス評価に対する一般化可能性理論研究の現状. 古典的テスト理論. 信頼性 (reliability) = 尺度の一貫性・安定性 信頼性係数 全分散における真値の分散の占める割合
Share Presentation Embed Code Link Download Presentation Download Presentation一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment)
An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.
Presentation Transcript- 一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment) 日本学術振興会・東京工業大学 村山 航 murakou@orion.ocn.ne.jp
- Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状
- Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状
- 古典的テスト理論 • 信頼性 (reliability) = 尺度の一貫性・安定性 • 信頼性係数 • 全分散における真値の分散の占める割合 • 誤差分散が大きいと小さくなる • 推定方法 • 再テスト法,平行テスト法,Cronbachのαなど
- 補足:信頼性と妥当性 • 妥当性:測定したいものを測定できているか 信頼性:高妥当性:高 信頼性:低妥当性:低 信頼性:高妥当性:低 ※ 妥当性が高く信頼性が低いことは考えにくい(信頼性は妥当性の必要条件)
- 古典的な「信頼性」概念の限界 • 意味が多義的:「安定」「一貫」とは何か? • 時間的に安定しているのか:再テスト信頼性 • (同じ概念を測定する)テスト・項目間で一貫しているのか:α係数 • ポイント:「誤差」の意味によって信頼性の意味も変わってくる 時間的な変動⇒時間的安定性 項目間の変動⇒項目間一貫性 評定者間の違い⇒評定者間一貫性
- 一般化可能性理論(generalizability theory)とは • 古典的テスト理論より洗練された形で信頼性を評価する手法:以下の2つの段階がある • Generalizability (G) study • 分散分析 (ANOVA) の原理を用いて,異なるソースの誤差分散の成分を分離して推定する • Decision (D) study • G study で得られた分散成分をもとに,さまざまなデザインにおける信頼性を評価する
- 用語 • 相 (facet) • 評定者,項目,時間といったテストの諸側面.一般化可能性理論では,この相ごとに誤差を分離していく. • 測定の対象 (object of measurement) • 多くの場合,人(もしくは学校).ここの分散が真値の分散とみなされる. • ユニバース(universe) • それぞれの相における母集団(のようなもの). • 一般化可能性理論で「母集団」(population)という言葉は「測定の対象」にのみ使われる.
- 具体例(Brennan et al., 1996 より) • California Assessment Program (CAP) の理科のアセスメント(一種のパフォーマンス評価) • 5つの課題 (t) • 3人の評価者 (r) がすべての課題を評価 • 得点はどれも1点-4点 • 評価の対象は当然受験者 (p) p x t x rデザインと呼ぶ (すべての要因がクロス) 課題ごとに評価者が違うなら p x (r : t) デザイン(”A:B” は”AはBにネストされた”という意味)
- G study • 変量効果の分散分析により分散成分 (平均平方和MSではないので注意)を推定 • ユニバース・母集団における個々の効果の分散 • p x t x rデザインのとき,求める分散成分は交互作用を含め,p, t, r, pt, pr, tr, ptr + eの 7 つ. ※ 注: 複数の水準がないとその相の分散は推定できない(例:評定者1人だと評定者相の分散成分は推定できない)
- 全ての課題・評定者の評定を平均したとき,生徒の得点が母集団でどれくらい分散しているか ⇒ 大きいほどよい(生徒の能力を識別できている) CAPの結果 得点の課題間での(ユニバースにおける)ばらつき.難易度にばらつきがあると,ここが大きくなる 評定者間の評定のばらつき 課題によって生徒の順序が入れ替わる程度(A君はB君より課題1が得意だが,課題2はB君の方がA君より得意) 評定者によって生徒の順序が入れ替わる程度 全要因の交互作用+その他の誤差
- G study より分かったこと • 個々の得点は生徒間の個人差をある程度は捉えている • ただし,課題によって生徒の順序が入れ替わってしまう ⇒ 大問題(テスト結果が使われた課題に大きく依存してしまうから) • 評定者間のばらつきは思ったほど大きくない(むしろ小さい)
- D study G study の分散成分 「1つの観測得点」に関するもの(e.g., A君の課題Pにおける評定者αの評定値) 実際に興味があるのは 「5つの課題の平均点」や「2人の評定者の平均点」に関する信頼性 • D studyにおける信頼性の推定 • 複数の相からのサンプルにおける「平均値」の信頼性(一般化可能性)を求める • 「評定者を4人に増やしたら?」といった仮想の実験デザインに対する信頼性の推定も可能
- p x t x rデザインにおける推定 Variance component in D study (平均値を取る相を大文字で表現) Variance component in G study 測定の対象の分散はそのまま 平均値の標準誤差を算出する公式を適用(分散をサンプル数で割る)
- 2種類の信頼性係数 • Dependability Coefficient Φ • 以外すべてを誤差と考える • Generalizability Coefficient ρ2 (or Eρ2) • Personとの交互作用のみを誤差と考える
- Φとρ2の違い • ポイント: や が大きいのは問題か? 生徒の能力順位を知りたいとき だけが大きい例 課題A(易) 1位:太郎君(95点)2位:直美さん(90点)3位:亮君(80点) … 55位:瑛太君(35点)56位:拓也君(30点) 課題B(難) 1位:太郎君(55点)2位:直美さん(50点)3位:亮君(45点) … 55位:瑛太君(5点)56位:拓也君(0点) 問題ナシ(順位は課題によって変わらないから).むしろ怖いのは が大きいとき が高いのがよい
- Φとρ2の違い • ポイント: や が大きいのは問題か? 生徒の絶対得点(e.g., 60点)で選抜したいとき だけが大きい例 課題A(易) 1位:太郎君(95点)2位:直美さん(90点)3位:亮君(80点) … 55位:瑛太君(35点)56位:拓也君(30点) 課題B(難) 1位:太郎君(55点)2位:直美さん(50点)3位:亮君(45点) … 55位:瑛太君(5点)56位:拓也君(0点) 大問題(選んだ課題により60点の意味が違ってくるから). が高いのがよい
- 2種類の信頼性係数:まとめ • 受験者の相対順位に興味がある場合は の大きさをみる必要性 • 多くの場合はこちらが重要 • 相関に興味がある場合もこちら • Cronbachのα係数は p x I デザインにおけるこの係数と等しい • 受験者の絶対得点に興味がある場合(e.g., standard settingなど)は, の大きさをみる必要性
- CAPの結果 Eρ2 = 0.73 Φ= 0.70 3 人の評価者,5 つの課題の平均値を使うと信頼性はまずます (ユニバースから別の3人の評価者,5つの課題を選んできても結果は安定)
- 仮想のデザインに対する信頼性の推定 • 評定者や課題を増やす(減らす)と信頼性はどうなるのか? ntや nrに値を代入することで,推定が可能 Efficient なテスト設計が可能!
- CAPの場合 評定者の数を増やしても信頼性はそんなに増えない:もともと が小さいので • Brennan (1996) より 課題が増えると信頼性はかなり改善:もともと が大きいので
- D study より分かったこと • 3人の評定者,5つの課題である程度は信頼性が保たれている • 課題を増やすことでより信頼性を高めることが可能. • 評定者を増やしてもそれほど信頼性は高まらない(コストによっては,課題を増やし,評定者を減らすという選択もよい).
- 一般化可能性理論:その他1 • Nested デザイン • G study, D study のどちらでも適用可能 • Nestedデザインでも基本はBalanced design • アンバランスドデザインの場合 • 分散成分の推定が難しい ⇒ できれば避けたい • 最尤法 (Searle et al., 1992),もしくはAnalogous ANOVA (Brennan, 2001) を用いる • 多変量一般化可能性理論(後述)を用いる
- 一般化可能性理論:その他2 • 多変量一般化可能性理論 • 一般化可能性理論の拡張 • 固定因子 (fixed factor ) にあたる部分を多変量の従属変数として一般化可能性理論を適用 • 具体例:山森(2003) • 従属変数ごとに各相の水準数が違ってよい:単変量だとアンバランスドなデザインも,多変量だとバランスドデザインになるときがあり ※注:複数の課題があっても,random factorであるならば,これらを従属変数にしてはダメ
- 一般化可能性理論:その他3 • 分散成分の標準誤差 (see Brennan, 2001) • 水準数が少ない相で得られた分散成分は精度が低い可能性 • 相の水準数を増やすことで標準誤差は減る • ソフトウェア • G study: SASのvarcomp, mixed • D study: SASマクロ -> http://flash.lakeheadu.ca/~boconno2/gtheory/gtheory.html • GENOVA (Brennan): http://www.education.uiowa.edu/casma/GenovaPrograms.htm
- Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状
- パフォーマンス評価実施者の陥穽 • 「評定の客観性・一貫性が保たれなくてはいけないから,ルーブリックをしっかりと作成し,評定者も複数人確保しよう!」 • 「評定者間の相関 (inter-rater reliability) が高ければ問題がないだろう」 • 「高い一般化可能性係数が得られた.これで万事問題なし!」 もちろん,これらは大切なこと.しかし…
- むしろ非常に大きいのは,人と課題の交互作用!むしろ非常に大きいのは,人と課題の交互作用! Brennan (1996) より先行研究のまとめ 近年の先行研究を見る限り,評定者によるばらつきはほとんどない!
- CAPの場合:reprise 評定者の数を増やしても信頼性はそんなに増えない:もともと が小さいので • Brennan (1996) より 評定者より課題の数を増やすことが大切!(時間的制約があるとはいえ) 課題が増えると信頼性はかなり改善:もともと が大きいので
- Inter-rater reliability神話の危険性 • 基本的に,ある課題に対して2人の評定者が評定したときの相関係数 • 非常によく使われる指標 しかし… p x tの成分が真値と交絡し,信頼性を過大推定してしまう(Brennan, 2000) 複数の課題間の分散をまったく考慮に入れていない パフォーマンス評価の大きな問題点を見逃す可能性
- 課題・評定者以外の相の効果 Ruiz-Primo et al. (1993) o = occasion = 時間間隔(5ヶ月) 生徒が2回目の時には課題ごとにストラテジーを変えている可能性 Eρ2 = 0.04, Φ = 0.04
- 信頼性と妥当性は別 • 村山 (2008):教師による生徒の意欲の評価 • 複数の評定者を使用 • 評定者間一貫性は非常に高い • 妥当性(生徒の自己報告と教師の評定との相関)は非常に低い: r = 0.00 – 0.15 (!)
- まとめ • パフォーマンス評価を実施すると,つい「評定者」の相だけに目が向きがちである • もちろんそれは大切 • しかし,これまでの研究でもっとも問題になっているのは p x t の成分(選ばれた課題によって受験者の得手・不得手が顕著に違う) • 対策:完全な対策は存在しない • 課題を増やす:時間的制約のコストがかかる • 出題領域を狭くする:測定できる能力も狭くなってしまう • 他の相(occasionなど)や妥当性にも気を配る必要性
- 文献 1 • 一般化可能性理論 • オリジナル • Cronbach, Gleser, Nanda, & Rajaratnam (1972). The dependability of behavioral measurements. • 初学者用文献 • Brennan (1992). Elements of geeneralizability theory (rev. ed.). • Shavelson & Webb (1991). Generalizability theory: A primer. • より包括的な文献 • Brennan (2001). Generalizability theory. • 日本語の文献 • 現代テスト理論(池田央) • 教育測定学(Linn著,池田央ら監訳) 第3章
- 文献 2 • 一般化可能性理論のパフォーマンス評価への適用 • レビュー • Brennan (1996). Generalizability of performance assessments. In Phillips (Ed.). Technical issues in performance assessments. • Cronbach et al. (1997). Generalizability analysis for performance assessments of student achievement or school effectiveness. Educational and Psychological Measurement. • 事例 • Ruiz-Primo et al. (1993). On the stability of performance assessments. Journal of Educational Measurement. • Shavelson et al. (1993). Sampling variability of performance assessments. Journal of Educational Measurement. • Webb et al. (2000). The dependability and interchangeability of assessment methods in science. Applied Measurement in Education.
- Related
- More by User
Performance Based Assessment. By: Joan Coleman and Rosalind Friday. What is Performance Based Assessment?. Performance based assessment is a form of testing that requires students to perform a task rather than an answer from a ready made list. PBA is also know as: Authentic Assessment
1.93k views • 11 slides
Georgia Performance StandardsGeorgia Performance Standards. Day 3: Assessment FOR Learning. Training Overview: Day Three. Reflections on Redelivery Introduction to Module Introduction to Assessment Balanced Assessment Matching Assessments to Standards Planning for Assessment
1.12k views • 47 slides
AROUSAL THEORYAROUSAL THEORY . Relationship to performance. Arousal & attentional narrowing. Drive theory / Inverted U theory / Catastrophe theory. USEFUL DEFINITIONS. Arousal can be defined as: ‘ a state of readiness to perform that helps motivate performers’
3.3k views • 18 slides
Performance AssessmentsPerformance Assessments . Activity Goals. Recognize authentic assessment Use GRASPS to create a performance assessment that gets at deep understanding. Authentic Assessment. An evaluation that makes use of real life tasks (i.e. writing a letter, presenting a plan).
551 views • 24 slides
Performance - Based AssessmentPerformance - Based Assessment. For Physical Education. The Role of Assessment. The aim of assessment is to educate and improve student performance, not just audit it. Wiggins 1998 Performance-based assessments encourage teachers to give multiple opportunities to demonstrate learning.
3.1k views • 27 slides
AssessmentAssessment. What is Assessment?. Standardized Assessment CASAS BEST TABE ABLE Alternative Assessment. What is Alternative Assessment. Performance based Assessment Authentic Project Assessment Portfolio Assessment Checklists Rubrics Journal Assessment. Portfolio Assessment.
713 views • 11 slides
Performance and Portfolio AssessmentPerformance and Portfolio Assessment. Performance Assessment. An assessment in which the teacher observes and makes a judgement about a student’s demonstration of a skill or competency in creating a product. Similar terms include: authentic assessment. alternative assessment.
1.21k views • 18 slides
Pros and Cons of Performance Assessment vs. Multiple Choice TestingPerformance assessment is one of the oldest methods of assessment. Performance assessment, in which the person evaluated is asked to perform some physical task, is one of the oldest methods to assessment abilities. It has been used for thousands of years. Examples include:Oral examinationsAthletic
1.09k views • 36 slides
Teaching Performance Assessment2. What is the Teaching Performance Assessment (TPA)?. California mandated standardized teacher candidate performance assessment. Measures aspects of the Teaching Performance Expectations (TPEs)Used to provide summative measure of documented teaching performanceEmbedded in teacher preparation exp
583 views • 34 slides
TEACHER DETAILSTEACHER DETAILS. Salutation: Mr./Ms. Name: Age:. Qualification: Bachelors/Masters/ PhD Teaching Experience (in Years): Domain/Branch:. PREFACE. This worksheet has been prepared to assist college teachers to prepare Learning Outcomes and assessment for their own course.
333 views • 21 slides
Assessment and Performance-based InstructionAssessment and Performance-based Instruction. Dr. Yu-Lan Lin Boston Public Schools ylin@boston.k12.ma.us. Assessment Literacy. Ability to understand the principles and practices of testing and assessment Ability to identify appropriate assessments Ability to analyze data
468 views • 21 slides
Competency Assessment and Pay DeterminationCompetency Assessment and Pay Determination. N.C. Office of State Personnel Career-Banding Project Team. Competency Assessment and Pay Determination. Performance Management Goals and Expectations Behavioral Competencies Performance Improvement Competency Assessment
484 views • 20 slides
Moving from Concept to Meaningful Assessment :Moving from Concept to Meaningful Assessment :. Using Logic Models to Maximize Efforts & Clarify Results. Ashley Finley, Ph.D Senior Director of Assessment & Research, AAC&U National Evaluator, Bringing Theory to Practice Bringing Theory to Practice Well-Being Initiative Assessment Webinar
310 views • 15 slides
Performance AssessmentPerformance Assessment. Situation/SWOT Analysis. Strategic Planning. Functional Integration. Performance Assessment. The Big Picture. C ompany C onsumers C ompetitors C onditions PEST. Functional Integration. Growth & Competitive Strategies. Profits Mrkt Share ROA ROS ROE
860 views • 71 slides
Curriculum-Embedded Performance AssessmentCurriculum-Embedded Performance Assessment. Lauren Monowar-Jones January 2014. The Ohio Performance Assessment Pilot Project. The Task Dyad Learning System. The Pilot. Lessons Learned. 1. Face-to-face professional learning is most effective.
319 views • 13 slides
Topic 2.1 Cell TheoryTopic 2.1 Cell Theory. Assessment Statements. 2.1.1 Outline the cell theory. 2.1.2 Discuss the evidence for the cell theory. Watch this:. Try this:. Cell Theory Jigsaw activity Split into two groups A and B. Each group has a different version of a text with some key words missing.
888 views • 47 slides
Anxiety, Arousal and their influence on performance in sportAnxiety, Arousal and their influence on performance in sport. The two ‘As’ IB Learning Objective: Discuss theories relating arousal and anxiety to performance. Content. Definitions Drive theory The inverted-U hypothesis The catastrophe theory Optimal arousal theory Self-efficacy theory.
763 views • 19 slides
Notes towards a theory of formative assessmentNotes towards a theory of formative assessment. Dylan Wiliam King’s College London www.kcl.ac.uk. www.dylanwiliam.net. Outline. What is formative assessment? Putting it into practice Theorising the outcomes. Assessment for Learning.
672 views • 50 slides
Assessment of Knowledge and PerformanceAssessment of Knowledge and Performance. John Littlefield, PhD University of Texas Health Science Center at San Antonio. Goals: Assessment of Knowledge and Performance. 1. Clarify 2 distinct uses for assessments of clinical knowledge and performance
842 views • 29 slides
Performance Assessment An NSF PerspectivePerformance Assessment An NSF Perspective. MJ Suiter Budget, Finance and Awards NSF. Government-Wide Performance Assessments. Program Assessment Rating Tool (PART). Designed to focus on program performance
241 views • 12 slides
Performance Assessment OSI Workshop June 25 – 27, 2003 Yerevan, ArmeniaPerformance Assessment OSI Workshop June 25 – 27, 2003 Yerevan, Armenia. Ara Tekian, PhD, MHPE University of Illinois at Chicago. Presentation Outline. Characteristics, types, strengths, and limitations Five factors to consider when making performance assessment Checklists and rating scales
468 views • 30 slides
Authentic Performance AssessmentAuthentic Performance Assessment. Ellen J. Lehning, Ph.D. Department of Anesthesiology. Objectives. Define clinical competence and authentic performance Design an authentic performance assessment Implement an authentic performance assessment. What is the First Principle of Education?.
683 views • 27 slides