nkhrlab~

140字超の記事

情報処理技術者試験の選択肢の順序は人間が決定しているか?

背景と目的

定期試験や入学試験などの試験中,択一式の問題で解答に迷ったら,あなたはどうするだろうか.おそらく,答えがわからなくてもとりあえずどれか一つを選ぶのではないだろうか.一般的な方式の試験では,白紙のまま提出するよりもまぐれで当たる可能性を狙ってとりあえず何か選んでおくほうが合理的である.

それでは,まぐれ当たりを狙うべくどの選択肢を解答すべきであろうか.計算機によって,すべての問題に対して選択肢の順序が等確率で,しかも問題の間で独立に決定される場合は,どのように解答を決定しても,得点の期待値はランダムに決定した場合と変わらないだろう.一方で,選択肢の順序の決定にある傾向がある場合は,その傾向に合わせた解答の決定を行うことで得点の期待値を改善できると考えられる.例えば,「大学入試センター試験」の対策において,「迷ったら2番か3番だ」*1などの解答に迷った場合の「対策」が(時に冗談として)論じられることがある.これは,あらかじめ解答に迷った場合の行動を決めておくことで,正答できるか不確かな問題につまづいていたずらに時間を消費することを防ぐ意味のほか,「最初や最後の選択肢より中間の選択肢を正答として選びやすいのではないか」という,問題作成者の心理などに関する推測をも含んでいると考えられる.

同種の試験が繰り返し行われ,十分な量のデータが蓄積していれば,統計的手法によって選択肢の決定を人間が行っているかを推測できるだろう.この記事では,人間が「最初や最後の選択肢より中間の選択肢を正答として選びやすい」という仮定のもとで,「情報処理技術者試験」の択一式問題を対象に\chi^2検定を行い,選択肢の決定に偏りがあるかを推測する.

情報処理技術者試験

情報処理技術者試験とは,情報処理推進機構(IPA)の主催する国家試験である.現行の試験制度では,試験は毎年春と秋に行われる*2.詳細は公式ページを参照のこと.
www.jitec.ipa.go.jp

この試験は,さらに複数の試験区分に分かれている.このうち,FE, AP, SG試験*3の「午前」問題と,9つの高度試験の「午前I」「午前II」問題は,全問が「ア,イ,ウ,エ」から1つを選ぶ4択問題で構成される.旧IP試験*4の問題,旧AD試験*5の「午前」問題も同様である.また,高度試験の「午前I」問題は,APの午前試験を一部抜粋したものになっている.

さらに,IPAは過去に行われた試験の問題及び解答を常時公開しており,集計に都合がよい.

集計

集計の方法

本記事で取り扱う対象のデータは,現行の試験制度が開始された平成21年度から平成28年度までの8年度間に行われたFE, AP, SG, 旧AD試験の「午前」問題と高度試験の「午前II」問題,旧IP試験の問題全5340問とした.高度試験の「午前I」問題は,APの午前試験の抜粋であるので含めなかった.

ある問題に正答となる選択肢がn \;\; (n = 1, 2, 3)個のとき,正答となる選択肢それぞれに対して 1 / n問として数え,選択肢「ア,イ,ウ,エ」それぞれに対しそれが正答となった問題の個数を集計した.問題文の誤りなどで4つすべての選択肢が正答として扱われた問題については,集計対象には含めなかった.

集計の結果

対象の5340問のうち,問題文に誤りのあった1問*6を除いた5339問について集計を行った.*7集計結果を要約したものを次に示す.

試験区分ごとの集計
試験区分
FE 午前 296 320 339 325 1280
AP 午前 283 331 337 329 1280
SG 午前 23 26 29 22 100
ST 午前II 47 47 70 36 200
SA 午前II 44 52 44 60 200
NW 午前II 32 67 47 54 200
SM 午前II 48 42 61 49 200
PM 午前II 39 51 64 45 199
DB 午前II 40 44 49 67 200
ES 午前II 44 56 52 48 200
AU 午前II 54 51 55 40 200
SC 午前II 116 87 110 87 400
旧IP 午前 129.5 176 173 121.5 600
旧AD 午前 18 24 20 18 80
1213.5 1374 1450 1301.5 5339
試験の時期ごとの集計
時期
H28 秋 81 73 86 95 335
H28 春 76 90 93 75 334
H27 秋 65 66 78 76 285
H27 春 55 72 84 74 285
H26 秋 52 69 75 89 285
H26 春 63 73 74 75 285
H25 秋 70 71 73 71 285
H25 春 77 74 79 55 285
H24 秋 71 79 73 65 285
H24 春 57 67 89 72 285
H23 秋 74 108 104 99 385
H23 特別 101 105 90 89 385
H22 秋 84 92 118 90 385
H22 春 84 92 118 91 385
H21 秋 94.5 95 109 86.5 385
H21 春 107 124 130 104 465
1213.5 1374 1450 1301.5 5339

結果の分析

集計された結果に人為的な偏りがあるかどうかを検定するため,\chi^2検定により一様分布に対する適合度検定を行った.

\chi^2検定による適合性の検定

\chi^2検定とは,K種類の値をとる離散的確率変数があるひとつの確率分布に従うかを検定する方法の一つである.帰無仮説 H_0: 「確率変数Xは確率分布Dに従う」を検定する.帰無仮説H_0が正しいとき,検定統計量\chi^2は自由度K - 1\chi^2分布に従うと仮定する.H_0が真であるとき,検定統計量\chi^2は確率1 - \alpha\chi^2分布の上側 100 \alpha \%点より小さくなる.\chi^2検定では,これとは逆に,検定統計量\chi^2\chi^2分布の上側 100 \alpha \%点より小さいとき,帰無仮説 H_0を受容し,確率変数Xは確率分布Dに従うと判断する.さもなくば H_0を棄却し,確率変数Xは確率分布Dに従っていないと判断する.ここで, \alpha有意水準という.

本記事では,それぞれの問題の正答をK = 4種類の値(ア,イ,ウ,エのいずれか)をとる確率変数Xとみて, \alpha = 5 \%とした\chi^2検定を行う.検定する帰無仮説は, H_0: 「確率変数Xは4つの選択肢から等確率に選ばれる」である.この仮説が受容されれば選択肢は4つのうちから均等に選ばれていると判断し,棄却されれば人為的な偏りがあると判断する*8.検定統計量\chi^2は次のように計算される.
{\displaystyle  \chi^2 = \sum_{ k \in \{ア, イ, ウ, エ\}} \frac{(x_k - \overline{x})^2}{\overline{x}} }
{\displaystyle  \overline{x} = \frac{1}{4} \sum_{ k \in \{ア, イ, ウ, エ\}} x_k }
 x_ア, x_イ, x_ウ, x_エ: 各選択肢が正答となった度数(結果の集計の表の「ア,イ,ウ,エ」の各列の値)

 H_0が真であるとき,\chi^2は自由度K - 1 = 3\chi^2分布に従う.自由度3\chi^2分布の上側 \alpha = 5\%点は\chi^2_{0.05}(3) = 7.815である.\chi^2 < \chi^2_{0.05}(3)のとき, H_0は受容され,さもなくば棄却されることとなる.感覚的に言えば,\chi^2の値が大きいほど,正答の選択肢の偏りも大きいと推測できる.

さらに,本記事では,検定統計量\chi^2の値が\chi^2分布の上側何%点にあたるかを関数c(\chi^2)で与えることで,偏りの大きさを直感的にわかりやすく表すことを試みる.例えば\chi^2 = 2.5 \approx \chi^2_{0.4753}(3)であるとき,c(\chi^2) = 47.53 \%と表し,H_0が真であった場合47.53 \%の確率で発生する程度の偏りであると判断する.c(\chi^2) > \alpha = 5\% のときH_0は受容され,さもなくば棄却される.

検定の結果

集計の結果全体,試験区分ごと,および試験の時期ごとに検定を行った.その結果を正答の選択肢の集計結果(再掲)とともに次に示す.

試験区分ごとの検定
試験区分 \chi^2 c(\chi^2) H_0
FE 午前 296 320 339 325 1280 3.01 39.07% 受容
AP 午前 283 331 337 329 1280 5.81 12.11% 受容
SG 午前 23 26 29 22 100 1.20 75.30% 受容
ST 午前II 47 47 70 36 200 0.65 12.28% 受容
SA 午前II 44 52 44 60 200 3.52 31.82% 受容
NW 午前II 32 67 47 54 200 12.76 0.52% 棄却
SM 午前II 48 42 61 49 200 3.80 28.39% 受容
PM 午前II 39 51 64 45 199 6.89 7.55% 受容
DB 午前II 40 44 49 67 200 8.52 3.64% 棄却
ES 午前II 44 56 52 48 200 1.60 65.94% 受容
AU 午前II 54 51 55 40 200 2.84 41.70% 受容
SC 午前II 116 87 110 87 400 6.94 7.38% 受容
旧IP 午前 129.5 176 173 121.5 600 16.25 0.10% 棄却
旧AD 午前 18 24 20 18 80 1.20 75.30% 受容
1213.5 1374 1450 1301.5 5339 22.95 0.004% 棄却

\alpha = 5\%, \chi^2_{0.05}(3) = 7.815

試験の時期ごとの検定
時期 \chi^2 c(\chi^2) H_0
H28 秋 81 73 86 95 335 3.04 38.52% 受容
H28 春 76 90 93 75 334 3.13 37.26% 受容
H27 秋 65 66 78 76 285 1.89 59.53% 受容
H27 春 55 72 84 74 285 6.10 10.68% 受容
H26 秋 52 69 75 89 285 9.89 1.95% 棄却
H26 春 63 73 74 75 285 1.30 72.87% 受容
H25 秋 70 71 73 71 285 0.07 99.55% 受容
H25 春 77 74 79 55 285 5.12 16.33% 受容
H24 秋 71 79 73 65 285 1.41 70.22% 受容
H24 春 57 67 89 72 285 7.53 5.67% 受容
H23 秋 74 108 104 99 385 7.28 6.35% 受容
H23 特別 101 105 90 89 385 1.98 57.62% 受容
H22 秋 84 92 118 90 385 6.49 9.00% 受容
H22 春 84 92 118 91 385 6.95 7.36% 受容
H21 秋 94.5 95 109 86.5 385 2.72 43.61% 受容
H21 春 107 124 130 104 465 4.17 24.37% 受容
1213.5 1374 1450 1301.5 5339 22.95 0.004% 棄却

\alpha = 5\%, \chi^2_{0.05}(3) = 7.815

結果の解釈

全体としては,人為的な偏りの存在が強く示唆される結果となった.最も多く正答として出現した「ウ」と最も少なかった「ア」で相対度数の差はおよそ4\%ほどであるが,統計的揺らぎであると判断するにはあまりに大きい差であった.

また,試験区分の間で\chi^2の値が大きく異なっており,特にNW, DB, 旧IPの3つの区分ではH_0が棄却され,試験区分ごとに偏りの発生の規模や頻度が異なっていることがわかった.試験区分ごとの出題者による正答の選択肢の決定に個人差が現れることや,試験区分ごとに選択肢の順序の決定の方法が異なることが要因として考えられる.

さらに.試験の時期ごとの結果から,時期ごとに見ても偏りの度合いが大きく異なっていることが分かった.平成26年度の秋の問題は特に偏りが大きかった.出題者の変更や試験の新設・改廃が影響を与えているものと考える.

まとめ

本記事では,「情報処理技術者試験」の択一式問題を対象に\chi^2検定を行い,選択肢の決定に人為的な偏りがあるかを推測した.その結果,試験の問題の選択肢は人間により決定されていることを示唆する結果を得ることができた.これでもし街角で突然「情報処理技術者試験の選択肢の順序は人間が決定しているか?」と聞かれても「そうだ」と答えることができる.やったね.しかしながら,この偏りは実際の試験で得点を伸ばすのに役立つほどの偏りではなさそうだ.ざんねん.

補足(重要)

村山直紀様より,選択肢の順序は各選択肢の記号に続く文字列の辞書順で決定されることをご教授いただきました(参考: 「ポケットスタディ 高度試験共通 午前Ⅰ・Ⅱ対応[第2版]」(秀和システム, 2011)).ありがとうございます.記事の公開からわずか20分後のことでした.知らなかったよ・・・


ポケットスタディ 高度試験共通 午前1・2対応[第2版] (情報処理技術者試験)

ポケットスタディ 高度試験共通 午前1・2対応[第2版] (情報処理技術者試験)

さて,「選択肢の偏りが人為的なものである」という仮説はこれで否定されることになりました.ある選択肢が正答かどうかとその辞書順は無関係であると考えられます.一方で,この記事の分析によって,選択肢の偏りを説明するような事象の存在が示唆されています.

選択肢が辞書順で決定されているならば,例えば問題文と選択肢の組み合わせが同じならば選択肢の順序も同じであることになります.よって,過去問の使いまわしによって同じ問題が同じ選択肢を正答とした問題として何重にもカウントされることになります.このことから,選択肢の偏りを説明する事象として,「過去問の使いまわし」を提案しようと考えます.「そうだ」と言えなくなってしまった.ぐぬぬ.でも今度は「いや違う」と言えるようになった.やったね.

*1:私が高校生だったころ,社会科の先生にこう教わった.

*2:平成23年度は,春の試験が延期され「特別試験」として夏に行われた.

*3:試験区分には2文字の英字による略称が用いられることがある.略称についての詳細は公式ページを参照のこと.

*4:H23年度の秋まで実施,以降は現行のITパスポート試験として運用されている.

*5:H21年度の春まで実施.

*6:平成28年度春 PM試験, 問2

*7:正答となる選択肢が2つある問題2問を含む.(平成21年度秋 旧IP試験, 問12および問60) 正答が3つある問題は存在しなかった.

*8:ただし,第I種の誤りおよび第II種の誤りに注意.