情報処理技術者試験の選択肢の順序は人間が決定しているか?
背景と目的
定期試験や入学試験などの試験中,択一式の問題で解答に迷ったら,あなたはどうするだろうか.おそらく,答えがわからなくてもとりあえずどれか一つを選ぶのではないだろうか.一般的な方式の試験では,白紙のまま提出するよりもまぐれで当たる可能性を狙ってとりあえず何か選んでおくほうが合理的である.
それでは,まぐれ当たりを狙うべくどの選択肢を解答すべきであろうか.計算機によって,すべての問題に対して選択肢の順序が等確率で,しかも問題の間で独立に決定される場合は,どのように解答を決定しても,得点の期待値はランダムに決定した場合と変わらないだろう.一方で,選択肢の順序の決定にある傾向がある場合は,その傾向に合わせた解答の決定を行うことで得点の期待値を改善できると考えられる.例えば,「大学入試センター試験」の対策において,「迷ったら2番か3番だ」*1などの解答に迷った場合の「対策」が(時に冗談として)論じられることがある.これは,あらかじめ解答に迷った場合の行動を決めておくことで,正答できるか不確かな問題につまづいていたずらに時間を消費することを防ぐ意味のほか,「最初や最後の選択肢より中間の選択肢を正答として選びやすいのではないか」という,問題作成者の心理などに関する推測をも含んでいると考えられる.
同種の試験が繰り返し行われ,十分な量のデータが蓄積していれば,統計的手法によって選択肢の決定を人間が行っているかを推測できるだろう.この記事では,人間が「最初や最後の選択肢より中間の選択肢を正答として選びやすい」という仮定のもとで,「情報処理技術者試験」の択一式問題を対象に検定を行い,選択肢の決定に偏りがあるかを推測する.
情報処理技術者試験
情報処理技術者試験とは,情報処理推進機構(IPA)の主催する国家試験である.現行の試験制度では,試験は毎年春と秋に行われる*2.詳細は公式ページを参照のこと.
www.jitec.ipa.go.jp
この試験は,さらに複数の試験区分に分かれている.このうち,FE, AP, SG試験*3の「午前」問題と,9つの高度試験の「午前I」「午前II」問題は,全問が「ア,イ,ウ,エ」から1つを選ぶ4択問題で構成される.旧IP試験*4の問題,旧AD試験*5の「午前」問題も同様である.また,高度試験の「午前I」問題は,APの午前試験を一部抜粋したものになっている.
さらに,IPAは過去に行われた試験の問題及び解答を常時公開しており,集計に都合がよい.
集計
集計の方法
本記事で取り扱う対象のデータは,現行の試験制度が開始された平成21年度から平成28年度までの8年度間に行われたFE, AP, SG, 旧AD試験の「午前」問題と高度試験の「午前II」問題,旧IP試験の問題全5340問とした.高度試験の「午前I」問題は,APの午前試験の抜粋であるので含めなかった.
ある問題に正答となる選択肢が個のとき,正答となる選択肢それぞれに対して問として数え,選択肢「ア,イ,ウ,エ」それぞれに対しそれが正答となった問題の個数を集計した.問題文の誤りなどで4つすべての選択肢が正答として扱われた問題については,集計対象には含めなかった.
集計の結果
対象の5340問のうち,問題文に誤りのあった1問*6を除いた5339問について集計を行った.*7集計結果を要約したものを次に示す.
試験区分ごとの集計
試験区分 | ア | イ | ウ | エ | 計 |
---|---|---|---|---|---|
FE 午前 | 296 | 320 | 339 | 325 | 1280 |
AP 午前 | 283 | 331 | 337 | 329 | 1280 |
SG 午前 | 23 | 26 | 29 | 22 | 100 |
ST 午前II | 47 | 47 | 70 | 36 | 200 |
SA 午前II | 44 | 52 | 44 | 60 | 200 |
NW 午前II | 32 | 67 | 47 | 54 | 200 |
SM 午前II | 48 | 42 | 61 | 49 | 200 |
PM 午前II | 39 | 51 | 64 | 45 | 199 |
DB 午前II | 40 | 44 | 49 | 67 | 200 |
ES 午前II | 44 | 56 | 52 | 48 | 200 |
AU 午前II | 54 | 51 | 55 | 40 | 200 |
SC 午前II | 116 | 87 | 110 | 87 | 400 |
旧IP 午前 | 129.5 | 176 | 173 | 121.5 | 600 |
旧AD 午前 | 18 | 24 | 20 | 18 | 80 |
計 | 1213.5 | 1374 | 1450 | 1301.5 | 5339 |
試験の時期ごとの集計
時期 | ア | イ | ウ | エ | 計 |
---|---|---|---|---|---|
H28 秋 | 81 | 73 | 86 | 95 | 335 |
H28 春 | 76 | 90 | 93 | 75 | 334 |
H27 秋 | 65 | 66 | 78 | 76 | 285 |
H27 春 | 55 | 72 | 84 | 74 | 285 |
H26 秋 | 52 | 69 | 75 | 89 | 285 |
H26 春 | 63 | 73 | 74 | 75 | 285 |
H25 秋 | 70 | 71 | 73 | 71 | 285 |
H25 春 | 77 | 74 | 79 | 55 | 285 |
H24 秋 | 71 | 79 | 73 | 65 | 285 |
H24 春 | 57 | 67 | 89 | 72 | 285 |
H23 秋 | 74 | 108 | 104 | 99 | 385 |
H23 特別 | 101 | 105 | 90 | 89 | 385 |
H22 秋 | 84 | 92 | 118 | 90 | 385 |
H22 春 | 84 | 92 | 118 | 91 | 385 |
H21 秋 | 94.5 | 95 | 109 | 86.5 | 385 |
H21 春 | 107 | 124 | 130 | 104 | 465 |
計 | 1213.5 | 1374 | 1450 | 1301.5 | 5339 |
結果の分析
集計された結果に人為的な偏りがあるかどうかを検定するため,検定により一様分布に対する適合度検定を行った.
検定による適合性の検定
検定とは,種類の値をとる離散的確率変数があるひとつの確率分布に従うかを検定する方法の一つである.帰無仮説「確率変数は確率分布に従う」を検定する.帰無仮説が正しいとき,検定統計量は自由度の分布に従うと仮定する.が真であるとき,検定統計量は確率で分布の上側点より小さくなる.検定では,これとは逆に,検定統計量が分布の上側点より小さいとき,帰無仮説を受容し,確率変数は確率分布に従うと判断する.さもなくばを棄却し,確率変数は確率分布に従っていないと判断する.ここで,を有意水準という.
本記事では,それぞれの問題の正答を種類の値(ア,イ,ウ,エのいずれか)をとる確率変数とみて,とした検定を行う.検定する帰無仮説は,「確率変数は4つの選択肢から等確率に選ばれる」である.この仮説が受容されれば選択肢は4つのうちから均等に選ばれていると判断し,棄却されれば人為的な偏りがあると判断する*8.検定統計量は次のように計算される.
各選択肢が正答となった度数(結果の集計の表の「ア,イ,ウ,エ」の各列の値)
が真であるとき,は自由度の分布に従う.自由度の分布の上側点はである.のとき,は受容され,さもなくば棄却されることとなる.感覚的に言えば,の値が大きいほど,正答の選択肢の偏りも大きいと推測できる.
さらに,本記事では,検定統計量の値が分布の上側何%点にあたるかを関数で与えることで,偏りの大きさを直感的にわかりやすく表すことを試みる.例えばであるとき,と表し,が真であった場合の確率で発生する程度の偏りであると判断する.のときは受容され,さもなくば棄却される.
検定の結果
集計の結果全体,試験区分ごと,および試験の時期ごとに検定を行った.その結果を正答の選択肢の集計結果(再掲)とともに次に示す.
試験区分ごとの検定
試験区分 | ア | イ | ウ | エ | 計 | |||
---|---|---|---|---|---|---|---|---|
FE 午前 | 296 | 320 | 339 | 325 | 1280 | 3.01 | 39.07% | 受容 |
AP 午前 | 283 | 331 | 337 | 329 | 1280 | 5.81 | 12.11% | 受容 |
SG 午前 | 23 | 26 | 29 | 22 | 100 | 1.20 | 75.30% | 受容 |
ST 午前II | 47 | 47 | 70 | 36 | 200 | 0.65 | 12.28% | 受容 |
SA 午前II | 44 | 52 | 44 | 60 | 200 | 3.52 | 31.82% | 受容 |
NW 午前II | 32 | 67 | 47 | 54 | 200 | 12.76 | 0.52% | 棄却 |
SM 午前II | 48 | 42 | 61 | 49 | 200 | 3.80 | 28.39% | 受容 |
PM 午前II | 39 | 51 | 64 | 45 | 199 | 6.89 | 7.55% | 受容 |
DB 午前II | 40 | 44 | 49 | 67 | 200 | 8.52 | 3.64% | 棄却 |
ES 午前II | 44 | 56 | 52 | 48 | 200 | 1.60 | 65.94% | 受容 |
AU 午前II | 54 | 51 | 55 | 40 | 200 | 2.84 | 41.70% | 受容 |
SC 午前II | 116 | 87 | 110 | 87 | 400 | 6.94 | 7.38% | 受容 |
旧IP 午前 | 129.5 | 176 | 173 | 121.5 | 600 | 16.25 | 0.10% | 棄却 |
旧AD 午前 | 18 | 24 | 20 | 18 | 80 | 1.20 | 75.30% | 受容 |
計 | 1213.5 | 1374 | 1450 | 1301.5 | 5339 | 22.95 | 0.004% | 棄却 |
試験の時期ごとの検定
時期 | ア | イ | ウ | エ | 計 | |||
---|---|---|---|---|---|---|---|---|
H28 秋 | 81 | 73 | 86 | 95 | 335 | 3.04 | 38.52% | 受容 |
H28 春 | 76 | 90 | 93 | 75 | 334 | 3.13 | 37.26% | 受容 |
H27 秋 | 65 | 66 | 78 | 76 | 285 | 1.89 | 59.53% | 受容 |
H27 春 | 55 | 72 | 84 | 74 | 285 | 6.10 | 10.68% | 受容 |
H26 秋 | 52 | 69 | 75 | 89 | 285 | 9.89 | 1.95% | 棄却 |
H26 春 | 63 | 73 | 74 | 75 | 285 | 1.30 | 72.87% | 受容 |
H25 秋 | 70 | 71 | 73 | 71 | 285 | 0.07 | 99.55% | 受容 |
H25 春 | 77 | 74 | 79 | 55 | 285 | 5.12 | 16.33% | 受容 |
H24 秋 | 71 | 79 | 73 | 65 | 285 | 1.41 | 70.22% | 受容 |
H24 春 | 57 | 67 | 89 | 72 | 285 | 7.53 | 5.67% | 受容 |
H23 秋 | 74 | 108 | 104 | 99 | 385 | 7.28 | 6.35% | 受容 |
H23 特別 | 101 | 105 | 90 | 89 | 385 | 1.98 | 57.62% | 受容 |
H22 秋 | 84 | 92 | 118 | 90 | 385 | 6.49 | 9.00% | 受容 |
H22 春 | 84 | 92 | 118 | 91 | 385 | 6.95 | 7.36% | 受容 |
H21 秋 | 94.5 | 95 | 109 | 86.5 | 385 | 2.72 | 43.61% | 受容 |
H21 春 | 107 | 124 | 130 | 104 | 465 | 4.17 | 24.37% | 受容 |
計 | 1213.5 | 1374 | 1450 | 1301.5 | 5339 | 22.95 | 0.004% | 棄却 |
結果の解釈
全体としては,人為的な偏りの存在が強く示唆される結果となった.最も多く正答として出現した「ウ」と最も少なかった「ア」で相対度数の差はおよそほどであるが,統計的揺らぎであると判断するにはあまりに大きい差であった.
また,試験区分の間での値が大きく異なっており,特にNW, DB, 旧IPの3つの区分ではが棄却され,試験区分ごとに偏りの発生の規模や頻度が異なっていることがわかった.試験区分ごとの出題者による正答の選択肢の決定に個人差が現れることや,試験区分ごとに選択肢の順序の決定の方法が異なることが要因として考えられる.
さらに.試験の時期ごとの結果から,時期ごとに見ても偏りの度合いが大きく異なっていることが分かった.平成26年度の秋の問題は特に偏りが大きかった.出題者の変更や試験の新設・改廃が影響を与えているものと考える.
まとめ
本記事では,「情報処理技術者試験」の択一式問題を対象に検定を行い,選択肢の決定に人為的な偏りがあるかを推測した.その結果,試験の問題の選択肢は人間により決定されていることを示唆する結果を得ることができた.これでもし街角で突然「情報処理技術者試験の選択肢の順序は人間が決定しているか?」と聞かれても「そうだ」と答えることができる.やったね.しかしながら,この偏りは実際の試験で得点を伸ばすのに役立つほどの偏りではなさそうだ.ざんねん.
補足(重要)
村山直紀様より,選択肢の順序は各選択肢の記号に続く文字列の辞書順で決定されることをご教授いただきました(参考: 「ポケットスタディ 高度試験共通 午前Ⅰ・Ⅱ対応[第2版]」(秀和システム, 2011)).ありがとうございます.記事の公開からわずか20分後のことでした.知らなかったよ・・・
@nkhrlab 集計ありがとうございます。約10年前まではアイウエほぼ均しい率、ばらすよう変わったのはその後。なお、アイウエの順を決めるのは、記号に続く文字列の50音(辞書)順です。
— 村山直紀 (@MurayamaNaoki) 2017年2月22日
ポケットスタディ 高度試験共通 午前1・2対応[第2版] (情報処理技術者試験)
- 作者: 村山直紀
- 出版社/メーカー: 秀和システム
- 発売日: 2011/12/22
- メディア: 単行本
- 購入: 7人 クリック: 12回
- この商品を含むブログ (4件) を見る
さて,「選択肢の偏りが人為的なものである」という仮説はこれで否定されることになりました.ある選択肢が正答かどうかとその辞書順は無関係であると考えられます.一方で,この記事の分析によって,選択肢の偏りを説明するような事象の存在が示唆されています.
選択肢が辞書順で決定されているならば,例えば問題文と選択肢の組み合わせが同じならば選択肢の順序も同じであることになります.よって,過去問の使いまわしによって同じ問題が同じ選択肢を正答とした問題として何重にもカウントされることになります.このことから,選択肢の偏りを説明する事象として,「過去問の使いまわし」を提案しようと考えます.「そうだ」と言えなくなってしまった.ぐぬぬ.でも今度は「いや違う」と言えるようになった.やったね.