情報処理技術者試験の選択肢の順序は人間が決定しているか？

背景と目的

定期試験や入学試験などの試験中，択一式の問題で解答に迷ったら，あなたはどうするだろうか．おそらく，答えがわからなくてもとりあえずどれか一つを選ぶのではないだろうか．一般的な方式の試験では，白紙のまま提出するよりもまぐれで当たる可能性を狙ってとりあえず何か選んでおくほうが合理的である．

それでは，まぐれ当たりを狙うべくどの選択肢を解答すべきであろうか．計算機によって，すべての問題に対して選択肢の順序が等確率で，しかも問題の間で独立に決定される場合は，どのように解答を決定しても，得点の期待値はランダムに決定した場合と変わらないだろう．一方で，選択肢の順序の決定にある傾向がある場合は，その傾向に合わせた解答の決定を行うことで得点の期待値を改善できると考えられる．例えば，「大学入試センター試験」の対策において，「迷ったら2番か3番だ」*1などの解答に迷った場合の「対策」が(時に冗談として)論じられることがある．これは，あらかじめ解答に迷った場合の行動を決めておくことで，正答できるか不確かな問題につまづいていたずらに時間を消費することを防ぐ意味のほか，「最初や最後の選択肢より中間の選択肢を正答として選びやすいのではないか」という，問題作成者の心理などに関する推測をも含んでいると考えられる．

同種の試験が繰り返し行われ，十分な量のデータが蓄積していれば，統計的手法によって選択肢の決定を人間が行っているかを推測できるだろう．この記事では，人間が「最初や最後の選択肢より中間の選択肢を正答として選びやすい」という仮定のもとで，「情報処理技術者試験」の択一式問題を対象に $\chi^2$ 検定を行い，選択肢の決定に偏りがあるかを推測する．

情報処理技術者試験

情報処理技術者試験とは，情報処理推進機構(IPA)の主催する国家試験である．現行の試験制度では，試験は毎年春と秋に行われる*2．詳細は公式ページを参照のこと．
www.jitec.ipa.go.jp

この試験は，さらに複数の試験区分に分かれている．このうち，FE, AP, SG試験*3の「午前」問題と，9つの高度試験の「午前I」「午前II」問題は，全問が「ア，イ，ウ，エ」から1つを選ぶ4択問題で構成される．旧IP試験*4の問題，旧AD試験*5の「午前」問題も同様である．また，高度試験の「午前I」問題は，APの午前試験を一部抜粋したものになっている．

さらに，IPAは過去に行われた試験の問題及び解答を常時公開しており，集計に都合がよい．

集計

集計の方法

本記事で取り扱う対象のデータは，現行の試験制度が開始された平成21年度から平成28年度までの8年度間に行われたFE, AP, SG, 旧AD試験の「午前」問題と高度試験の「午前II」問題，旧IP試験の問題全5340問とした．高度試験の「午前I」問題は，APの午前試験の抜粋であるので含めなかった．

ある問題に正答となる選択肢が $n \;\; (n = 1, 2, 3)$ 個のとき，正答となる選択肢それぞれに対して $1 / n$ 問として数え，選択肢「ア，イ，ウ，エ」それぞれに対しそれが正答となった問題の個数を集計した．問題文の誤りなどで4つすべての選択肢が正答として扱われた問題については，集計対象には含めなかった．

集計の結果

対象の5340問のうち，問題文に誤りのあった1問*6を除いた5339問について集計を行った．*7集計結果を要約したものを次に示す．

試験区分ごとの集計

試験区分	ア	イ	ウ	エ	計
FE 午前	296	320	339	325	1280
AP 午前	283	331	337	329	1280
SG 午前	23	26	29	22	100
ST 午前II	47	47	70	36	200
SA 午前II	44	52	44	60	200
NW 午前II	32	67	47	54	200
SM 午前II	48	42	61	49	200
PM 午前II	39	51	64	45	199
DB 午前II	40	44	49	67	200
ES 午前II	44	56	52	48	200
AU 午前II	54	51	55	40	200
SC 午前II	116	87	110	87	400
旧IP 午前	129.5	176	173	121.5	600
旧AD 午前	18	24	20	18	80
計	1213.5	1374	1450	1301.5	5339

試験の時期ごとの集計

時期	ア	イ	ウ	エ	計
H28 秋	81	73	86	95	335
H28 春	76	90	93	75	334
H27 秋	65	66	78	76	285
H27 春	55	72	84	74	285
H26 秋	52	69	75	89	285
H26 春	63	73	74	75	285
H25 秋	70	71	73	71	285
H25 春	77	74	79	55	285
H24 秋	71	79	73	65	285
H24 春	57	67	89	72	285
H23 秋	74	108	104	99	385
H23 特別	101	105	90	89	385
H22 秋	84	92	118	90	385
H22 春	84	92	118	91	385
H21 秋	94.5	95	109	86.5	385
H21 春	107	124	130	104	465
計	1213.5	1374	1450	1301.5	5339

結果の分析

集計された結果に人為的な偏りがあるかどうかを検定するため， $\chi^2$ 検定により一様分布に対する適合度検定を行った．

$\chi^2$ 検定による適合性の検定

$\chi^2$ 検定とは， $K$ 種類の値をとる離散的確率変数があるひとつの確率分布に従うかを検定する方法の一つである．帰無仮説 $H_0:$ 「確率変数 $X$ は確率分布 $D$ に従う」を検定する．帰無仮説 $H_0$ が正しいとき，検定統計量 $\chi^2$ は自由度 $K - 1$ の $\chi^2$ 分布に従うと仮定する． $H_0$ が真であるとき，検定統計量 $\chi^2$ は確率 $1 - \alpha$ で $\chi^2$ 分布の上側 $100 \alpha \%$ 点より小さくなる． $\chi^2$ 検定では，これとは逆に，検定統計量 $\chi^2$ が $\chi^2$ 分布の上側 $100 \alpha \%$ 点より小さいとき，帰無仮説 $H_0$ を受容し，確率変数 $X$ は確率分布 $D$ に従うと判断する．さもなくば $H_0$ を棄却し，確率変数 $X$ は確率分布 $D$ に従っていないと判断する．ここで， $\alpha$ を有意水準という．

本記事では，それぞれの問題の正答を $K = 4$ 種類の値(ア，イ，ウ，エのいずれか)をとる確率変数 $X$ とみて， $\alpha = 5 \%$ とした $\chi^2$ 検定を行う．検定する帰無仮説は， $H_0:$ 「確率変数 $X$ は4つの選択肢から等確率に選ばれる」である．この仮説が受容されれば選択肢は4つのうちから均等に選ばれていると判断し，棄却されれば人為的な偏りがあると判断する*8．検定統計量 $\chi^2$ は次のように計算される．
$\chi^2 = \sum_{ k \in \{ア, イ, ウ, エ\}} \frac{(x_k - \overline{x})^2}{\overline{x}}$
$\overline{x} = \frac{1}{4} \sum_{ k \in \{ア, イ, ウ, エ\}} x_k$
$x_ア, x_イ, x_ウ, x_エ:$ 各選択肢が正答となった度数(結果の集計の表の「ア，イ，ウ，エ」の各列の値)

$H_0$ が真であるとき， $\chi^2$ は自由度 $K - 1 = 3$ の $\chi^2$ 分布に従う．自由度 $3$ の $\chi^2$ 分布の上側 $\alpha = 5\%$ 点は $\chi^2_{0.05}(3) = 7.815$ である． $\chi^2 < \chi^2_{0.05}(3)$ のとき， $H_0$ は受容され，さもなくば棄却されることとなる．感覚的に言えば， $\chi^2$ の値が大きいほど，正答の選択肢の偏りも大きいと推測できる．

さらに，本記事では，検定統計量 $\chi^2$ の値が $\chi^2$ 分布の上側何%点にあたるかを関数 $c(\chi^2)$ で与えることで，偏りの大きさを直感的にわかりやすく表すことを試みる．例えば $\chi^2 = 2.5 \approx \chi^2_{0.4753}(3)$ であるとき， $c(\chi^2) = 47.53 \%$ と表し， $H_0$ が真であった場合 $47.53 \%$ の確率で発生する程度の偏りであると判断する． $c(\chi^2) > \alpha = 5\%$ のとき $H_0$ は受容され，さもなくば棄却される．

検定の結果

集計の結果全体，試験区分ごと，および試験の時期ごとに検定を行った．その結果を正答の選択肢の集計結果(再掲)とともに次に示す．

試験区分ごとの検定

試験区分	ア	イ	ウ	エ	計	$\chi^2$	$c(\chi^2)$	$H_0$
FE 午前	296	320	339	325	1280	3.01	39.07%	受容
AP 午前	283	331	337	329	1280	5.81	12.11%	受容
SG 午前	23	26	29	22	100	1.20	75.30%	受容
ST 午前II	47	47	70	36	200	0.65	12.28%	受容
SA 午前II	44	52	44	60	200	3.52	31.82%	受容
NW 午前II	32	67	47	54	200	12.76	0.52%	棄却
SM 午前II	48	42	61	49	200	3.80	28.39%	受容
PM 午前II	39	51	64	45	199	6.89	7.55%	受容
DB 午前II	40	44	49	67	200	8.52	3.64%	棄却
ES 午前II	44	56	52	48	200	1.60	65.94%	受容
AU 午前II	54	51	55	40	200	2.84	41.70%	受容
SC 午前II	116	87	110	87	400	6.94	7.38%	受容
旧IP 午前	129.5	176	173	121.5	600	16.25	0.10%	棄却
旧AD 午前	18	24	20	18	80	1.20	75.30%	受容
計	1213.5	1374	1450	1301.5	5339	22.95	0.004%	棄却

$\alpha = 5\%, \chi^2_{0.05}(3) = 7.815$

試験の時期ごとの検定

時期	ア	イ	ウ	エ	計	$\chi^2$	$c(\chi^2)$	$H_0$
H28 秋	81	73	86	95	335	3.04	38.52%	受容
H28 春	76	90	93	75	334	3.13	37.26%	受容
H27 秋	65	66	78	76	285	1.89	59.53%	受容
H27 春	55	72	84	74	285	6.10	10.68%	受容
H26 秋	52	69	75	89	285	9.89	1.95%	棄却
H26 春	63	73	74	75	285	1.30	72.87%	受容
H25 秋	70	71	73	71	285	0.07	99.55%	受容
H25 春	77	74	79	55	285	5.12	16.33%	受容
H24 秋	71	79	73	65	285	1.41	70.22%	受容
H24 春	57	67	89	72	285	7.53	5.67%	受容
H23 秋	74	108	104	99	385	7.28	6.35%	受容
H23 特別	101	105	90	89	385	1.98	57.62%	受容
H22 秋	84	92	118	90	385	6.49	9.00%	受容
H22 春	84	92	118	91	385	6.95	7.36%	受容
H21 秋	94.5	95	109	86.5	385	2.72	43.61%	受容
H21 春	107	124	130	104	465	4.17	24.37%	受容
計	1213.5	1374	1450	1301.5	5339	22.95	0.004%	棄却

$\alpha = 5\%, \chi^2_{0.05}(3) = 7.815$

結果の解釈

全体としては，人為的な偏りの存在が強く示唆される結果となった．最も多く正答として出現した「ウ」と最も少なかった「ア」で相対度数の差はおよそ $4\%$ ほどであるが，統計的揺らぎであると判断するにはあまりに大きい差であった．

また，試験区分の間で $\chi^2$ の値が大きく異なっており，特にNW, DB, 旧IPの3つの区分では $H_0$ が棄却され，試験区分ごとに偏りの発生の規模や頻度が異なっていることがわかった．試験区分ごとの出題者による正答の選択肢の決定に個人差が現れることや，試験区分ごとに選択肢の順序の決定の方法が異なることが要因として考えられる．

さらに．試験の時期ごとの結果から，時期ごとに見ても偏りの度合いが大きく異なっていることが分かった．平成26年度の秋の問題は特に偏りが大きかった．出題者の変更や試験の新設・改廃が影響を与えているものと考える．

まとめ

本記事では，「情報処理技術者試験」の択一式問題を対象に $\chi^2$ 検定を行い，選択肢の決定に人為的な偏りがあるかを推測した．その結果，試験の問題の選択肢は人間により決定されていることを示唆する結果を得ることができた．これでもし街角で突然「情報処理技術者試験の選択肢の順序は人間が決定しているか？」と聞かれても「そうだ」と答えることができる．やったね．しかしながら，この偏りは実際の試験で得点を伸ばすのに役立つほどの偏りではなさそうだ．ざんねん．

補足(重要)

村山直紀様より，選択肢の順序は各選択肢の記号に続く文字列の辞書順で決定されることをご教授いただきました(参考: 「ポケットスタディ高度試験共通午前Ⅰ・Ⅱ対応［第2版］」(秀和システム, 2011))．ありがとうございます．記事の公開からわずか20分後のことでした．知らなかったよ・・・

@nkhrlab 集計ありがとうございます。約10年前まではアイウエほぼ均しい率、ばらすよう変わったのはその後。なお、アイウエの順を決めるのは、記号に続く文字列の50音（辞書）順です。
— 村山直紀 (@MurayamaNaoki) 2017年2月22日

ポケットスタディ高度試験共通午前1・2対応［第2版］ (情報処理技術者試験)

作者: 村山直紀
出版社/メーカー: 秀和システム
発売日: 2011/12/22
メディア: 単行本
購入: 7人クリック: 12回
この商品を含むブログ (4件) を見る

さて，「選択肢の偏りが人為的なものである」という仮説はこれで否定されることになりました．ある選択肢が正答かどうかとその辞書順は無関係であると考えられます．一方で，この記事の分析によって，選択肢の偏りを説明するような事象の存在が示唆されています．

選択肢が辞書順で決定されているならば，例えば問題文と選択肢の組み合わせが同じならば選択肢の順序も同じであることになります．よって，過去問の使いまわしによって同じ問題が同じ選択肢を正答とした問題として何重にもカウントされることになります．このことから，選択肢の偏りを説明する事象として，「過去問の使いまわし」を提案しようと考えます．「そうだ」と言えなくなってしまった．ぐぬぬ．でも今度は「いや違う」と言えるようになった．やったね．

*1:私が高校生だったころ，社会科の先生にこう教わった．

*2:平成23年度は，春の試験が延期され「特別試験」として夏に行われた．

*3:試験区分には2文字の英字による略称が用いられることがある．略称についての詳細は公式ページを参照のこと．

*4:H23年度の秋まで実施，以降は現行のITパスポート試験として運用されている．

*5:H21年度の春まで実施．

*6:平成28年度春 PM試験, 問2

*7:正答となる選択肢が2つある問題2問を含む．(平成21年度秋旧IP試験, 問12および問60) 正答が3つある問題は存在しなかった．

*8:ただし，第I種の誤りおよび第II種の誤りに注意．

nkhrlab~

140字超の記事