とある人物がいて、目の前に出されたミルクティーが、紅茶を先に入れて作られたミルクティーか、ミルクを先に入れて作られたミルクティーか、一口飲めば、その味の違いでどちらかわかるというのです。
そんな入っている成分は同じなんだし、味の違いで入れ方の違いがわかるわけないと思うのですが、そんなウソだろ、そんな馬鹿な話はないと言ってしまわず、本当なのかウソなのか証明する方法はないのかという問題があります。
この問題を解決するのが、仮説検定になります。
仮説検定とは
仮説検定(hypothesis testing)とは、「とある仮説に対して、それが正しいのか否かを統計学的に検証する」という推計統計学の手法になります。
実際に、この実験を行ったのが、イギリスの統計学者であるフィッシャーでした。
紅茶を先に入れたミルクティーと、ミルクを先に入れたミルクティーを複数用意し、それをランダムに飲んでどちらか当ててもらうというものです。
仮説を立てる
そんな、紅茶を先に入れようが、ミルクを先に入れようが、カップの中に入っているのは紅茶とミルクの成分だし、そんな入れ方の違いが味の違いでわかるわけないだろうと思われます。
そこで、このとある人物は、ミルクティーの入れ方をその味で見分けることなんかできないと仮定してみます。
例えば、紅茶を先に入れたミルクティーを4つ、ミルクを先に入れたミルクティーを4つ、合計8つのミルクティーを用意したとします。
最初の1杯目を飲んだとき、本当は味で見分けられないけれど、偶然にも当てずっぽうで当てられる確率は、4/8つまり50%あります。
2杯連続して当てられる確率は、その二乗になるので25%になります。
本当かウソかを見極める基準

このようにやっていくと、3杯連続して当てられる確率は12.5%、4杯連続して当てられる確率は6.35%、5杯連続して当てられる確率は3.125%、6杯連続して当てられる確率は1.5625%、7杯連続して当てられる確率は0.78125%、8杯連続して全部当てられる確率は0.390625%になります。
これらの仮想確率は統計学的にはp値と呼ばれます。
このp値がある閾値、つまり有意水準を下回れば、偶然では滅多におけないので、味を判断できないとした仮説は棄却されることになります。
有意水準の決め方自体には、科学的根拠はありませんが、例えば優位水準5%として考えてみると、5杯連続して当てられる確率が3.125%とすでに5%を下回っているので、ランダムに5杯飲んで、全て当てられた時点で、このとある人は、ミルクティーの味で、ミルクを先に入れて作ったか、紅茶を先に入れて作ったかを判別できるということになります。