データを集めて統計的処理を使用としたときに、まず最初に必要になってくるのが度数分布表です。
度数分布表とは
『度数分布表』の『度数』とは何かというと、各階級に含まれるデータ数になります。
データを整理するときに、複数の区間に分割して、それぞれの区間にいくつデータが存在するかを調べますが、その分割したそれぞれの区間が『階級(class)』で、そこに属しているデータの数が『度数(frequency)』になります。
例えば、50人の学生の垂直飛びの記録を、30cm未満、30cm以上40cm未満、40cm以上50cm未満、50cm以上60cm未満、60cm以上と分けて、それぞれに何人が該当しているのかを調べたとすると、30cm以上40cm未満などのような区間が階級となり、その区間に何人の人が該当していたかという人数が度数になり、このような区間による分類表が『度数分布表』になります。
そして、30cm以上40cm未満だと、それぞれの階級の区間の幅が10cmになりますが、この10cmが『階級幅(class width)』、階級幅の真ん中の値、例えば30cm以上40cm未満の場合だと、35cmが『階級値(class value)』と言われています。
度数分布表の階級の数はいくらにする?
『度数分布表』を作成するとき、階級の個数をいくつにしたらいんだろうかと迷ったりします。
いくつにしなければならないとかいうルールはありません。
それならば、だいたい5~6個が適当でしょうということになるのですが、度数分布表の階級の個数に関しては、一つの目安とsて、『スタージェスの公式』というものが知られています。
【スタージェスの公式】
度数分布表の階級の個数 ≒ 1+log(2n) (n:データのサイズ)
例えば、8000人の年齢分布を示す際、これをスタージェスの公式に当てはめると、階級数は1+12.97 = 13.97となり、だいたい14階級に分けるのが目安となります。
ちなみに、データの数から目安となる階級数を、このスタージェスの公式にあてはめると、次のようになります。
20例 ⇒ 5階級
30例 ⇒ 6階級
50例 ⇒ 6~7階級
100例 ⇒ 7~8階級
200例 ⇒ 8~9階級
300例 ⇒ 9階級
500例 ⇒ 10階級
1000例 ⇒ 11階級
3000例 ⇒ 12~13階級
5000例 ⇒ 13階級
ヒストグラムの作成
『度数分布表』を作成したら、次に『ヒストグラム(histogram)』を作成します。
『ヒストグラム』は、横軸にデータの値を、縦軸に度数をとり、階級ごとに長方形の柱が立ったようになる棒グラフのことです。
ヒストグラムの語源は、「histos gramma」で「直立させて描いたもの」という意味があり、ヒストグラムを作ることで、データの分布の様子を視覚的にとらえることができるようになります。
一般的には、真ん中が高くなった山型になるケースが多くなります。