平均値と中央値をものすごくわかりやすく説明しましょう
3、9、5、15、4、7、6
こういうデータがあった時このデータの平均値・中央値を考えてみましょう。
こうやって数字だけ並んでいてもイメージがつかないと思うので、じゃあたとえばこの数字、
3年1組の7人の生徒が、1年に参加した学外イベントの参加回数とでもしましょうか。
Aくん→3回
Bくん→9回
Cさん→5回
Dさん→15回
Eくん→7回
Fさん→6回
こういうことです。
おなじように、3年2組の生徒もそれぞれがそれぞれの回数イベントに参加していて、
あるとき先生が、「だいたいそれぞれのクラスで何回参加しているか校長先生に報告しよう」と思い立ちます。←なんかお話しができてきましたね…
では1組・2組それぞれ集計してみようかな!※2組のデータは今回作っていませんが
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
ということで、この流れで計算してほしいのは平均値と中央値(他の代表値はとりあえず置いておきます)。
平均値は、数値を全部を足して、数値の個数で割った値なので、
(3+9+5+15+4+7+6)÷7=7
「7」が平均値になります。
続いて中央値。
中央値は、データの数値を小さい順に並べた時にちょうどまんなかの値です。
大きい数値が混じっていようが小さすぎる数値が混じっていようが関係ありません。
まんなかです。
なので、「6」が中央値。
つまり、
3年1組のイベントの平均参加回数は7回とわかりました。
でもちょっとおまちください。
「1組は1人だけ15回も参加しているから平均値が高いんじゃ?」
そうですよね、1組のDさんがなんとぶっとんで15回も参加している。
これじゃあ、1組のみなさんがだいたいどのくらい参加しているかなんともいえない…平均の7回というのは、ちょっと多いのでは?となりますね。
ということで、データのちょうど真ん中をみてみると…参加回数の中央値は6回。
なので、
「1組は1人だけとびぬけて参加回数が多く、平均値をあげていますが、他のみんなはだいたい6回参加しているとみていいでしょう」
こんなふうに報告できます。
この場合は中央値のほうがだいたいの参加回数を表していそうですね。
このように、データを並べた時に真ん中の値が平均値になってこないような、今回のDさんように飛びぬけた数値があるデータは、ヒストグラムを描いたときに分布が正規分布になっていません。
ので、もしもこの後なんらかの解析をするとすると、データが正規分布していないと使えない検定は使えません。
これが、パラメトリック・ノンパラメトリックの違いですね。