統計の基本の基本~平均値と中央値~
平均値と中央値、ちゃんと区別がついて使い分けができていますか。
たとえばこの2つが区別できていないと何が起こるかというと、、、
例えば、正規分布していない(=平均値付近が一番データの数が多くなっている分布になっていない、分布が偏っている)データで2つのグループを比較する解析をして、「2つのデータに差があった!」という結果になった時。
なるほど、2つのグループのデータは差があるのか、ということはわかりますよね。
じゃあどちらのほうが大きい(または小さい)といえるの?というと、、
これを判断するとき、平均値・中央値どちらをみるのが正しいでしょうか。
答えは中央値(正確には、中央値および四分位範囲などの”分布”)。
正規分布していないデータは、データが偏っているので、平均値の大きさでデータの大小が評価できないのです。
だから、そんなデータを解析するときは、非正規分布に対して使えるノンパラメトリック検定を使いますよね。
正規分布していたらパラメトリック検定でOKです。
そんなわけで、平均値と中央値、基本の基本の基本ですが、しっかりおさえておくことが大事です。
正規分布・非正規分布についてはまた次回に。