重回帰分析・ロジスティック回帰分析なにがわかるの?統計解析・検定の選び方

 

重回帰分析・ロジスティック回帰分析なにがわかるの?統計解析・検定の選び方ということで、

まずこの2つはざっくりと同じ解析です。

使い分けは以下。

  • 従属変数が量的データの時・解析したいデータが正規分布している時に使えるのが重回帰分析
  • 従属変数が0-1データ(2値のデータ)の時・解析したいデータが正規分布していない時に使えるのがロジスティック回帰分析

では、野球選手の球速遠投、懸垂、握力のデータがあるとします。

球速には遠投、懸垂、握力のうち何が影響しているのか知りたいとすると、ぱっと思いつくのが、相関分析とか平均値の比較ではないでしょうか。

でも、遠投が良くて・でも懸垂も握力もダメなケースはどうなの?とか、そんなような、変数同士のバランスも考えて影響を調べたい場合

こういう時に、重回帰分析とかロジスティック回帰分析を使いますよ。

このデータの場合は、従属変数(回帰式でyにあたる変数です)が「球速」になります。

@独立変数(回帰式でxにあたる変数)は「懸垂」「握力」です

従属変数である球速のデータは量的データですよね、さらに、球速も懸垂も握力も、ヒストグラムを描いてみたら正規分布していた!ということにしましょう。

そうすると使えるのは重回帰分析。

  1. 解析してわかるのは、球速に影響するものはどれか?
  2. 球速に影響する布陣は?

この2つです。

回帰式に含まれる変数をみると、遠投と懸垂が2つ出てきました。

つまり、

どうも遠投と懸垂が球速に影響しているらしい

ことがわかります。

さらに、標準偏回帰係数の大きさを遠投と懸垂で比べると遠投のほうが数値が大きいですよね。

つまり、

どっちかというと遠投の影響が大きい

ことがいえます。

さらに、R2乗の値をみましょう。

R2乗の値は-1~1の間の範囲で、1に近いほど「この回帰式の当てはまりが良いぞ」と解釈します。

このデータでは0.3857…うーーんまあまあです。

ということで、

球速を高めるには、懸垂は除いて遠投と懸垂という布陣が良いようだ

ということがいえます。

R2乗の値は0.8くらいあれば、この布陣が最強だ!!となりますけどね。