回帰分析2択クイズ

このページは再読み込みしても新しい問題を生成しない。

【問題】次の記述について、内容が正しい場合は「正しい」、誤っている場合は「誤り」と答えよ。

[1] 相関係数が $1$ または $-1$ であれば、すべてのデータ $(x_1, y_1), \dots, (x_n, y_n)$ は1本の直線上にある。  

【解答】 正しい
実際、$r_{xy} = \pm 1$ ならば、コーシー・シュワルツの不等式の等号成立条件より、ある実数 $k$ が存在して、任意の $i = 1,2, \dots, n$ に対して \[ y_i - \bar{y} = k(x_i - \bar{x}) \] が成り立つ。これは、すべてのデータ $(x_1, y_1), \dots, (x_n, y_n)$ が直線 \[ y - \bar{y} = k(x - \bar{x}) \] 上にあることを意味する。

[2] 相関係数が $0$ であれば、2変量 $x, y$ の間に関数的な関係はない。  

【解答】 誤り
2変量データ $(-1, 1), (0,0), (1,1)$ は $y = x^2$ という関数の関係を満たしているが相関係数は $0$ である。 相関係数が $0$ であることは、2変量 $x,y$ の間に直線的な関係がないことを意味するに過ぎない。

[3] 回帰直線はすべてのデータ $(x_1, y_1), \dots, (x_n, y_n)$ を通る直線である。  

【解答】 誤り
回帰直線は、各データから直線までのズレ(残差)を考え、それらの二乗和が最小となるように定めた直線である。 当然、一般にはすべてのデータ点を通るような直線は引けない。

[4] 回帰直線 $y = ax+b$ の傾き $a$ は、説明変数 $x$ が $1$ 増加したときの目的変数 $y$ の平均的な変化量を表す。  

【解答】 正しい
ただし、厳密に証明するのは少し難しいので、現段階では「そういうもの」と認識しておこう。

[5] 回帰直線はデータの範囲外に対する予測にも適用可能であり、その結果は信頼できる。  

【解答】 誤り
回帰直線は、与えられたデータの範囲内での関係をもとに定められている。 したがって、その範囲を超えた値に対して同じ関係が成り立つとは限らず、予測の信頼性は一般に低い。

[6] 外れ値は回帰直線に影響を与えない。  

【解答】 誤り
外れ値は他のデータから大きく離れているため、残差の二乗が大きくなる。 したがって、回帰直線はその影響を強く受け、傾きや切片が大きく変化することがある。

[7] 散布図を見て $x$ と $y$ の関係に曲線的な関係(例えば放物線や円のような形)が見られても、単回帰を行えば必ず適切に近似できる。  

【解答】 誤り
単回帰は $y = ax+b$ という直線でデータを近似する方法である。 したがって、散布図に放物線や円のような曲線的な関係が見られる場合には、その形状を適切に表すことはできない。

[8] 相関係数が正であれば回帰直線の傾きも正である。  

【解答】 正しい
実際、回帰直線の傾きは $\frac{s_{xy}}{s_x^2}$ であるから \[ r_{xy} = \frac{s_{xy}}{s_x s_y} > 0 \iff s_{xy} > 0 \iff \frac{s_{xy}}{s_x^2} > 0 \] である。なお、問題文で相関係数が定義されているので $s_x, s_y \neq 0$ である。

[9] 2変量データ $(x_1, y_1), \dots, (x_n, y_n)$ において、すべての $x$ の値が同じである場合にも、$x$ を説明変数とする回帰直線が定義される。  

【解答】 誤り
$x$ を説明変数とする回帰直線 $y = ax+b$ の傾き $a$ は \[ a = \frac{s_{xy}}{s_x^2} \] で与えられるため、すべての $x$ の値が同じである場合は $s_x^2 = 0$ となり、回帰直線は定義されない。

[10] 2変量データ $(x_1, y_1), \dots, (x_n, y_n)$ において、ある $i , j$ で $x_i \neq x_j$ であり、かつすべての $y$ の値が同じであるとき、$x$ を説明変数とする回帰直線が定義される。  

【解答】 正しい
条件より、$s_x^2 \neq 0$ であるから回帰直線 \[ y = \frac{s_{xy}}{s_x^2} x + \bar{y} - \frac{s_{xy}}{s_x^2} \bar{x} \] が定義される。なお、すべての $y$ の値が同じであるから、回帰直線は $x$ 軸に平行な直線である。 このことは計算によって確かめることもできる。$y_1 = \cdots = y_n = c$ とすると、 \[ s_{xy} = \overline{xy} - \bar{x} \bar{y} = \overline{cx} - \bar{x} \cdot c = c \cdot \bar{x} - c \cdot \bar{x} = 0 \] なので、回帰直線は \[ y = \frac{s_{xy}}{s_x^2} x + \bar{y} - \frac{s_{xy}}{s_x^2} \bar{x} = 0x + c - 0\bar{x} = c \] に決まる。