散布図は、2つの数値変数の関係性を視覚的に表現するための基本的な統計グラフです。横軸(X軸)と縦軸(Y軸)にそれぞれ数値変数を割り当て、各観測値を点(ドット)として配置します。点の分布から、変数間の相関関係や傾向、外れ値の存在などを直感的に把握できます。探索的データ分析(EDA)において最も頻繁に用いられる可視化手法の一つです。
歴史的経緯
散布図の起源は19世紀にさかのぼります。統計学者・天文学者であるジョン・ハーシェルやフランシス・ゴルトンが、変数間の関係性を視覚的に示すために点を用いた図を利用したことが知られています。特にゴルトンは、身長データなどを用いて相関や回帰の概念を研究し、散布図の分析的価値を高めました。その後、統計学の発展とともに標準的な表現手法として定着しました。
データ構造
散布図で扱うデータは、同一の観測単位に対する2つ以上の数値変数です。基本構造は以下の通りです。
| 要素 | 内容 |
|---|---|
| X軸 | 説明変数・独立変数として扱われることが多い数値 |
| Y軸 | 応答変数・従属変数として扱われることが多い数値 |
| 点 | 1観測=(x, y) の組 |
必要に応じて、点の色・大きさ・形で第3、第4の変数を表現することも可能です。
目的
散布図の主な目的は以下のとおりです。
- 2変数間に相関関係があるかどうかを確認する
- 関係性の方向(正の相関・負の相関・無相関)を把握する
- 外れ値や特異なパターンを発見する
- 線形・非線形など関係性の形状を把握する
数値的な相関係数を計算する前段階として、視覚的確認に用いられます。
ユースケース
散布図は多くの分野で利用されます。
- 教育・研究:身長と体重、学習時間と成績の関係分析
- ビジネス:広告費と売上、価格と販売数量の関係把握
- 自然科学:観測値同士の相関確認
- データサイエンス:特徴量間の関係性チェック
特徴
散布図には次のような特徴があります。
- 相関関係を直感的に把握できる
- 外れ値が視覚的に見つけやすい
- 単純な構造で解釈しやすい
- 回帰分析やクラスタリングの前段として有効
一方で、点が多すぎる場合は重なり(オーバープロッティング)が問題になります。
チャートの見方
散布図を見る際の基本的なポイントは以下の通りです。
- 点の傾き:右上がりなら正の相関、右下がりなら負の相関
- ばらつき:点が直線状に近いほど相関が強い
- 分布の形:曲線的なら非線形関係の可能性
- 孤立した点:外れ値の可能性
これらを総合的に読み取ります。
デザイン上の注意点
散布図を設計する際には以下に注意します。
- 軸ラベルと単位を明確に記載する
- 点の重なりが多い場合は透過やジッターを使う
- 不要な装飾を避け、点の分布が読み取れることを優先する
- 回帰線を追加する場合は、目的を明確にする
誤解を招く軸の切り取りや過剰な装飾は避けるべきです。
応用例
散布図は単体でも有用ですが、次のような応用があります。
- 回帰直線や回帰曲線の重ね合わせ
- クラスタリング結果の可視化
- バブルチャート(点の大きさで第3変数を表現)
- 時系列と組み合わせた変化分析
これにより、より多面的なデータ理解が可能になります。
代替例
散布図と同様の目的で使われる可視化手法には以下があります。
| チャート | 特徴 |
|---|---|
| 折れ線グラフ | 時系列変化を強調 |
| ヒートマップ | 密度や頻度を色で表現 |
| 箱ひげ図 | 分布の要約統計を比較 |
| バイオリンプロット | 分布形状を滑らかに表示 |
目的に応じて使い分けることが重要です。
まとめ
散布図は、2つの数値変数の関係性を理解するための最も基本的かつ重要な可視化手法です。相関の有無や外れ値を直感的に把握でき、探索的データ分析の出発点として欠かせません。適切な設計と解釈により、データの本質的な構造を読み解く強力な手段となります。