散布図(スキャッタープロット)は、2つの変数の関係を視覚的に示すための基本的な統計図です。横軸(X軸)に一方の変数を、縦軸(Y軸)にもう一方の変数を取り、各データ点を1つの点としてプロットします。これにより、変数間の相関関係や分布傾向を直感的に理解できます。
チャートの見方
散布図の1点は1つの観測対象(例:人、都市、商品など)を表します。
横軸は「説明変数(独立変数)」、縦軸は「目的変数(従属変数)」を取ることが一般的です。
- 右上がりの傾向:Xが大きくなるとYも大きくなる → 正の相関
- 右下がりの傾向:Xが大きくなるとYが小さくなる → 負の相関
- 点がばらばらに散らばる:相関が弱い、または関係がない
データ点が一直線に近い場合、2変数の間には強い相関関係があると判断されます。
さらに、各点の色やサイズを別の変数に対応させることで、3次元的な情報(例:人口やカテゴリ)を加えることもできます。
背景と用途
散布図は 統計学やデータサイエンスの基礎的な可視化手法 であり、初期のデータ探索(Exploratory Data Analysis, EDA)で頻繁に使われます。
歴史的には 19世紀初頭にフランスの統計学者アドルフ・ケトレー(Adolphe Quetelet) が、人体測定データの研究において散布図を用いたことが知られています。その後 フランシス・ゴルトン(Francis Galton) が「回帰(regression)」と「相関(correlation)」の概念を提唱する中で散布図を多用し、現在の統計可視化の基礎を築きました。
現代では、機械学習や経済分析、環境データ、医療データなど 2変数の関係性を確認する最初のステップ として広く利用されています。
典型的な応用例
| 用途 | X軸 | Y軸 | 補助情報(色・サイズなど) |
|---|---|---|---|
| 経済分析 | 1人当たりGDP | 平均寿命 | 国の地域分類 |
| 教育データ | 勉強時間 | テスト得点 | 学校や学年 |
| マーケティング | 広告費 | 売上高 | 商品カテゴリ |
| 科学データ | 温度 | 反応速度 | 材料の種類 |
散布図の拡張
- 回帰線の追加:データ全体の傾向を線で示すことで、相関をより明確にする。
- バブルチャート(Bubble Chart):点の大きさを第三の変数に対応させる。
- 散布図行列(Scatterplot Matrix):複数の変数ペアの関係をまとめて表示する。
これらの拡張により、単純な2変数の可視化から、より多次元的な理解へと発展させることができます。
まとめ
散布図は「相関を見るための最初のレンズ」ともいえる基本的な可視化です。データの傾向をざっくりと把握し、次の分析ステップ(回帰分析やクラスタリングなど)へと導くための重要な出発点になります。見た目はシンプルですが、その背後には統計的洞察が詰まっています。