Featured image of post 散布図行列

散布図行列

散布図行列(Scatterplot Matrix)は、多変量データの各変数間の関係を一度に視覚的に確認できる図表です。
縦軸と横軸に同じ変数群を並べ、行列状に散布図を配置することで、各変数ペア間の相関関係を俯瞰的に把握できます。
特にデータ探索(Exploratory Data Analysis, EDA)の初期段階で、異常値や傾向、線形・非線形の関係などを視覚的に発見するのに有効です。

チャートの見方

散布図行列では、行列の各セルが「2つの変数の関係」を表しています。 一般的な構成は以下の通りです。

位置内容解釈のポイント
対角線上各変数自身を示す(ヒストグラムやカーネル密度推定が置かれることも)その変数の分布形状を把握する
対角線より上・下2変数間の散布図点の傾き・広がりから相関関係を読み取る
点の密集・傾き正・負の相関の傾向を示す線形関係の強さや外れ値の有無を観察できる
色やサイズ(任意)第3の変数をエンコードする場合あり多次元的な関係を一枚で表現可能

また、プロットの上部と下部を非対称に設定することで、一方に相関係数(例えばPearson相関)や回帰線を併記することもあります。

背景と用途

この可視化手法は統計分析の分野で古くから用いられており、R言語のpairs()関数やPythonのseaborn.pairplot()などで簡便に生成できます。
多変量回帰分析や主成分分析の前処理として使われることが多く、次のような目的に活用されます。

  • データの全体的な傾向・分布を確認する
  • 強い相関関係のある変数を見つける
  • 特定の変数間で外れ値やクラスター構造を見つける
  • 特徴量選択(feature selection)の指針とする

また、次元数が多い場合は、主成分得点を用いた「縮約後の散布図行列」や「部分選択行列」を用いることもあります。

注意点

散布図行列は変数の数が多くなると、視覚的な過密や理解の困難さを招きます。
そのため、分析対象の変数をあらかじめ絞り込み、補助的にヒートマップや相関係数行列と併用するのが一般的です。
また、数値変数以外(カテゴリ変数など)は、形や色などで表現を工夫する必要があります。

まとめ

散布図行列は、多変量データの構造を直感的に理解するための強力な手法です。
単一の散布図では見逃されがちな相関構造や分布の偏りを、全体的に可視化できる点が大きな利点です。
ただし、変数数が多すぎる場合には可読性を損ねるため、選択的・補助的に利用することが重要です。

参考・出典

Licensed under CC BY-NC-SA 4.0
Oct 22, 2025 22:33 +0900