密度プロット(Density Plot)は、データの分布を滑らかに可視化するためのグラフです。ヒストグラムと同様にデータの頻度を表しますが、棒ではなく 連続的な曲線 で描かれる点が特徴です。データがどの範囲に多く分布しているかを視覚的に捉えることができます。
図解の見方
| 要素 | 説明 |
|---|---|
| 横軸(X軸) | データの値(例:身長、収入など) |
| 縦軸(Y軸) | 確率密度(density)。面積が1になるように正規化されている |
| 曲線の形 | データの分布の形状を表す(尖りや裾の長さで特徴を判断) |
| 面積 | 全体の面積が1に調整されるため、確率を表している |
| 色分け | 複数グループを比較する際に用いる。例:男女別、地域別など |
密度プロットは ヒストグラムの滑らか版 と考えると理解しやすいです。各データ点の周囲に「カーネル関数」と呼ばれる滑らかな曲線を重ね合わせて、全体の分布を推定します。これを「カーネル密度推定(Kernel Density Estimation, KDE)」と呼びます。
背景と活用例
密度プロットは、統計学やデータサイエンスの分野で広く用いられています。特に以下のような目的に有効です。
- 分布の形状を比較する:例えば、ある商品の購入金額分布を男女別で比較する。
- 異常値や多峰性を発見する:ピークが複数ある場合は、異なる集団が混在している可能性を示す。
- サンプルサイズの違いを吸収して比較する:正規化されているため、標本数が異なるグループでも比較可能。
密度プロットはしばしば 箱ひげ図やバイオリンプロット と併用されます。特にバイオリンプロットは密度プロットを左右対称にした形で、分布の全体像をより直感的に示す手法です。
まとめ
密度プロットは、データの分布形状を滑らかに表現し、比較や異常値発見に役立つグラフです。ヒストグラムよりも視覚的にわかりやすく、複数の分布を重ねて比較する際にも効果的です。データ分析や可視化の初歩として、ぜひ理解しておきたい基本図法のひとつです。