Featured image of post 箱ひげ図

箱ひげ図

箱ひげ図(Box-and-Whisker Plot)は、データの分布・散らばり・偏り・外れ値を一目で把握できる統計グラフです。箱とひげで構成され、データの「代表値(中央値)」と「ばらつき(四分位数)」を同時に表します。1970年代にジョン・テューキー(John Tukey)によって提案され、探索的データ解析(EDA)の基本的な可視化手法として広く使われています。

チャートの見方

要素意味表現
最小値 (Minimum)データの最も小さい値左端のひげの先端
第1四分位数 (Q1)下位25%の境界箱の左端
中央値 (Median, Q2)データの中心箱内の線
第3四分位数 (Q3)上位25%の境界箱の右端
最大値 (Maximum)データの最も大きい値右端のひげの先端
四分位範囲 (IQR = Q3 - Q1)中央50%のばらつき箱の幅
外れ値 (Outliers)1.5×IQRを超える値ひげの外に点で表示

箱の中の線が箱の中央より左にある場合は分布が右に歪んでおり、右にある場合は左に歪んでいると読み取れます。ひげの長さの非対称性は分布の偏りを、箱の大きさは中間データの散らばりを示します。

背景と応用

箱ひげ図は、複数のカテゴリやグループ間で分布を比較する際に非常に有効です。例えば、男女別の試験点数や年度別の売上分布などを同一スケールで比較できます。また、外れ値(異常値)の検出にも適しており、データ品質確認や異常検知の初期分析でもよく用いられます。

近年では 変形版として「バイオリンプロット(Violin Plot)」や「ビーズプロット(Beeswarm Plot)」 など、分布形状の情報をより詳細に付加したバリエーションも登場しています。ただし、箱ひげ図はあくまで5点要約(five-number summary)に基づく可視化であり、分布の形状(例えば双峰性や歪度)を完全に表現するものではありません。

まとめ

箱ひげ図は、分布の特徴を簡潔に要約し、比較や外れ値検出を支援する基本的な統計グラフです。データの散らばりや偏りを直感的に理解できるため、探索的データ分析やレポート作成、教育など幅広い分野で利用されています。ただし、平均値や標準偏差の情報は含まれないため、必要に応じて他の可視化(ヒストグラム・密度プロットなど)と併用するのが望ましいです。

参考・出典

Licensed under CC BY-NC-SA 4.0