Featured image of post パラレル・セット (Parallel Sets)

パラレル・セット (Parallel Sets)

パラレル・セット(Parallel Sets)は、多次元のカテゴリカルデータ(名義尺度や順序尺度のデータ)を可視化する手法です。複数の変数を縦に並べた平行軸に対して、それぞれのカテゴリ間を帯状の線(バンド)でつなぐことで、変数間の関係や分布を視覚的に示します。連続量を扱う「パラレル・コーディネーツ(Parallel Coordinates)」の発展形として位置づけられ、数値ではなくカテゴリの組み合わせを強調するのが特徴です。

歴史的経緯

パラレル・セットは、2000年代にドイツの可視化研究者 Robert KosaraJörg Hauser によって開発されました。彼らの論文「Parallel Sets: Interactive Exploration and Visual Analysis of Categorical Data」(2003年、IEEE InfoVis)で初めて発表され、後に Kosara の博士論文(2007年)でも理論的基盤が整理されています。この手法は、連続データに適したパラレル・コーディネーツを、カテゴリデータにも適用できるように拡張する目的で設計されました。

Kosara らの論文(2006)では、パラレル・セットは以下のように定義されています。

  • カテゴリデータのための新しい可視化
  • クロス集計(contingency table)をベースに、部分集合の頻度をリボンで表現
  • 軸やカテゴリの並べ替え、部分集合の強調などのインタラクション機能を備える
  • 高次元でも有効にパターンを見つけられる

『ビューティフル・ビジュアライゼーション』第12章 では、パラレル・セットの「開発舞台裏」や「実装上の工夫」が丁寧に語られています。

  • 開発経緯:当初は大規模な消費者調査データを扱うために考案。
  • 実装モデル:SQLiteを用いた軽量データベース、ハッシュテーブルによる部分集合管理。OLAPやデータウェアハウスに近い仕組み。
  • デザインの進化:棒グラフ+リボンから木構造的なデザインへ。周辺確率と条件付き確率の同時表現。
  • 応用事例:VisWeek 2009 での展示。行政データ、顧客データ、プロセス分析などへの実用。

これにより、パラレル・セットは単なる可視化技法にとどまらず、データモデル設計と視覚表現を統合した手法であることが強調されています。

データ構造

パラレル・セットは、各軸がカテゴリ変数(例:性別、年齢層、職業など)を表します。各カテゴリの帯の幅は、そのカテゴリに属する観測数や割合を示し、軸間を結ぶ帯(フロー)は、隣接する変数の組み合わせに対応するデータ数を表します。これにより、クロス集計表を視覚的に表現できます。

意味
Axis 1カテゴリ変数A例:性別
Axis 2カテゴリ変数B例:職業
Band Width頻度または割合例:男性の会社員が何人か

目的

複数のカテゴリ変数間の関係性を一度に可視化することが目的です。例えば、「性別」「学歴」「職業」「収入層」といった要素の組み合わせを、単一の図で俯瞰できます。クロス集計やピボットテーブルよりも直感的に関係性を把握でき、階層的・多次元的な構造を視覚的に捉える助けになります。

ユースケース

  • 国勢調査などの社会統計データの分析
  • 顧客セグメント(性別×地域×購買カテゴリ)の可視化
  • 医療データにおける症状・治療法・結果の関係分析
  • アンケート結果の多変量分析

特徴

  • カテゴリ変数の数が多いほど、情報は豊かになるが可読性が低下する。
  • 各軸の順序を変更することで、関係の強さや傾向を探索できる。
  • 色や透明度を使って特定の系列を強調できる。
  • 頻度に応じた帯の太さにより、部分間の比較が容易になる。

チャートの見方

パラレル・セットは、パラレル・コーディネイト(Parallel Coordinates)から着想を得て開発された手法です。「パラレル・コーディネイトが数値データに強いのに対し、パラレル・セットはカテゴリデータ専用に設計されています。

基本構造

    1. 縦に並んだ軸:各軸が変数(例:性別、年齢層、職業など)を表す。
    1. ブロック:軸ごとのカテゴリ値を矩形で示し、幅は該当データ数に比例。
    1. リボン:隣接する軸のブロックを帯で接続。太さは「その組み合わせの人数/頻度」に対応。

これにより「クロス集計表」を視覚的に把握できるのが最大の特徴です。

さらに重要なのは、リボンの幅が二重の意味を持つという点です。

それぞれのリボンの幅はデータ集合全体の中での周辺確率を表し、同時にそれぞれの属性の中での条件付き確率も表す

  • データ全体の中での割合(周辺確率) を表すと同時に、
  • 上位属性が与えられた条件下での割合(条件付き確率) も表します。

たとえば「1等室の乗客のうち女性は何割か」という情報が、リボンの幅から一目で読み取れます。これは単なる棒グラフやサンキー・ダイアグラムにはない、パラレル・セット独自の特徴です。

各縦軸はカテゴリ変数を表し、上から下にカテゴリが並びます。帯の太さは、そのカテゴリのデータ数を示します。軸間を横断する帯が太いほど、そのカテゴリ間の結びつきが強い(共起が多い)ことを意味します。
たとえば、左の「性別」軸の「女性」から右の「職業」軸の「公務員」へ太い帯が引かれていれば、「女性かつ公務員」の割合が多いことを表しています。

デザイン上の注意点

  • 軸の順序によって見え方が大きく変わるため、最も意味のある順序を選定する必要があります。
  • 多すぎるカテゴリは混乱を招くため、上位カテゴリのみにまとめるか、フィルタリングを行うことが推奨されます。
  • カラーマップは一貫性を保ち、カテゴリーの比較が容易になるように設計します。
  • インタラクティブな操作(フィルタリングやハイライト)を併用すると分析効率が高まります。

応用例

  • TableauD3.js では、拡張プラグインとしてParallel Setsを描画可能。
  • Kosara自身による Parallel Sets Webアプリ(2006年頃) が原型。
  • Flourish などのビジュアルツールでも同様の可視化テンプレートが利用可能。
  • 生物学・社会学・教育分野での多属性データ分析に応用されている。

代替例

手法名適したデータ型主な特徴
パラレル・コーディネーツ連続量数値変数の相関を可視化
サンキー・ダイアグラムカテゴリまたはフロー階層間の流れを示す
モザイクプロットカテゴリ2〜3変数のクロス集計を矩形面積で表現
ツリーマップ階層構造ネストされたカテゴリー構成を面積で表す

サンキー・ダイアグラムとの違い

パラレル・セットはしばしばサンキー・ダイアグラムと混同されますが、目的は大きく異なります。

  • サンキー・ダイアグラム:エネルギーの流れやお金の流れなど、プロセスや時系列を「流れ」として表現する。基本的に一方向のフロー。
  • パラレル・セット:カテゴリの組み合わせや集合関係を表現する。フローの概念はなく、どちらの軸からも関係性を読み取れる。

まとめ

パラレル・セットは、カテゴリカルデータに特化した多次元可視化手法であり、複雑な関係性を視覚的に探る強力な手段です。特に、統計分析や顧客分析、政策評価などで多くの属性を同時に検討する際に有効です。軸順やカテゴリ数の制御、色設計など、可読性の確保がデザイン上の要点となります。

参考・出典

Licensed under CC BY-NC-SA 4.0
Nov 16, 2025 13:02 +0900