ワード・クラウドとワード・バブル(Word Clouds & Word Bubbles)

チャート・カタログ

どんなチャート?

ある文章に含まれる単語の重み付け(たいていは頻出度合い)をフォントサイズで表現します。起源は、1990年代後半にウェブサイトで一般的に使用されていたタグクラウドにあります。

問題

その単語の元々持っている文字数による長さによる視覚的な影響を、重み付けが影響を受けてしまうことです。たとえ同じ重み付けであっても、元々の単語の文字数によって視覚的なインパクトは異なってしまいます。

この問題は、単語を円の中に配置し、円の面積で重み付けを表現すれば解決することが可能です。これらはWord Bubblesと呼ばれます。

ストップワード

通常、”です” や “しかし” などの非常に一般的でありながら、単語だけではあまり意味がない単語はあらかじめ取り除いておきます。こういった単語は総称して「ストップワード」と呼ばれます。

辞書

また英語のように分かち書きではない日本語は、一旦文章を単語ごとに分割しなければなりません。その際、辞書を利用しますが、辞書が古いと近年活用されるようになった単語が抽出されないので注意が必要です。「くまもん」や「Apple Watch」ががうまく抽出できないでしょう。

文字色として、定性的な情報(文字の属性値)を反映させることが可能です。

ツールによっては文字を見分けるためにランダムに色を割り振る例も散見されますが、色をランダムに割り振るべきではなく、何らかのデータ値に基づかせるべきでしょう。

全体の形

ワードクラウド化した単語群の全体のなにかの形に模す作例もあります。この場合は文章の内容を表しているものが良いでしょう。

単語へのインタラクション

単語に対してハイパーリンクを付与し、クリックをきっかけにデータセットをファセット分割するなどのインタラクションを付与してもよいでしょう。

ワード・クラウドの作例

Word cloud visualization of President Trump’s 2018 State of the Union Address
http://scimaps.org/mapdetail/visualizing_trends_a_155
https://sebastianraschka.com/Articles/2014_twitter_wordcloud.html
https://amueller.github.io/word_cloud/auto_examples/frequency.html#sphx-glr-auto-examples-frequency-py

ワード・バブルの作例

全国大会で使われた言葉

共和党大会で使われている言葉

このグラフはどうなっているでしょうか?

What’s Going On in This Graph? – New York Times

使われた言葉

参考文献