data.go.jp開設

見るための記事

2013年12月20日、「データカタログサイト試行版」として、data.go.jpが開設されました。
「各府省の保有データをオープンデータとして利用できる場をつくり、データの提供側・利用側双方にオープンデータのイメージを分かりやすく示すことを目的としています。」とのことで、「日本のオープンデータ憲章アクションプラン」に基づいたものです。

SNSを検索すると「マシンリーダブルなデータじゃない」や「同種のサイトが多すぎる」という指摘がいくつか見られ、同感ではあるのですが、以下の二つのことが画期的だと考えています。

CC-BYライセンスが付与されていること(利用規約 第1条)

省庁横断でデータが集められていること

まずは場作りと様子見であるようなので、ここで「まだできてない」じゃなくて「二歩進んだ」進んだと捉えて今後の動きにも注視していきたいところです。

さて、どんなデータが集められているのでしょうか?このサイトはnet commonsとCKANが使われているようで、CKANはデータカタログサイトを立ち上げる際によく利用されるもので、これにはAPIが用意されています。これを利用することで登録されているデータのメタデータについて、クロス集計的に、立体的に捉えることができるようになるのですが、これが現時点で公開されてなく残念です。

集められているデータの大枠が掴めるように、メタデータやタグを手動で拾って並べてみました。経年で記録していけばそれ自体も一つのデータになるかと思います。

meta data of data.go.jp

些末なところだと、タグやキーワードの与え方にいくつか課題がありそうです。

システム的な観点では、

  • csvやtsvなど区切りに使用される文字はタグやキーワードに含めない
  • %がパースできていない 2020年30%

IA的的な観点では、

・半角、全角を名寄せすべき G8G8

  • 半角、全角を名寄せすべき G8G8
  • 一つのキーワードに二つ以上の項目を含めてしまっているのは避けるべき 予算_平成22年度

ともあれ、色んなことが発見できそうなので、じっくりみていきたいところですね。