2013年12月20日、「データカタログサイト試行版」として、data.go.jpが開設されました。
「各府省の保有データをオープンデータとして利用できる場をつくり、データの提供側・利用側双方にオープンデータのイメージを分かりやすく示すことを目的としています。」とのことで、「日本のオープンデータ憲章アクションプラン」に基づいたものです。
SNSを検索すると「マシンリーダブルなデータじゃない」や「同種のサイトが多すぎる」という指摘がいくつか見られ、同感ではあるのですが、以下の二つのことが画期的だと考えています。
CC-BYライセンスが付与されていること(利用規約 第1条)
まずは場作りと様子見であるようなので、ここで「まだできてない」じゃなくて「二歩進んだ」進んだと捉えて今後の動きにも注視していきたいところです。
さて、どんなデータが集められているのでしょうか?このサイトはnet commonsとCKANが使われているようで、CKANはデータカタログサイトを立ち上げる際によく利用されるもので、これにはAPIが用意されています。これを利用することで登録されているデータのメタデータについて、クロス集計的に、立体的に捉えることができるようになるのですが、これが現時点で公開されてなく残念です。
集められているデータの大枠が掴めるように、メタデータやタグを手動で拾って並べてみました。経年で記録していけばそれ自体も一つのデータになるかと思います。
些末なところだと、タグやキーワードの与え方にいくつか課題がありそうです。
システム的な観点では、
- csvやtsvなど区切りに使用される文字はタグやキーワードに含めない
- %がパースできていない 2020年30%
IA的的な観点では、
ともあれ、色んなことが発見できそうなので、じっくりみていきたいところですね。