SPARQL in Excel
今年はじめての投稿になります。
このBlogは初めてちょうど、一年になります。自分の技術向上の目的もこめて最低でも月一回はそのとき興味のあるプログラムネタを投稿しようと決めていましたが、一年なんとかやりきることができました。また今年もがんばりたいと思います。
本年もよろしくお願いいたします。
昨年からOpenDataに興味を持ち、O’Reilly「セマンティックWebプログラミング」等の書籍を読んで部分的なテストはしていましたが、実際に動くものが手元に欲しくなったので、この本のサンプルを参考にSPARQLというクエリー言語を使って試してみました。
取得したデータをExcelに読み込みたかったので、以前の投稿「Excel Add-Ins in Python, PyXLL」でテストしたPyXLLを使いました。
from pyxll import xl_func import rdflib from rdflib.graph import ConjunctiveGraph, Namespace @xl_func("int n: var[]") def testFunc1(n): ret = [] FBNS = Namespace("http://rdf.freebase.com/ns/") g = ConjunctiveGraph() g.parse("C:\data\sample.n3", format="n3") res = g.query("""SELECT ?name ?year WHERE{ ?movie fb:film.film.initial_release_date ?year . ?movie fb:film.film.starring ?actor . ?actor fb:type.object.name ?name . } order by ?year ?name""", initNs={'fb':FBNS}) for t in res: ls = list(t) ret.append(ls)
pyxll.xllファイルを空のシートにドラッグ&ドロップします。
name,yearの2列、検索結果数の6行以上の範囲を指定して、関数を呼びます。
引数は必要ないですが、”1″を指定しています。
(注:範囲指定して決定するとき、Ctl-Shift-Enterを忘れずに)
PyXllの環境にrdflibを導入する必要があります。pyxll.cfgにpythonpath=.を指定して、pyxll.xllと同じフォルダにrdflibのフォルダをコピーしました。
(インストールしてからかなりたっているため、具体的なインストール手順は割愛しました。スミマセン。logsフォルダに出力されるエラーを参考にして環境を構築するとうまくできると思います。)
以下が使用したデータです。
書籍にあったものを、抜粋して作りました。
sample.n3
@prefix fb: <http://rdf.freebase.com/ns/> . <http://rdf.freebase.com/ns/en.hollywood_homicide> <http://rdf.freebase.com/ns/film.film.directed_by> <http://rdf.freebase.com/ns/en.ron_shelton> ; <http://rdf.freebase.com/ns/film.film.starring> <http://rdf.freebase.com/ns/en.harrison_ford> , <http://rdf.freebase.com/ns/en.kurupt> , <http://rdf.freebase.com/ns/en.robert_wagner> ; <http://rdf.freebase.com/ns/film.film.initial_release_date> "2003" . <http://rdf.freebase.com/ns/en.k_19_the_widowmaker> <http://rdf.freebase.com/ns/film.film.directed_by> <http://rdf.freebase.com/ns/en.kathryn_bigelow> ; <http://rdf.freebase.com/ns/film.film.starring> <http://rdf.freebase.com/ns/en.harrison_ford> , <http://rdf.freebase.com/ns/en.joss_ackland> ; <http://rdf.freebase.com/ns/film.film.initial_release_date> "2002" . <http://rdf.freebase.com/ns/en.becoming_dick> <http://rdf.freebase.com/ns/film.film.directed_by> <http://rdf.freebase.com/ns/en.bob_saget> ; <http://rdf.freebase.com/ns/film.film.starring> <http://rdf.freebase.com/ns/en.robert_wagner> , <http://rdf.freebase.com/ns/en.bob_saget> ; <http://rdf.freebase.com/ns/film.film.initial_release_date> "2000" . <http://rdf.freebase.com/ns/en.kurt_russell> <http://rdf.freebase.com/ns/type.object.name> "Kurt Russell" . <http://rdf.freebase.com/ns/en.bob_saget> <http://rdf.freebase.com/ns/type.object.name> "Bob Saget" . <http://rdf.freebase.com/ns/en.harrison_ford> <http://rdf.freebase.com/ns/type.object.name> "Harrison Ford" . <http://rdf.freebase.com/ns/en.robert_wagner> <http://rdf.freebase.com/ns/type.object.name> "Robert Wagner" . <http://rdf.freebase.com/ns/en.kurupt> <http://rdf.freebase.com/ns/type.object.name> "Kurupt" .
OpenDataはいろんなデータフォーマットがあるので、目的のサンプルデータをつくるのにもう少し調査が必要と感じました。
まずは第一歩としてここまでにしたいと思います。