ローカルWikipedia

Wikipediaの公開しているXMLをローカルMySQLにインポートしてみる。ノートなどは除いて、最新の page, revision, text テーブルのみを入れる。

# 必要なファイルを取得する
$ wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
$ wget http://download.wikimedia.org/mediawiki/1.15/mediawiki-1.15.1.tar.gz
$ wget ftp://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.tar.gz

# 展開する
$ tar xzvf xml2sql-0.5.tar.gz
$ tar xzvf mediawiki-1.15.1.tar.gz

# xmlをsqlにコンバートする xml2sql をインストール
$ cd xml2sql-0.5
$ ./configure
$ make
$ sudo make install

# <recirect /> というのが何故か通らないので sed で消しつつ sql に変換
$ cd ..
$ bzcat jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql

# database 用意
$ mysqladmin -uroot create wikipedia

# mediawiki 付属のスキーマを入れる
$ mysql -uroot wikipedia < mediawiki-1.15.1/maintenance/tables.sql

# インポート
$ mysqlimport -uroot wikipedia `pwd`/{page,revision,text}.txt