ローカルWikipedia
Wikipediaの公開しているXMLをローカルMySQLにインポートしてみる。ノートなどは除いて、最新の page, revision, text テーブルのみを入れる。
# 必要なファイルを取得する $ wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 $ wget http://download.wikimedia.org/mediawiki/1.15/mediawiki-1.15.1.tar.gz $ wget ftp://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.tar.gz # 展開する $ tar xzvf xml2sql-0.5.tar.gz $ tar xzvf mediawiki-1.15.1.tar.gz # xmlをsqlにコンバートする xml2sql をインストール $ cd xml2sql-0.5 $ ./configure $ make $ sudo make install # <recirect /> というのが何故か通らないので sed で消しつつ sql に変換 $ cd .. $ bzcat jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql # database 用意 $ mysqladmin -uroot create wikipedia # mediawiki 付属のスキーマを入れる $ mysql -uroot wikipedia < mediawiki-1.15.1/maintenance/tables.sql # インポート $ mysqlimport -uroot wikipedia `pwd`/{page,revision,text}.txt