Wikipediaのダンプファイルを項目ごとにテキスト化

20170928

Wikipediaのダンプファイルを項目ごとにテキスト化必要な容量作業手順

必要な容量

作業手順

日本語版Wikipediaの記事本文の圧縮ファイルをダウンロード

2018年06月02日時点で約2.6GB。

Wikipediaの記事をプレーンテキストに変換

WikiExtractor を使う。変換にはi7-4770で30分ほどかかる。

項目ごとにテキストを分割

jawiki-split-articles.rb をダウンロード。

splitted/ に100万個、約5GBのファイル群ができる。

HOME