Mozc UT Dictionaries

2024-11-12

Overview

Merge multiple Mozc UT dictionaries into one and modify the costs.

Press the Star button on GitHub

They need more Stars.

mozc: 1930 Stars

fcitx5-mozc: 82 Stars

merge-ut-dictionaries: 40 Stars

Starring a repository also shows appreciation to the repository maintainer for their work. - GitHub Docs

リポジトリに Star を付けるということは、リポジトリメンテナに対してその作業についての感謝を示すことでもあります。- GitHub Docs

License

Download

git clone --depth 1 https://github.com/utuhiro78/merge-ut-dictionaries.git

Configure

Comment out unnecessary dictionaries in src/merge/make.sh.

Default settings:

#alt_cannadic="true"
#edict2="true"
jawiki="true"
#neologd="true"
personal_names="true"
place_names="true"
#skk_jisyo="true"
sudachidict="true"

Build

cd src/merge/
sh make.sh
cat mozcdic-ut.txt >> ../../../mozc-master/src/data/dictionary_oss/dictionary00.txt

Build Mozc as usual.

Option: Generate the latest UT dictionaries

Uncomment #generate_latest="true" in src/merge/make.sh.

Dictionaries

Mozc UT dictionaries contain the following dictionaries:

中断と再構築

中断するまで

2023-01-11:
「mozc ut」を検索すると、こんなツイートがあった。

暗黒美無王 dark Vim@ShougoMatsu · 7,463 フォロワー
なぜLinux日本語入力が終わるのか。これは簡単な話です。
Linux日本語入力なんてLinuxデスクトップを直接使ってる人にしか需要がないのです。
2023年1月9日 · 897 件のいいね

山田ハヤオ@Hayao0819 · 6,325 フォロワー
これは一番自分が危惧してること
インプットメソッドは中国のちからがあるのでなくならないとしても、MozcはGoogle依存だしUt系辞書はライセンス的に微妙なのでまともな方法がほしい
2023年1月9日 · 61 件のいいね

まず暗黒美無王さんのツイートから。
Linux日本語入力が終わる理由は、作っている人に聞かないとわからない。プロジェクトをやめる理由は人それぞれだし、他人が「簡単な話」として語るものでもない。
MozcのLinux対応は、2010年5月から行われている。10年以上続いたプロジェクトが終わるとき、ユーザーから言える話は「プロジェクトメンバーへの感謝」しかない。

次に山田ハヤオさんのツイート。
「中国のちからがあるのでなくならない」「Google依存なのでまともな方法ではない」と言うのは、作っている人へのリスペクトがなさすぎる。

過去にも山田さんは、「-ut系はライセンスが複雑で不透明」「法的な部分が怖い」とツイートしていた。

山田ハヤオ@Hayao0819 · 6,325 フォロワー
Ibusはビルドに失敗するのと-ut系はライセンスが複雑で不透明なので使ってないです
2021年9月3日 · 3 件のいいね

それで法的な部分が怖いので、開発のかなり初期段階でut系は無理=ibusは難しいという結論になっています
2021年9月4日 · 2 件のいいね

当時のUT辞書では、mozcdic-ut パッケージにすべての辞書を収めていた(jawiki, neologd, zipcode など)。そのため mozcdic-ut のライセンスには各辞書の名前とライセンスを列挙していた。それが「ライセンス的に微妙」「ライセンスが複雑で不透明」「法的な部分が怖い」となったようだ。
不安な気持ちになったが、このときは問題ないと考えて配布を継続した。mecab-ipadic-NEologdSudachiDict でも、ライセンスがバラバラな辞書を集めて使用している。

今回のツイート。

Ut系辞書はライセンス的に微妙なのでまともな方法がほしい
2023年1月9日 · 61 件のいいね

最初に見たとき「いいね」が30件以上ついていて、驚いた。
配布を続けて同じことを言われ続けるのは気が重い。山田さんには6000人以上のフォロワーがいるので、そこからの反応もあるだろう。フリーの配布物に余計なリスクは背負えない。
山田さんのツイートを掲載して、UT辞書の公開終了をアナウンスした。

再構築

2023-01-13:
暗い気持ちになっていたが、ライセンスをシンプルにする方法を思いついた。
jawiki, neologd, zipcode などを個別のリポジトリに置き、UT辞書生成プログラム(merge-ut-dictionaries)も辞書とは別のリポジトリに置く。
こうすれば1つ1つのリポジトリのライセンスはシンプルになる。生成したUT辞書は配布しない。

2023-01-15:
jawiki, neologd, zipcode などを個別のリポジトリに置いた。
merge-ut-dictionaries を作成した。
最初は「分割するだけだから簡単だろう」と考えていたが、複数のリポジトリ作成とドキュメント書きとコードのアップデートで、かなり手間がかかった。

2023-04-00:
UT辞書終了のアナウンスをしてから、Mozc関連の話題は見ていなかった。
少し調べると、山田ハヤオさんが「Mozc Re-UT Dictionary」を作っていた。

Hayao0819/Re-UT
Mozc Re-UT Dictionary. 本家Mozc-UT辞書様の代替を目標としたオープンソースプロジェクトです。

すごいことをするなあ。山田さんが誰かのクレームをきっかけに自分のプロジェクトをやめて、クレームを書いた人が「Re-Hayao」と名付けたプロジェクトを始めたら、山田さんはどう思うんだろう。

Mozcチームの皆さんと、Fcitx開発者の wengxt さんに深く感謝。
ユーザーからの感謝がないと、オープンソースソフトウェアは続かないと思う。

更新の概要

2010-11-03:
Mozc UT辞書をリリース。

2016-01-14:
Mozc NEologd UT辞書をリリース。コストは mecab-ipadic-NEologd のものをベースにした。

2016-10-13:
Mozc UT2辞書をリリース。Mozc UT辞書を入れたパーティションを壊してしまったので作り直した。

2016-10-20:
Mozc UT2辞書のコスト計算を変更。表記をウィキペディア全記事(解凍前で3GB)内で完全一致検索し、ヒット数に応じてコストを設定した。この検索には長い時間と高い負荷がかかった。

2020-02-06:
NEologd辞書のコストを独自に計算することにした。元のコストだと「三浦大知」より「三浦大地」が優先される。表記をウィキペディア全見出し(解凍前で12MB)内で前方一致検索し、ヒット数に応じてコストを設定した。これはウィキペディア全記事(解凍前で3GB)内を完全一致検索するより、遥かに処理が軽い。

2020-06-11:
UT2辞書とNEologd辞書を1つにまとめて、改めて「Mozc UT辞書」としてリリース。辞書生成用のコードはほとんど書き直した。UT2辞書に相当する部分は、コストの計算方法をNEologd辞書と同じものにした。NEologd辞書を単体で配布するときは、「mozcdic-utからの派生」という意味で、ファイル名を「mozcdic-ut-neologd」とした。

2020-06-22:
jawiki辞書を追加。ウィキペディア全見出しを表記とし、記事本文から読みを得て、辞書を作成した。コストの計算方法はNEologd辞書と同じ。jawiki辞書はユーザー自身でアップデートでき、新語を簡単に追加できる。1人の努力に頼り切らない辞書づくりの仕組みが必要だと考えた。

2021-02-15:
SudachiDict辞書を追加。

2023-01-15:
jawiki, neologd, zipcode などの辞書を、個別のリポジトリに置いた。
merge-ut-dictionaries を作成。
生成したUT辞書の配布をやめた。

2024-07-04:
辞書生成プログラムを Python で書き換えた。

2024-10-22:
ソースコードを merge-ut-dictionaries リポジトリにまとめた。コードが分散していると管理しにくい。辞書用のリポジトリには辞書ファイルのみを置くようにした。

HOME