Mozc UT Dictionaries

2024-05-04

Overview

Mozc UT dictionaries are additional dictionaries for Mozc.

Press the Star button on GitHub

They need more Stars.

mozc: 1930 Stars

fcitx5: 1129 Stars

fcitx5-mozc: 82 Stars

merge-ut-dictionaries: 40 Stars

Starring a repository also shows appreciation to the repository maintainer for their work. - GitHub Docs

リポジトリに Star を付けるということは、リポジトリメンテナに対してその作業についての感謝を示すことでもあります。- GitHub Docs

License

Build

git clone https://github.com/utuhiro78/merge-ut-dictionaries.git

cd merge-ut-dictionaries/src/

Comment out unnecessary UT dictionaries in make.sh.

Default settings:

#alt_cannadic="true"
#edict="true"
jawiki="true"
#neologd="true"
personal_names="true"
place_names="true"
#skk_jisyo="true"
sudachidict="true"

Generate mozcdic-ut.txt.

sh make.sh
cat mozcdic-ut.txt >> ../../mozc-master/src/data/dictionary_oss/dictionary00.txt

Build Mozc as usual.

Build fcitx5-mozc on Arch Linux

git clone https://github.com/utuhiro78/merge-ut-dictionaries.git

cd merge-ut-dictionaries/src/
sh make.sh
mv mozcdic-ut.txt PKGBUILD/

cd PKGBUILD/
ruby get_fcitx5_mozc.rb

rm -rf ~/.cache/bazel/
makepkg -is -p fcitx5-mozc-ut.PKGBUILD

Dictionaries

Mozc UT dictionaries contain the following dictionaries:

中断と再構築

中断するまで

2023-01-11:
「mozc ut」を検索すると、こんなツイートがあった。

暗黒美無王 dark Vim@ShougoMatsu · 7,463 フォロワー
なぜLinux日本語入力が終わるのか。これは簡単な話です。
Linux日本語入力なんてLinuxデスクトップを直接使ってる人にしか需要がないのです。
2023年1月9日 · 897 件のいいね

山田ハヤオ@Hayao0819 · 6,325 フォロワー
これは一番自分が危惧してること
インプットメソッドは中国のちからがあるのでなくならないとしても、MozcはGoogle依存だしUt系辞書はライセンス的に微妙なのでまともな方法がほしい
2023年1月9日 · 61 件のいいね

まず暗黒美無王さんのツイートから。
Linux日本語入力が終わる理由は、作っている人に聞かないとわからない。プロジェクトをやめる理由は人それぞれだし、他人が「簡単な話」として語るものでもない。
MozcのLinux対応は、2010年5月から行われている。10年以上続いたプロジェクトが終わるとき、ユーザーから言える話は、「プロジェクトメンバーへの感謝」しかない。

次に山田ハヤオさんのツイート。
「中国のちからがあるのでなくならない」「Google依存なのでまともな方法ではない」と言うのは、作っている人へのリスペクトがなさすぎる。

過去にも山田さんは、「-ut系はライセンスが複雑で不透明」「法的な部分が怖い」とツイートしていた。

山田ハヤオ@Hayao0819 · 6,325 フォロワー
Ibusはビルドに失敗するのと-ut系はライセンスが複雑で不透明なので使ってないです
2021年9月3日 · 3 件のいいね

それで法的な部分が怖いので、開発のかなり初期段階でut系は無理=ibusは難しいという結論になっています
2021年9月4日 · 2 件のいいね

不安な気持ちになったが、自分としては問題ないと思っていたので、そのときは公開を続けた。

今回のツイート。

Ut系辞書はライセンス的に微妙なのでまともな方法がほしい
2023年1月9日 · 61 件のいいね

初めて見たとき、「いいね」が30件以上ついていた。
これはもうやめどきだな。フリーの配布物に余計な心配はしたくない。
山田さんのツイートを掲載して、UT辞書の公開終了をアナウンスした。

再構築

当時のUT辞書では、生成プログラムと生成に使用する辞書(jawiki, neologd, zipcode など)を、1つのパッケージにまとめて収録していた。そのためパッケージのライセンスには、各辞書の名前とライセンスを列挙していた。それが「ライセンス的に微妙」「ライセンスが複雑で不透明」「法的な部分が怖い」となったようだ。

mecab-ipadic-NEologdSudachiDict でも、ライセンスがバラバラな辞書を集めて使用している。それらのプロジェクトでは生成した辞書のみを配布し、ライセンスを「Apache License, Version 2.0」としている。

2023-01-13:
暗い気持ちになっていたが、ライセンスをシンプルにする方法を思いついた。
jawiki, neologd, zipcode などを個別のリポジトリに置き、UT辞書生成プログラム(merge-ut-dictionaries)も辞書とは別のリポジトリに置く。
こうすれば1つ1つのリポジトリのライセンスはシンプルになる。生成したUT辞書は配布しない。

2023-01-15:
jawiki, neologd, zipcode などを個別のリポジトリに置いた。
merge-ut-dictionaries を作成した。
最初は「分割するだけだから簡単だろう」と考えていたが、複数のリポジトリ作成とドキュメント書きとコードのアップデートで、かなり手間がかかった。

2023-04-xx:
UT辞書終了のアナウンスをしてから、Mozc関連の話題は見ていなかった。
少し調べると、山田ハヤオさんが「Mozc Re-UT Dictionary」を作っていた。

Hayao0819/Re-UT
Mozc Re-UT Dictionary. 本家Mozc-UT辞書様の代替を目標としたオープンソースプロジェクトです。

すごいことをするなあ。山田さんが誰かのクレームをきっかけに自分のプロジェクトをやめて、クレームを書いた人が「Re-Hayao」と名付けたプロジェクトを始めたら、山田さんはどう思うんだろう。

Mozcチームの皆さんと、Fcitx開発者の wengxt さんに深く感謝。
ユーザーからの感謝がないと、オープンソースソフトウェアは続かないと思う。

更新の概要

2010-11-03:
Mozc UT辞書をリリース。

2016-01-14:
Mozc NEologd UT辞書をリリース。コストは mecab-ipadic-NEologd のものをベースにした。

2016-10-13:
Mozc UT2辞書をリリース。Mozc UT辞書を入れたパーティションを壊してしまったので作り直した。

2016-10-20:
Mozc UT2辞書のコスト計算を変更。表記をウィキペディア全記事(解凍前で3GB)内で完全一致検索し、ヒット数に応じてコストを設定した。この検索には長い時間と高い負荷がかかった。

2020-02-06:
NEologd辞書のコストを独自に計算することにした。元のコストだと「三浦大知」より「三浦大地」が優先される。表記をウィキペディア全見出し(解凍前で12MB)内で前方一致検索し、ヒット数に応じてコストを設定した。これはウィキペディア全記事(解凍前で3GB)内を完全一致検索するより、遥かに処理が軽い。

2020-06-11:
UT2辞書とNEologd辞書を1つにまとめて、改めて「Mozc UT辞書」としてリリース。辞書生成用のコードはほとんど書き直した。UT2辞書に相当する部分は、コストの計算方法をNEologd辞書と同じものにした。NEologd辞書を単体で配布するときは、「mozcdic-utからの派生」という意味で、ファイル名を「mozcdic-ut-neologd」とした。

2020-06-22:
jawiki辞書を追加。ウィキペディア全見出しを表記とし、記事本文から読みを得て、辞書を作成した。コストの計算方法はNEologd辞書と同じ。jawiki辞書はユーザー自身でアップデートでき、新語を簡単に追加できる。1人の努力に頼り切らない辞書づくりの仕組みが必要だと考えた。

2021-02-15:
SudachiDict辞書を追加。

2023-01-15:
jawiki, neologd, zipcode などの辞書を、個別のリポジトリに置いた。
merge-ut-dictionaries を作成。
生成したUT辞書の配布をやめた。

HOME