2023-09-30
Mozc UT dictionaries are additional dictionaries for Mozc.
They need more Stars.
mozc: 1930 Stars
fcitx5: 1129
Stars
fcitx5-mozc: 82 Stars
merge-ut-dictionaries: 40 Stars
Starring a repository also shows appreciation to the repository maintainer for their work. - GitHub Docs
リポジトリに Star を付けるということは、リポジトリメンテナに対してその作業についての感謝を示すことでもあります。- GitHub Docs
git clone https://github.com/utuhiro78/merge-ut-dictionaries.git
cd merge-ut-dictionaries/src/
Comment out unnecessary UT dictionaries in make.sh.
Default settings:
#alt_cannadic="true"
#edict="true"
jawiki="true"
neologd="true"
personal_names="true"
place_names="true"
#skk_jisyo="true"
#sudachidict="true"
Generate mozcdic-ut.txt.
sh make.sh
Add mozcdic-ut.txt to dictionary00.txt and build Mozc as usual.
cat mozcdic-ut.txt >> ../../mozc-master/src/data/dictionary_oss/dictionary00.txt
mv mozcdic-ut.txt PKGBUILD/
cd PKGBUILD/
ruby get_fcitx5_mozc.rb
rm -rf ~/.cache/bazel/
makepkg -is -p fcitx5-mozc-ut.PKGBUILD
Mozc UT dictionaries contain the following dictionaries:
2023-01-11:
「mozc ut」を検索すると、こんなツイートがあった。
暗黒美無王 dark Vim@ShougoMatsu · 7,463 フォロワー · 897 件のいいね
なぜLinux日本語入力が終わるのか。これは簡単な話です。
Linux日本語入力なんてLinuxデスクトップを直接使ってる人にしか需要がないのです。山田ハヤオ@Hayao0819 · 6,325 フォロワー · 61 件のいいね
これは一番自分が危惧してること
インプットメソッドは中国のちからがあるのでなくならないとしても、MozcはGoogle依存だしUt系辞書はライセンス的に微妙なのでまともな方法がほしい
まず暗黒美無王さんのツイートから。
Linux日本語入力が終わる理由は、作っている人に聞かないとわからない。他人から「Mozcなんて、Linuxデスクトップを直接使ってる人にしか需要がない。だから終わる。簡単な話です」とは言えない。
Linux日本語入力はそれを必要とする人たちが作っているので、需要の少なさを理由にして開発が終わることはないと思う。
Mozcはマルチプラットフォームで、Linuxデスクトップでの入力に必要なのは、unixディレクトリにあるIBusクライアント(Fcitx5クライアントはFcitx5の開発者が作っている)。これはすでに13年も開発が続いている。
来月Mozcの開発が終わったとしても、「MozcなんてLinuxデスクトップを直接使ってる人にしか需要がない。だから終わった」とは思わない。13年もやれば終わることだってある。
次に山田ハヤオさんのツイート。
山田ハヤオ@Hayao0819 · 6,325 フォロワー · 61 件のいいね
これは一番自分が危惧してること
インプットメソッドは中国のちからがあるのでなくならないとしても、MozcはGoogle依存だしUt系辞書はライセンス的に微妙なのでまともな方法がほしい
「中国のちからがあるのでなくならない」「Google依存なのでまともな方法ではない」と言うのは、作っている人へのリスペクトがなさすぎると思う。
MozcはGoogleが公式にサポートしているものではなく、Googleの有志がボランティアで開発しているようだ。土日にコミットされることもよくある。
Ut系辞書はライセンス的に微妙なのでまともな方法がほしい
過去にも山田さんは、「-ut系はライセンスが複雑で不透明」「法的な部分が怖い」とツイートしていた。不安な気持ちになったが、自分ではライセンスの問題はないと思っていたので、そのときは公開を続けた。
山田さんにはフォロワーが6000人いて、今回のツイートには、最初に見た時点で「いいね」が30件以上ついていた。
もうやめどきだな。フリーの配布物に余計な心配はしたくない。
山田さんのツイートを掲載して、UT辞書の公開終了をアナウンスした。
当時のUT辞書では、誰でも辞書を再現できるように、元となる辞書(jawiki, neologd, zipcodeなど)を、ソースとしてパッケージに収録していた。そのためUT辞書のライセンスには、元となる辞書の名前とライセンスを列挙していた。それが「ライセンス的に微妙」「ライセンスが複雑で不透明」「法的な部分が怖い」となったようだ。
mecab-ipadic-NEologd や SudachiDict でも、ライセンスがバラバラな辞書を集めて使用している。これらのプロジェクトでは、生成済みの辞書のみを配布し、ライセンスを「Apache License, Version 2.0」としている。
2023-01-13:
暗い気持ちになっていたが、ライセンスをシンプルにする方法を思いついた。
jawiki, neologd,
zipcodeなどの辞書を個別のリポジトリに置き、UT辞書生成プログラムも辞書とは別のリポジトリに置く。こうすれば、1つ1つのリポジトリのライセンスはシンプルになる。
UT辞書生成プログラム(merge-ut-dictionaries)を実行すると、各リポジトリから辞書をクローンしてUT辞書を生成する。生成したUT辞書の配布はやめる。
2023-01-15:
jawiki, neologd, zipcodeなどの辞書を、個別のリポジトリに置いた。
merge-ut-dictionaries を作成した。
最初は「分割するだけだから簡単だろう」と考えていたが、複数のリポジトリ作成とドキュメント書きとツール作成で、かなり手間がかかった。
2023-04:
UT辞書終了のアナウンスをしてから、Mozc関連の話題は見ていなかった。
少し調べていたら、山田ハヤオさんが「Mozc Re-UT
Dictionary」を作っていたことに気づく。
Hayao0819/Re-UT
Mozc Re-UT Dictionary. 本家Mozc-UT辞書様の代替を目標としたオープンソースプロジェクトです。
すごいことをするなあ。山田さんがクレームを書かれて自分のプロジェクトをやめて、そのクレームを書いた人が「Re-Hayao」と名付けたプロジェクトを始めたら、山田さんはどう思うんだろう。
Mozcチームの皆さんと、Fcitx開発者の wengxt さんに深く感謝。
ユーザーからの感謝がないと、オープンソースソフトウェアは続かないと思う。
2010-11-03:
Mozc UT辞書をリリース。
2016-01-14:
Mozc NEologd UT辞書をリリース。コストは mecab-ipadic-NEologd
のものをベースにした。
2016-10-13:
Mozc UT2辞書をリリース。Mozc
UT辞書を入れたパーティションを壊してしまったので作り直した。
2016-10-20:
Mozc
UT2辞書のコスト計算を変更。ウィキペディア全記事(解凍前で3GB)から単語を完全一致検索し、ヒット数に応じてコストを設定した。この検索には長い時間と高い負荷がかかった。
2020-02-06:
NEologd辞書のコストを独自に計算することにした。元のコストだと「三浦大知」より「三浦大地」が優先される。ウィキペディア全見出し(解凍前で12MB)から単語を前方一致検索し、ヒット数に応じてコストを設定した。これはウィキペディア全記事(解凍前で3GB)から完全一致検索するより、遥かに処理が軽い。
2020-06-11:
2代目Mozc
UT辞書をリリース。UT2辞書とNEologd辞書をまとめた形だが、辞書生成用のコードはほとんど書き直した。UT2辞書に相当する部分はコストの計算方法をNEologd辞書と同じものにした。辞書の組み合わせを変えて配布するときは、「mozcdic-utからの派生」という意味でファイル名を「mozcdic-ut-neologd」のようにした。
2020-06-22:
jawiki-articles辞書を追加。ウィキペディア全見出しを表記とし、対応する記事本文から読みを得て、辞書を作成した。コストの計算方法はNEologd辞書と同じ。jawiki-articles辞書はユーザー自身でアップデートでき、新しい人名や用語への対応が容易。1人の努力に頼り切らない仕組みが必要だと考えた。
2021-02-15:
SudachiDict を追加。
2023-01-15:
jawiki, neologd, zipcodeなどの辞書を、個別のリポジトリに置いた。
merge-ut-dictionaries を作成。
生成したUT辞書の配布はやめる。
これによりライセンスがシンプルになった。