Mozc UT Dictionaries

2023-01-24

Overview

Mozc UT dictionaries contain the following dictionaries:

To modify the costs for words or merge multiple UT dictionaries into one, use this tool:

Press the Star button on GitHub.

They need more Stars.

Mozc: 1678 Stars
Fcitx5: 895 Stars
Fcitx5-Mozc: 33 Stars

Starring a repository also shows appreciation to the repository maintainer for their work. - GitHub Docs

リポジトリに Star を付けるということは、リポジトリメンテナに対してその作業についての感謝を示すことでもあります。- GitHub Docs

Interruption

Mozc UT Dictionary is no longer available. (2023-01-11)

I decided it was time to stop publishing the UT Dictionary.

I see no legal issues with the UT Dictionary, but I also see no merit in continuing to publish it.
Yamada has 6,000 followers, so if he repeatedly insists on legal issues, it may affect my life.
If you are publishing packages for distribution, please remove them.

Thanks to the Mozc development team. I cannot use Linux without Mozc.
Without appreciation from users, open source projects cannot continue.

2010-11-03 - 2023-01-11

Work in progress. (2023-01-13)

I am working on splitting the project by original resources so that the single licensed UT dictionary can be distributed.

更新の概要

2010-11-03: Mozc UT辞書をリリース。

2016-01-14: Mozc NEologd UT辞書をリリース。コストは mecab-ipadic-NEologd のものをベースにした。

2016-10-13: Mozc UT2辞書をリリース。Mozc UT辞書を入れたパーティションを壊してしまったので作り直した。

2016-10-20: Mozc UT2辞書のコスト計算を変更。ウィキペディア全記事(解凍前で3GB)から単語を完全一致検索し、ヒット数に応じてコストを設定した。この検索には長い時間と高い負荷がかかった。

2020-02-06: NEologd辞書のコストを独自に計算することにした。元のコストだと「三浦大知」より「三浦大地」が優先される。ウィキペディア全見出し(解凍前で12MB)から単語を前方一致検索し、ヒット数に応じてコストを設定した。これはウィキペディア全記事(解凍前で3GB)から完全一致検索するより、遥かに処理が軽い。

2020-06-11: 2代目Mozc UT辞書をリリース。UT2辞書とNEologd辞書をまとめた形だが、辞書作成用のコードはほとんど書き直した。UT2辞書に相当する部分はコストの計算方法をNEologd辞書と同じものにした。辞書の組み合わせを変えて配布するときは、「mozcdic-utからの派生」という意味でファイル名を「mozcdic-ut-neologd」のようにした。

2020-06-22: jawiki-articles辞書を追加。ウィキペディア全見出しを表記とし、対応する記事本文から読みを得て、辞書を作成した。コストの計算方法はNEologd辞書と同じ。jawiki-articles辞書はユーザー自身でアップデートでき、新しい人名や用語への対応が容易。1人の努力に頼り切らない仕組みが必要だと考えた。

2021-02-15: SudachiDict を追加。

2023-01-13: データごとにプロジェクトを分割して、単一のライセンスでUT辞書を配布できるようにした。

HOME