下へ
2007/12/28 (金) 18:35:22        [qwerty]
日本語変換システムの辞書について


  単語の関連も、語数を増やしていくならすなわち単文。atokも2008が出るとかで
専用スレを覗けば例文の変換例がぞろぞろ。これも黎明期? から延々やってるのか
とびっくりする。自分なら例文を短文登録して一発で出す。
 メーカーが万人を相手に製品を出すならあれこれ辞書内容を節約しつつ工夫がいるでしょうけど、
個人の辞書はオーダーメードでいいはず。

 あと、一個人の語彙の範囲はそんなに広くないと言うところが、個人辞書にこだわる一つの理由。
文章のくせもそう。

 先日、基本辞書を0から自作することにしたのですが、それに必要な空辞書は
WXGには添付されており、MS-IME2007では辞書ツールに作成機能があることが
わかりました。

 0からの作成は昔やったことがあります。手を付けてみると、いろんなノウハウが思い出されてきます。
手順は最初ある程度の数エディタで一気に作り上げて一括登録し、その辞書を実際に使いながら文章を
打ちつつユーザ登録とエディタでファイルにしてがんがん登録していきます。

 語彙が少ないうちはひらがな一文字をその読みで登録しておかないとシッチャカメッチャカな変換になります。
 単漢字変換が使えない・使わない環境なら、適度な読みで単漢字を網羅しないといけないです。
 動詞など、かなに開く場合でもひらがなで登録しないとだめです。特に用言はくまなく網羅しないとだめです。
この作り込みが使い勝手に直結します。体言は多くても少なくてもあまり変化はないです。用言が不足している
と、文法解析が出来ずにめろめろになってしまうようです。
 言語の体系は用言が骨格になっていて、体言は樹形で言うところの葉っぱの一つ一つではないかという感じです。
 用言は網羅する必要がありますけど、幸い数が少ないので、個人で作成しても何とかなります。用言が
使い心地に直結するならば、助動詞などの扱いは特に大事なんだろうと思いますけど、このへんのからくりは
メーカーの極秘事項なんでしょうね。
基本辞書に秘匿で収めてあるのか本体のデータ領域に格納してあるのか
うかがい知ることは出来ないのですけども。このあたりのことに首をつっこむとおもしろくて辞書どころじゃ
なくなるかもしれないので、あえて考えていません。

 それにしても、ずいぶん前にこのあたりの話が出たとき、「数年前の論文レベルだなぁ」って話が出ていて、
そうであるならば、国立の大学のそういう分野のところでは研究されているのだろうし、ある程度プリミティブ
であっても変換システムの試作位しながら何らかの発表はされているのだろうし、少数のメーカーが
牛耳っているような状況はおかしいような気がします。

 あと、辞書の作り込みは作る人ごとに色が出るからはまる人にははまるのではないかと予想するのですが、
あまりやる人がいないのはなぜだろうという疑問があります。

用字用語のことをちょっと調べると、出版関係や公的機関の出す文書の基準なんていうのは
なるべく漢字を使わない方向に向いています。
 出版関係では校正段階で漢字をかなに開く作業を盛んにやるようで、それならば最初から
かなに開いた形で変換される辞書を用意しようという考えが出てくるし、作りやすい気がします。

 しかして、学習漢字、当用漢字、常用漢字なんて縛りをかけると、行き着く先は「ゆとり教育」では
ないかとかんがえることもできます。
 ワープロやパソコンの日本語変換で漢字がどんどん出てくるので、積極的に漢字を使おうという
人も出てきたわけですけど、最近の漢字検定なんかの人気を聞くに及んで、これも一つの方向かなと
おもうときもあります。
 小学生向けの辞書を調べると、動詞も結構漢字で書くようになっていたりで、個人的にはいろいろと再発見が
あります。

上へ