キタカナ問題に対する根本的な解決策 #209

tokuhirom · 2023-01-22T02:35:46Z

北香那、が辞書登録されているときに「来たかな」が変換できない問題の対策について考える。

tokuhirom · 2023-01-22T02:36:17Z

カイテルが登録されていると書いてる、が出ないのも同根である。

tokuhirom · 2023-01-22T02:50:02Z

キタカナ、の時には「来た/かな」がそこそこ高い確率で入ってきているはず。だが、文節がぴったりくるものがないから候補にも現れていない。
このようなケースでは、北香那、以外の候補が無い。
なので、こういう候補の数が規定量より少ないケース、例えば10件より少ないケースでは、よりブレイクダウンした候補を探索するとよさそう。

き/たかな
きた/かな

などを探して、もっともそれらしい物を探す。

tokuhirom · 2023-01-22T02:56:30Z

実装としては、前向きDP、後ろ向きA*みたいに実装すれば良い。
BinaryHeapがPriorityQueueとして使えるので、Ordを実装したオブジェクトに詰めて作っていく。
文節の組み合わせから出てくる候補は、組み合わせが爆発するので、100件程度で足切りしたほうが良さそう。

tokuhirom · 2023-01-22T02:59:45Z

組み合わせで出てきた文節については、複合語として扱う。ユニグラムの学習データに保存することにより、次回以後はそれが第一候補として出てくる。

tokuhirom · 2023-01-22T14:34:45Z

学習結果データに入れたとしても、実際にはそれが変換候補に出てくることはない。ということが分かった。

tokuhirom · 2023-01-22T15:24:29Z

「来た/かな」を候補に出すところまではできたが、これをユーザー学習の結果としてユニグラムデータに登録される。しかし、これで登録されたとしても、かな漢字辞書に登録されない。
かな漢字辞書に登録処理する必要があるが、それをどう実現したらいいのかのビジョンがつかめない。

候補が少ない場合に分節を分割してみる処理 #209

tokuhirom · 2023-01-23T02:16:55Z

一旦対応完了。

tokuhirom added a commit that referenced this issue Jan 23, 2023

Merge pull request #213 from akaza-im/kitakana

8adc05c

候補が少ない場合に分節を分割してみる処理 #209

tokuhirom mentioned this issue Jan 23, 2023

複合語をユーザー辞書に保存しておく機能 #214

Merged

tokuhirom closed this as completed Jan 23, 2023

tokuhirom mentioned this issue Jan 23, 2023

来たかな の複合語化を検討する akaza-im/akaza-default-model#3

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

キタカナ問題に対する根本的な解決策 #209

キタカナ問題に対する根本的な解決策 #209

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 23, 2023

キタカナ問題に対する根本的な解決策 #209

キタカナ問題に対する根本的な解決策 #209

Comments

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 22, 2023

tokuhirom commented Jan 23, 2023