Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

キタカナ問題に対する根本的な解決策 #209

Closed
tokuhirom opened this issue Jan 22, 2023 · 7 comments
Closed

キタカナ問題に対する根本的な解決策 #209

tokuhirom opened this issue Jan 22, 2023 · 7 comments

Comments

@tokuhirom
Copy link
Collaborator

北香那、が辞書登録されているときに「来たかな」が変換できない問題の対策について考える。

@tokuhirom
Copy link
Collaborator Author

カイテルが登録されていると書いてる、が出ないのも同根である。

@tokuhirom
Copy link
Collaborator Author

キタカナ、の時には「来た/かな」がそこそこ高い確率で入ってきているはず。だが、文節がぴったりくるものがないから候補にも現れていない。
このようなケースでは、北香那、以外の候補が無い。
なので、こういう候補の数が規定量より少ないケース、例えば10件より少ないケースでは、よりブレイクダウンした候補を探索するとよさそう。

き/たかな
きた/かな

などを探して、もっともそれらしい物を探す。

@tokuhirom
Copy link
Collaborator Author

実装としては、前向きDP、後ろ向きA*みたいに実装すれば良い。
BinaryHeapがPriorityQueueとして使えるので、Ordを実装したオブジェクトに詰めて作っていく。
文節の組み合わせから出てくる候補は、組み合わせが爆発するので、100件程度で足切りしたほうが良さそう。

@tokuhirom
Copy link
Collaborator Author

組み合わせで出てきた文節については、複合語として扱う。ユニグラムの学習データに保存することにより、次回以後はそれが第一候補として出てくる。

@tokuhirom
Copy link
Collaborator Author

学習結果データに入れたとしても、実際にはそれが変換候補に出てくることはない。ということが分かった。

@tokuhirom
Copy link
Collaborator Author

「来た/かな」を候補に出すところまではできたが、これをユーザー学習の結果としてユニグラムデータに登録される。しかし、これで登録されたとしても、かな漢字辞書に登録されない。
かな漢字辞書に登録処理する必要があるが、それをどう実現したらいいのかのビジョンがつかめない。

tokuhirom added a commit that referenced this issue Jan 23, 2023
候補が少ない場合に分節を分割してみる処理 #209
@tokuhirom
Copy link
Collaborator Author

一旦対応完了。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant