Skip to content

韓国語の未知語(Unknown)品詞の語がハングル字母に分解される #1169

Discussion options

You must be logged in to vote

さきほどリリースしたVer. 3.Beta.07hで修正を試みました( c0ff997, 9e724fa)。
お試しいただけましたら幸いです。

韓国語辞書「HanDic」の仕様上、いったんハングル字母(Hangul Jamo)に分解してから形態素解析を行なっています。辞書に載っていない未知語は、これまでは、ご指摘のように字母に分解されたままになっていました。これを再統合するように今回修正しています。

なお、ところどころ、字母から通常のハングル(Hangul Syllables)への再構成が難しくて、パッチムが分離してしまいます。これは現在のところKH Coderの仕様です。

ただ、パッチムが1つ分離しているどころではなくて、ご報告いただいた例のように完全にバラバラになっている(字母に分解されている)なら、私が忘れているだけのバグかもしれませんので、またお知らせいただけましたら幸いです。

おかげさまで、また1箇所、KH Coderを改善できました。感謝申し上げます。

Replies: 1 comment 1 reply

Comment options

You must be logged in to vote
1 reply
@strn1209
Comment options

Answer selected by ko-ichi-h
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Non-English Communication in Japanese language. error
2 participants