韓国語の未知語(Unknown)品詞の語がハングル字母に分解される #1169
-
お使いのKH Coderのバージョン3.Beta.07f バグについて詳しくお書きください■お使いのOS ■KH Coderのインストール先フォルダ(解凍先フォルダ) ■どんなバグですか? ■どのように操作すればそのバグを再現できますか?
■その問題はチュートリアルの漱石「こころ」データでも同様に発生しましたか? ■その問題を再現できるファイル(群) ■分析しようとしているのは何語のテキストですか? ■分析対象として指定しているファイルの形式は何ですか? ■お使いのCPU コンソール・ウィンドウの表示内容(Macではターミナルの表示内容)を貼り付けてください特になし |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 1 reply
-
さきほどリリースしたVer. 3.Beta.07hで修正を試みました( c0ff997, 9e724fa)。 韓国語辞書「HanDic」の仕様上、いったんハングル字母(Hangul Jamo)に分解してから形態素解析を行なっています。辞書に載っていない未知語は、これまでは、ご指摘のように字母に分解されたままになっていました。これを再統合するように今回修正しています。 なお、ところどころ、字母から通常のハングル(Hangul Syllables)への再構成が難しくて、パッチムが分離してしまいます。これは現在のところKH Coderの仕様です。 ただ、パッチムが1つ分離しているどころではなくて、ご報告いただいた例のように完全にバラバラになっている(字母に分解されている)なら、私が忘れているだけのバグかもしれませんので、またお知らせいただけましたら幸いです。 おかげさまで、また1箇所、KH Coderを改善できました。感謝申し上げます。 |
Beta Was this translation helpful? Give feedback.
さきほどリリースしたVer. 3.Beta.07hで修正を試みました( c0ff997, 9e724fa)。
お試しいただけましたら幸いです。
韓国語辞書「HanDic」の仕様上、いったんハングル字母(Hangul Jamo)に分解してから形態素解析を行なっています。辞書に載っていない未知語は、これまでは、ご指摘のように字母に分解されたままになっていました。これを再統合するように今回修正しています。
なお、ところどころ、字母から通常のハングル(Hangul Syllables)への再構成が難しくて、パッチムが分離してしまいます。これは現在のところKH Coderの仕様です。
ただ、パッチムが1つ分離しているどころではなくて、ご報告いただいた例のように完全にバラバラになっている(字母に分解されている)なら、私が忘れているだけのバグかもしれませんので、またお知らせいただけましたら幸いです。
おかげさまで、また1箇所、KH Coderを改善できました。感謝申し上げます。