数字の抽出 #1122
-
■KH Coderのバージョン ■お使いのOS ■ご質問の内容 |
Beta Was this translation helpful? Give feedback.
Replies: 2 comments 3 replies
-
「2列」「3列」を語の共起ネットワーク・MDS等でも使いたい場合は強制抽出なさってください。メニューの「前処理」から「語の取捨選択」を選択し、開いた画面の「強制抽出」欄に入力して、前処理を再実行してください。強制抽出してあれば、コーディングルールでもそのまま「2列」「3列」を使えます。 語の分析では、「2列」「3列」などが不要な場合、お書きいただいたように、'3列'のような文字列指定が手軽でしょう。 ※いずれの場合も、事前に「列」のKWICコンコーダンスを見ていただいて、「二列」といった表現もないかどうかなどをご確認いただくのが確実かと存じます。 |
Beta Was this translation helpful? Give feedback.
-
データ中に「3列」「3人」などがあった場合、デフォルトでは「3」と「列」「人」に分割されます。茶筌・MeCabがそのように分割し、その結果を基本的にそのままKH Coderで使っているためです。 公式入門書の第4章で触れたように、基本的には、こうした「細かすぎるかもしれない分割」は、「複合語の検出(茶筌)」コマンドによって洗い出すことができます。分析に使いたい語があれば、強制抽出を行なってください。 上のスクリーンショットの入力データ: numbers.txt ※ただし、現状では、「複合語の検出(茶筌)」コマンドで検出できるのは全角の数字のみです。numbers.txtを見ていただくと分かるように、半角の数字は無視されますのでご注意ください。マニュアルA.2.1節に記載のように、日本語データの場合は半角文字を含めない方が望ましいです。 |
Beta Was this translation helpful? Give feedback.
「2列」「3列」を語の共起ネットワーク・MDS等でも使いたい場合は強制抽出なさってください。メニューの「前処理」から「語の取捨選択」を選択し、開いた画面の「強制抽出」欄に入力して、前処理を再実行してください。強制抽出してあれば、コーディングルールでもそのまま「2列」「3列」を使えます。
語の分析では、「2列」「3列」などが不要な場合、お書きいただいたように、'3列'のような文字列指定が手軽でしょう。
※いずれの場合も、事前に「列」のKWICコンコーダンスを見ていただいて、「二列」といった表現もないかどうかなどをご確認いただくのが確実かと存じます。