数字の抽出 #1122

ihide10 · 2023-08-01T01:47:31Z

ihide10
Aug 1, 2023

■KH Coderのバージョン
3.beta.07d

■お使いのOS
Windows 10

■ご質問の内容
対象の文章で「2列」とか「3列」という語句があり、抽出語リストで分解すると、「列」は出てくるのですが、
2とか3とか数字が出てこないのですが、数字は抽出されないのでしょうか？
もし「3列」というキーワードを含む場合、含まない場合という条件でCording ruleを作成する場合は、
どのようなやり方がよいでしょうか？'3列'のように文字列指定しかないでしょうか？

Answered by ko-ichi-h

Aug 1, 2023

「2列」「3列」を語の共起ネットワーク・MDS等でも使いたい場合は強制抽出なさってください。メニューの「前処理」から「語の取捨選択」を選択し、開いた画面の「強制抽出」欄に入力して、前処理を再実行してください。強制抽出してあれば、コーディングルールでもそのまま「2列」「3列」を使えます。

語の分析では、「2列」「3列」などが不要な場合、お書きいただいたように、'3列'のような文字列指定が手軽でしょう。

※いずれの場合も、事前に「列」のKWICコンコーダンスを見ていただいて、「二列」といった表現もないかどうかなどをご確認いただくのが確実かと存じます。

View full answer

ko-ichi-h · 2023-08-01T03:09:03Z

ko-ichi-h
Aug 1, 2023
Maintainer

「2列」「3列」を語の共起ネットワーク・MDS等でも使いたい場合は強制抽出なさってください。メニューの「前処理」から「語の取捨選択」を選択し、開いた画面の「強制抽出」欄に入力して、前処理を再実行してください。強制抽出してあれば、コーディングルールでもそのまま「2列」「3列」を使えます。

語の分析では、「2列」「3列」などが不要な場合、お書きいただいたように、'3列'のような文字列指定が手軽でしょう。

※いずれの場合も、事前に「列」のKWICコンコーダンスを見ていただいて、「二列」といった表現もないかどうかなどをご確認いただくのが確実かと存じます。

2 replies

ihide10 Aug 1, 2023
Author

早速の回答ありがとうございます。強制抽出がよさそうですね。ありがとうございます。
ちなみに、繰り返しですみませんが、数字は抽出語にはならないのでしょうか？

ko-ichi-h Aug 1, 2023
Maintainer

デフォルトの設定では、数字は「その他」品詞に分類されるので、分析や検索の対象から外れます。なお半角と全角で扱いが少し違います。

半角の数字はすべてKH Coder上では「その他」品詞になります。これは、茶筌・MeCabの分類では「未知語」でも、全角文字やアルファベットを含まない場合は、KH Coder上では「その他」になるためです（マニュアルA.2.2節）。

全角の数字は茶筌・MeCabが「名詞-数」に分類します。デフォルトでは「名詞-数」はKH Coder上で「その他」品詞となります。ですがKH Coder側の品詞設定で（マニュアルの表A.3）、「名詞-数」を分析対象にすれば、語として分析・検索できます。この設定をして、入力データ内の半角の数字をすべて全角に変換しておけば、数字をすべて拾えるでしょう。

詳しくはマニュアルのA.2.2説をご参照ください。

［追記］
半角の数字についての記述が間違っていたので、修正しました。

ko-ichi-h · 2023-08-02T02:38:09Z

ko-ichi-h
Aug 2, 2023
Maintainer

データ中に「３列」「３人」などがあった場合、デフォルトでは「3」と「列」「人」に分割されます。茶筌・MeCabがそのように分割し、その結果を基本的にそのままKH Coderで使っているためです。

公式入門書の第4章で触れたように、基本的には、こうした「細かすぎるかもしれない分割」は、「複合語の検出（茶筌）」コマンドによって洗い出すことができます。分析に使いたい語があれば、強制抽出を行なってください。

上のスクリーンショットの入力データ： numbers.txt

※ただし、現状では、「複合語の検出（茶筌）」コマンドで検出できるのは全角の数字のみです。numbers.txtを見ていただくと分かるように、半角の数字は無視されますのでご注意ください。マニュアルA.2.1節に記載のように、日本語データの場合は半角文字を含めない方が望ましいです。

1 reply

ihide10 Aug 3, 2023
Author

遅くなりましたがご丁寧な解説ありがとうございました。マニュアルを確認します。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数字の抽出 #1122

{{title}}

Replies: 2 comments 3 replies

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

数字の抽出 #1122

ihide10 Aug 1, 2023

Replies: 2 comments · 3 replies

ko-ichi-h Aug 1, 2023 Maintainer

ihide10 Aug 1, 2023 Author

ko-ichi-h Aug 1, 2023 Maintainer

ko-ichi-h Aug 2, 2023 Maintainer

ihide10 Aug 3, 2023 Author

ihide10
Aug 1, 2023

Replies: 2 comments 3 replies

ko-ichi-h
Aug 1, 2023
Maintainer

ihide10 Aug 1, 2023
Author

ko-ichi-h Aug 1, 2023
Maintainer

ko-ichi-h
Aug 2, 2023
Maintainer

ihide10 Aug 3, 2023
Author