Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

代表的な誤用例を追加 #1

Merged
merged 1 commit into from
Jun 24, 2016
Merged

Conversation

nodaguti
Copy link
Contributor

日本語に関するルールということもあり日本語にて PR を送らさせていただきます.

README には「技術文書をターゲットとする」などの対象を限定する記述がなかったため,一般に「誤用」と考えられている表現を多く追加してみました.
もしパッケージを分けたほうがよいということであれば,この PR は取り下げます.

誤用例の蒐集元

誤用例は主に日国などを執筆されている方が書かれた Japan Knowledge のコラム「日本語どうでしょう?」から蒐集しました.書籍化に伴い大部分がアーカイブ化されてしまっているため,Internet Archive へのリンクが大半になっています.

上記コラムの中で,以下のような内容については収録しませんでした.

誤用であると言われていたが実際は誤用ではないと考えられているもの

誤用とされている表現 正しいとされている表現 出典
汚名挽回 汚名返上 Japan Knowledge
的を得る 的を射る Japan Knowledge

古くから誤用とされる表現の例があり,辞書作成者も新しい表現として認めても良いのではないかと考えているもの

誤用とされている表現 正しいとされている表現 出典
声をあららげる 声をあらげる Japan Knowledge
やんごとない事情 よんどころない事情 Japan Knowledge
足元を掬われる 足を掬われる Japan Knowledge
采配を振るう 采配を振る Japan Knowledge
二の舞いを踏む 二の舞を演じる Japan Knowledge
願わくば 願わくは Japan Knowledge

意味を誤って用いられることが多いもの

など

その他の誤用例リストについて

ことば(放送用語) | NHK放送文化研究所 にも同様のコラムがありますが,今回は割愛しました.

また,間違えやすい日本語 にも多くの表現が載っていますが,個々の表現を誤りと見なす出典が書かれていないため対象としませんでした.

制限

正規表現ベースによる機械的チェックのため,

  • 意味の誤用を判断することはできない (そのため「煮詰まる」のような例は入れられない)
  • 語尾が活用してしまうと検出できない (「愛苦しい」という項目に対して「愛苦しかった」は検出できない)
    という問題があります.

以上,どうぞよろしくお願い致します.

@azu
Copy link
Member

azu commented Jun 23, 2016

ありがとうございます。後で見ます。

READMEにちょろっと書いてますが、このルールは正規表現ベースのものと形態素解析のtokenベースのマッチの2種類の実装を持たせてます。

「愛苦しい」という項目に対して「愛苦しかった」は検出できない) という問題

以下のような感じのtokenでマッチすれば、「愛苦しかった」の原型は「「愛苦しい + 特殊・タ」なのでマッチすることが可能になったりします。(やるべきかは別ですが)
正規表現よりは誤爆は少なくなるかなーという感じで入れてたやつです。(コストは高めですが)
マッチの実装はmorpheme-matchですが、単純なオブジェクトの部分一致を見てるだけです

// http://azu.github.io/morpheme-match/?text=愛苦しかった
[
    {
        "surface_form": "",
        "pos": "名詞",
        "pos_detail_1": "一般",
        "pos_detail_2": "*",
        "pos_detail_3": "*",
        "conjugated_type": "*",
        "conjugated_form": "*",
        "basic_form": "",
        "reading": "アイ",
        "pronunciation": "アイ"
    },
    {
        "basic_form": "苦しい"
    }
]

誤爆しそうだなーというのはtokenベースにしたいというのはありますが、誤爆しそうだなーというのを見つけるのが結構難しいという問題があります…

校正済みで自由に使えるある程度種類がある文章とかあると、とりあえずそれで試してみておかしな誤爆がないかを発見しやすいのですが、あんまりそういうのがないんですよねー…

http://www.math.is.tohoku.ac.jp/~obata/research/database.html
http://www.kotonoha.gr.jp/shonagon/search_form
http://csd.ninjal.ac.jp/comp/index.php
https://www.ninjal.ac.jp/database/type/corpora/
http://contr-db.ninjal.ac.jp/

@nodaguti
Copy link
Contributor Author

morpheme-match の使い方をうまく把握できていなかったため prh に登録していたのですが,オブジェクトの部分一致ができるのならばそちらに変更したほうがよさそうですね.prh は名詞や連体詞など非活用語に限らないと,校正の精度が落ちそうです.解説をありがとうございます.

また,「ことば(放送用語) | NHK放送文化研究所」のコラムに関しても PR 後に一通り目を通したので,後ほど追加したいと思います(ほとんど Japan Knowledge と被っているため数は多くありません).

「汚名挽回」など NHK のコラムでは「誤用です」と断言されているものもあり,研究者や編纂者によって意見が異なっている語は収録すべきかどうか判断に迷っています.本 PR とは完全に別件になってしまいますが,

  • 誤用かどうか専門家によって判断が分かれるため,必ずしも直すべきとは言えないが,「誤用」であると広く世間に知られたため使用には注意を要する語(例:汚名挽回,的を得る)
  • 意味を誤って用いられることが多い語(例:他山の石,話が煮詰まる,流れに棹さす)

などは Warning/Info レベルとして注意を促すような仕組みがあるとよいのかもしれません(その場合設定で ON/OFF できるべきかもしれません).

校正済みで自由に使えるある程度種類がある文章とかあると、とりあえずそれで試してみておかしな誤爆がないかを発見しやすいのですが、あんまりそういうのがない

コーパスは校正がかかっているため精度は高いのですが,どれも研究・教育目的に限られていてライセンスが自由でないのが難しいところですね.文章に校正は入っていないですが Wikipedia や青空文庫のデータを食わせて明らかな false positive を人力で探すしかないのかもしれません.false negative を探すのは量を考えると非現実的な気がします.

@azu
Copy link
Member

azu commented Jun 24, 2016

Warning/Info レベルとして注意を促すような仕組み

プリセットだとデフォルト値として警告にする設定ができますね。
textlintではseverityを決めるのはユーザーであってルール側ではないというデザインなので、
かもしれないというような曖昧性が出てくる場合はルールとして分けるか、オプションで選択できるようにする必要がありますね。

文脈依存のものを精度よく見つけるには構文パーサが必要になるのですが、途中まで実装してそこまで確実なものは難しそうと思ったので諦めました(tokenの前後関係が分かれば大体のケースは満たせるという感じ)

多分今回追加していただいたものは誤爆は少ないと思うのでマージしてしまいます。

@azu azu merged commit b909dc9 into textlint-ja:master Jun 24, 2016
@azu
Copy link
Member

azu commented Jun 24, 2016

@nodaguti
Copy link
Contributor Author

マージありがとうございます,反応が遅れて申し訳ありません.

  • prh から morpheme-match への変更
  • NHK コラムからの収録
  • カテゴリ分けしたうえで ON/OFF の仕組みを作る

などについては後ほど PR を送りたいと思います(しばらく多忙になるためいつ頃送ることができるかはちょっと不明です).

このパッケージの辞書が充実すれば,単純ミスを自動的に校正してくれるようになるので個人的にかなり期待しています!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants