-
Notifications
You must be signed in to change notification settings - Fork 220
/
feature.html
227 lines (201 loc) · 10.5 KB
/
feature.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>MeCab の開発経緯</title>
<link type="text/css" rel="stylesheet" href="mecab.css">
</head>
<body>
<h1>MeCab の開発経緯</h1>
<h2>形態素解析の歴史</h2>
<p>
オープンな形態素解析器として Juman, ChaSen が存在する. それぞれの
基本的な開発理念は以下である
</p>
<ul>
<li><a href="http://www.kc.t.u-tokyo.ac.jp/nl-resource/juman.html">Juman</a>
<p>
Juman 以前の商用的に配布されていた形態素解析器は, 辞書や品詞体系
連接規則はほぼ固定されており, ユーザ自身自由に定義できなかった. Juman は
これらの定義すべて外部に出し自由な定義が可能になった.
</p>
<p>
辞書は比較的入手しやすいが, 連接コストや単語生起コストの定義は
人手によって行わざるをえなかった. 解析ミスを発見するたびに副作用が無い範
囲で連接コストを修正する必要があり, 開発コストが大きい.
</p>
<p>
また, Juman は日本語の形態素解析として開発されていたので,
未知語処理が日本語に特化されており, 未知語処理の定義を
自分で与えることはできない. また, 品詞は2階層までに固定されており,
品詞体系には一種の制限がある.
</p>
<li><a href="http://chasen.naist.jp">ChaSen</a>
<p>
ChaSen の貢献の1つは, 統計処理 (HMM) によって連接コストや単語生起コストを
推定するようになった点にある. この処理のおかげで, 解析ミスを
蓄積するだけで自動的にコスト値を推定できるようになった.
さらに, 品詞階層も無制限になり, 品詞体系を含めて(本当の意味で)
自由に定義できるようになった.
</p>
<p>
しかし, 複雑な品詞体系にすればするほど, データスパースネスの問題が
発生する. HMM を使う場合, HMM の内部状態(Hidden Class)を 1つに固定する
必要があるため, 各品詞から内部状態への「変換」が必要となる. 単純には
各品詞を1つの内部状態に割りあてればよいが, 活用まで含めて品詞を
すべて展開すると, その数は 500 にも及び, 低頻度の品詞について
信頼度の高い推定量を得ることができない. 逆に, 頻度の高い「助詞」等の品詞は
語彙も含めて内部状態にしないと高い精度が得られない.
複雑な品詞体系にすればするほど, 内部状態の定義が困難になる.
つまり, 現状の(複雑な)品詞体系を扱うには, HMM では力不足であり,
それを補助するための人手コストが大きくなっている.
</p>
<p>
また, ChaSen にはコスト値推定モジュールが付与されていない.
NAISTの内部では利用できるらしいが, 上記の理由から設定すべき
パラメータが多く, 使いこなすのが困難である.
</p>
<p>さらに, ChaSen も未知語処理もハードコーディングされており
自由に定義することはできない.
</p>
</ul>
<h2>MeCab 0.90の機能</h2>
<ul>
<li>コスト値推定に <a
href="http://www.cis.upenn.edu/~pereira/papers/crf.pdf">Conditional Random Fields, CRF</a> を採用 <br>
<p>
HMM は, 唯一の内部状態を定義する必要があった. 一方 CRF はオーバラッ
プを含めた複数の内部状態を定義することが可能である. この機能により,
細い品詞階層と粗い品詞階層の確率値を混ぜるといった,
「スムージング」が自然にかつ自動的に実現できる.
これは, 複雑な品詞体系を扱う上で便利な機能であり,
人手処理を大幅に簡略化することができる.
</p>
<p>
CRF の採用により, 品詞体系, 単語長, 辞書の変更に対し柔軟にかつ低コストで対応できるようになる.
さらに, CRF は, HMM の 1/3 程度の学習コーパスで同程度の
性能が得られることが分かっている. つまり, 新しいドメインへの
適用といった事にも低コストで対処できるであろう.
</p>
<p>
また, CRF は, これまでの最小コスト法として定式化できるため,
解析速度の劣化はない.
</p>
<p>MeCab 0.90 は, コスト推定プログラムも含め配布する.
最小限の設定でも高い精度が得られるようなユーザビリティーを
提供する.</p>
<center>
<p><small>解析結果: 上 Juman, 下 ChaSenとの比較. <br>
seg:わかち書きの精度, top:品
詞まで含める, all:活用まですべて含める<br>
E-HMMs が現状の MeCab/ChaSen</small></p>
<p><img src="result.png"></p></center>
<li>未知語処理の外部定義<br>
<p>
MeCab 0.90 では, ユーザが未知語処理の戦略を自由に定義可能となる.
基本的な戦略として字種に基づくわかち書きを行う.
字種そのものの定義(どの文字コードがどの字種に対応するか),
各字種に対するわかち書きの定義 (グループ化するか, N文字づつまとめる
か), わかち書きされたものにどのような品詞を割りあてるか.
といた事がユーザ自身で定義できる.
</p>
<p>字種を表現するための内部コードに Unicode を用いており,
未知語処理の言語非依存性が(部分的に)実現できる.
</p>
<p>また, 未知語処理のパラメータも CRF により推定される.
ChaSen や Juman に比べれば, 未知語に対する 解析精度の向上が期待できる
</p>
<p>解析例</p>
<p>MeCab 0.81 の解析結果</p>
<pre>
ホリエモン氏に会った。
ホ 名詞,一般,*,*,*,*,ホ,ホ,ホ
リエ 名詞,固有名詞,人名,名,*,*,リエ,リエ,リエ
モン 名詞,固有名詞,一般,*,*,*,モン,モン,モン
氏 名詞,接尾,人名,*,*,*,氏,シ,シ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
会っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,会う,アッ,アッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。</pre>
<p>MeCab 0.90 の解析結果 (周辺のコンテキストを考慮しながら「ホリエモン」を正しく解析できる)</p>
<pre>
ホリエモン氏に会った。
ホリエモン 名詞,固有名詞,人名,一般,*,*,* 0,10
氏 名詞,接尾,人名,*,*,*,氏,シ,シ 10,12
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 12,14
会っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,会う,アッ,アッ
14,18
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 18,20
。 記号,句点,*,*,*,*,。,。,。 20,22</pre>
<li>ソフトなわかち書き</li>
<p>
形態素解析器の仕事は, おおざっぱに言えば「入力文を形態素に区切る」こ
とにある. しかし 「本部長」のように単独の解を得られない場合がある.
(本/部長 or 本部/長). また長い複合語が定義されている時,
その構成語が出力されないという問題もある.
</p>
<p>MeCab 0.90 では, 「入力文を形態素に区切る」という機能とは別の
「入力文から形態素を抽出する」という機能を提供する.
「形態素を抽出する」機能を実現するには, 入力文のすべての部分文字列の「形態素らしさ」を
算出する必要がある. MeCab 0.90 では この「形態素らしさ」を「形態素周辺確率」
という形で算出する. 詳細は言語処理学会 2005 にて<a
href="http://chasen.org/~taku/publications/nlp2005.pdf">発表</a>済み
</p>
<p>
以下が解析例である
</p>
<pre>
本部長
本部 名詞,固有名詞,地域,一般,*,*,本部,モトブ,モトブ 0.026441
本部 名詞,一般,*,*,*,*,本部,ホンブ,ホンブ 0.619559 *
本 名詞,固有名詞,人名,姓,*,*,本,モト,モト 0.010897
本 名詞,一般,*,*,*,*,本,ホン,ホン 0.046961
本 接頭詞,名詞接続,*,*,*,*,本,ホン,ホン 0.292945
部長 名詞,一般,*,*,*,*,部長,ブチョウ,ブチョー 0.352623
長 名詞,一般,*,*,*,*,長,チョウ,チョー 0.013549
長 名詞,接尾,一般,*,*,*,長,チョウ,チョー 0.624362 *
</pre>
<p>
* が付いたものが実際の解析結果. 「形態素らしさ(形態素周辺確率)」も同時に
出力される
</p>
<p>
「形態素らしら」は入力文によって変わることに注意されたい.
</p>
<pre>
松本さんに会う。
松本 名詞,固有名詞,人名,姓,*,*,松本,マツモト,マツモト 0.989497 *
さん 名詞,接尾,人名,*,*,*,さん,サン,サン 0.998228 *
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 0.990367 *
会う 動詞,自立,*,*,五段・ワ行促音便,基本形,会う,アウ,アウ 0.999387 *
。 記号,句点,*,*,*,*,。,。,。 0.999999 *
EOS
松本市に行く。
松本 名詞,固有名詞,地域,一般,*,*,松本,マツモト,マツモト 0.919221 *
松本 名詞,固有名詞,人名,姓,*,*,松本,マツモト,マツモト 0.073882
市 名詞,接尾,地域,*,*,*,市,シ,シ 0.886151 *
市 名詞,一般,*,*,*,*,市,シ,シ 0.110607
に 助詞,副詞化,*,*,*,*,に,ニ,ニ 0.013169
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 0.986618 *
行く 動詞,自立,*,*,五段・カ行促音便,基本形,行く,イク,イク 0.966972 *
行く 動詞,自立,*,*,五段・カ行促音便ユク,基本形,行く,ユク,ユク 0.030681
。 記号,句点,*,*,*,*,。,。,。 0.999997 *
EOS
</pre>
<p>上記のように「松本」の形態素らしさは周辺のコンテキストで変化する</p>
<li>複数の解析モデルを解析器とは別に配布
<p>解析器とパラメータ(辞書, 連接コスト)が完全に独立に
設計されるので, 以下の辞書についてのパラメータを個別に配布する.
ただし, ライセンスは個々の辞書に準ずる
</p>
<ul>
<li>IPADIC
<li>JUMAN
<li>Canna (学習用コーパスが無いので作るかも?)
<li>中国語解析 (未定)
<li>英語解析 (未定)
</ul>
</ul>
</body>
</html>