-
Notifications
You must be signed in to change notification settings - Fork 18
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
데이터 오류 #2
Comments
안녕하세요 한국해양대학교 자연언어처리연구실입니다. 위의 오류를 인지하고 있으며 이후에 음절과 형태소 별로 따로 올리도록 하겠습니다. 이 이슈는 다른사람이 보면 좋을 것 같아서 오픈해놓도록하겠습니다. 이후에 음절과 형태소 별로 올리면 이 이슈는 닫도록하겠습니다. 감사합니다. |
https://github.com/eagle705/pytorch-bert-crf-ner https://github.com/dsindex/ntagger#requirements 이렇게 만든 데이터를 대상으로 NER 모델을 학습/평가한 결과는 아래와 같습니다.
<참고> NAVER NER 2019 결과
|
안녕하세요. 저희 말뭉치를 형태소 단위로 교정/변환하는 데 관심을 가져주셔서 감사합니다. 현재 실험실 내부에서도 해당 이슈와 관련하여 음절 및 형태소 단위의 말뭉치를 정제하고 있습니다. 또한, 향후 실험실에서 공개적으로 훈련/평가/검증 말뭉치를 분할하여 배포할 계획이며, 다시 한번 KMOU 개체명 말뭉치와 변환 스크립트 작성에 관심을 가져 주셔서 감사합니다. |
데이터를 보면 두번째, 세번째 필드에 오류가 있는 경우가 있습니다.
세번째 tags 필드의 시작이 '+'인 경우에 태그가 빠져있어서 살펴보니,
대략 아래와 같은 규칙으로 교정이 가능해보였습니다.
The text was updated successfully, but these errors were encountered: