김다영 | 정민지 | 최석민 |
---|---|---|
- 데이터 자세한 설명은 공개 불가
- test data 및 baseline code: here
- Pororo : 45.15 ~ 46.96
- 유니코드 제거
- 괄호 안 항목 제거 : 45.15
- KoBart : 36.40
- KoGPT2 : 39.28
- mt5 : 30.74
- Pororo
- Split 2: 30.81
- Split 3: 29.95
- ElasticSearch : 36.72
- 원본과 가장 유사도가 높은 요약문 선택
- 김다영:
- 정민지: 결국 Pororo-extractive를 생성모델이 이길 수 없던게 아쉬웠다. 생성모델 결과를 보니 반복, 그리고 깨지는 문장들이 꽤 있었는데 이러한 점 때문에 추출 기반 성능을 이기지 못했던 것 같다. 다음에는 KoBert를 이용한 추출을 시도해보고 싶고, 요약 task가 어렵다는 것을 깨달았다.
- 최석민: 지금까지 Extraction-based Model을 주로 사용했었는데 Generative model을 사용하면서 다양한 부분을 배울 수 있는 좋은 기회였던 것 같다. 다양한 시도 끝에 Pororo Extractive model을 이기지 못한게 아쉽긴 하지만 좋은 경험이었다.