Skip to content

quarter-100/text-summarization-bakbak

 
 

Repository files navigation

image


🤟 팀원

김다영 정민지 최석민

📚 Data

  • 데이터 자세한 설명은 공개 불가
  • test data 및 baseline code: here

🔍 Solution

Extractive

  • Pororo : 45.15 ~ 46.96
    • 유니코드 제거
    • 괄호 안 항목 제거 : 45.15

Abstractive

  • KoBart : 36.40
  • KoGPT2 : 39.28
  • mt5 : 30.74
  • Pororo
    • Split 2: 30.81
    • Split 3: 29.95

Ensemble

  • ElasticSearch : 36.72
    • 원본과 가장 유사도가 높은 요약문 선택

🌟 순위

  • 5등 image

🔥 느낀점

  • 김다영:
  • 정민지: 결국 Pororo-extractive를 생성모델이 이길 수 없던게 아쉬웠다. 생성모델 결과를 보니 반복, 그리고 깨지는 문장들이 꽤 있었는데 이러한 점 때문에 추출 기반 성능을 이기지 못했던 것 같다. 다음에는 KoBert를 이용한 추출을 시도해보고 싶고, 요약 task가 어렵다는 것을 깨달았다.
  • 최석민: 지금까지 Extraction-based Model을 주로 사용했었는데 Generative model을 사용하면서 다양한 부분을 배울 수 있는 좋은 기회였던 것 같다. 다양한 시도 끝에 Pororo Extractive model을 이기지 못한게 아쉽긴 하지만 좋은 경험이었다.

About

AI 텍스트 요약 알고리즘 개발 대회

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 87.9%
  • Python 12.1%