약간 신경쓴 약관 : 약관 상세 분석 시스템
한국데이터산업진흥원 데이터 청년 캠퍼스
2023.06~2023.08
✨ KDATA 2023 데이터 청년인재 양성 사업 프로젝트 평가 우수상 ✨
📌 팀장
역할분담 및 회의 진행
프로젝트 발표
📌 웹 환경 구축
웹사이트 UI 구현 및 서버 연동
📌 인공지능
BERT를 활용한 약관 classification 모델 생성 및 최적화
PyTesseract API를 활용한 OCR 기능 구현
-
최근 사용자들이 약관을 읽지 않고 동의하는 경향이 있어, 기업들이 다크 넛지를 이용해 사용자들의 선택을 부정적인 결과로 이끄는 경우가 잇따라 발생함
-
복잡한 전문 용어가 포함된 약관으로 인해 일반 사용자들의 이해가 낮아지고 접근성이 떨어짐
-
조항별 유/불리 판단을 통해 이용자들이 서비스의 이득과 손해를 파악하고, 그에 따른 명확한 약관 이해하는 것를 도모하고자 함
-
유/불리 조항 요약을 통해 정보 손실을 최소화하며 누구나 쉽게 보기 좋은 문장으로 요약 과정을 진행하고자 함
-
약관 주제 분석 및 키워드 추출 기능을 통한 사용자의 빠르고 간단한 약관의 이해를 돕고자 함
-
중요 키워드, 유리/불리 여부 등 알아야 할 약관을 시각화함으로써 사용자의 약관 정독을 유도하고자 함
📌 약관 항목별 유리/불리 여부판단(BERT), 해당 항목 요약(pko-t5 with fine-tuning)
우측의 Output Component에서 『유리/불리 판단 및 요약 시스템』을 선택하였을 경우 수행
Ai hub의 약관 유리/불리 데이터를 활용하여 KoBert모델을 통해 조항의 유리/불리 여부를 얻음
이후 유리할 확률, 불리할 확률이 n% 이상일 경우, 해당 약관을 강조하고 요약을 수행한 후 정리된 내용을 Output Text Box에 출력
📌 약관 조항에 따른 주제 예측(TF-IDF), 해당 주제의 키워드 추출(Sentence-BERT)
우측의 Output Component에서 『키워드 분석 시스템』을 선택하였을 경우 수행
Ai hub의 약관 데이터를 활용하여 유사도가 높은 주제를 추출해내고, 해당 주제의 키워드를 추출하여 강조한 후 해당 키워드를 Output Text Box에 출력
📌 추출 내용 강조 시각화
좌측의 Input Component에서 시각화 수행
위 내용들의 Output으로 받은 조항을 검색하여 해당 내용들을 시각화
-
이미지 및 문서를 통한 약관의 분석을 수행하여 이를 시각화하는 웹 사이트를 구현할 수 있었음
-
이에 사용자의 권리 보호(불이익 최소화) 및 편의 증대를 얻을 수 있을 것으로 예상됨
📌 조항 유/불리 판단
문장 단위로 판단하는 만큼, 하나의 문장에 두가지 상반되는 내용이 존재할 경우 데이터가 많은 유리로 보이는 경향 존재하며 이를 개선하기 위한 추가적인 문자열 슬라이싱이 필요할 것으로 보임 (~하며, 또한 등)
📌 조항 요약
약관의 조항이다 보니 과도한 요약이 될 경우 정보를 손실할 수 있을 것으로 보여 문장의 가독성을 높이는 정도로 Pair Dataset을 꾸려 fine-tuning하였으나, 전문가의 견해를 얻어 약관이라는 조건에 맞는 충분한 양의 Pair Dataset을 구축한다면 웹 목적에 맞는 요약을 수행할 수 있을 것으로 보임
📌 키워드/타이틀 추출
추가적인 문맥의 고려 파악 및 상세한 불용어 처리 과정을 요함
📌 크롬 확장 프로그램
사용자들이 입력하지 않고 사이트에서 직접 활용할 수 있도록 크롬의 확장 프로그램으로 개발 및 배포한다면 목적에 맞게 활용할 수 있을 것으로 보임