- 경기도 민원들 중 중복 민원 여부를 판별하고, 개별 민원의 관련 부서를 추천하는 모델을 만들었습니다.
- '국민신문고'의 17,000개의 경기도 민원을 크롤링한 후, 자연어를 전처리, 형태소 분석 후 부서의 대표 키워드들과 비교해 코사인 유사도가 높은 부서를 추출했습니다.
[민원데이터] -- 중복 == 1 --> 형태소 분석(단어 출현 빈도수) --> 출현빈도수 n개 이상 추출 --> 향후 담당 부서 카테고리 뽑아내기 -- 중복 == 0 --> 카테고리 (이 경우에는 담당자가 직접 담당부서 이관) --> 민원text 형태소분석과 <부서>유사도 비교 --> 부서 할당
- 단계1. 민원data_crawling ( by bs4)
- 단계2. text_preprocessing (okt)
- 2-1. tokenize
- 2-2. remove stop words(불용어처리)
- 2-3. vectorizing(x1 : titles(embedded), x2:content(embedding),
- 중복(1 or 0) --> 분류 모델링 : 앙상블모델 이용( SVM, Naive baise.. 활용)
- 형태소 분석 : 단어 출현 빈도수
- 단어 출현 : n개 이상 선정
- n개 이상 출현단어 기준
- ex) <부서><단어>
- { '시청' : ['쓰레기', '부지 선정', ... ]} ; dict형
- 민원text 형태소 분석 vs <부서> 유사도
- top2 <부서> 선정
- 유사도 0.03미만 : <부서> 없음 or '기타'