Skip to content

경기도 17,000개의 민원의 중복 민원 여부 판별 및 관련 부서 추천 모델 프로젝트

Notifications You must be signed in to change notification settings

ohjiae/Gyeonggi-do_Civil_Complaints_board_Analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

경기도 중복 민원 판별 및 부서 분류 모델

프로젝트 설명

  • 경기도 민원들 중 중복 민원 여부를 판별하고, 개별 민원의 관련 부서를 추천하는 모델을 만들었습니다.
  • '국민신문고'의 17,000개의 경기도 민원을 크롤링한 후, 자연어를 전처리, 형태소 분석 후 부서의 대표 키워드들과 비교해 코사인 유사도가 높은 부서를 추출했습니다.

분류 과정

[민원데이터] -- 중복 == 1 --> 형태소 분석(단어 출현 빈도수) --> 출현빈도수 n개 이상 추출 --> 향후 담당 부서 카테고리 뽑아내기 -- 중복 == 0 --> 카테고리 (이 경우에는 담당자가 직접 담당부서 이관) --> 민원text 형태소분석과 <부서>유사도 비교 --> 부서 할당

chap01

  • 단계1. 민원data_crawling ( by bs4)
  • 단계2. text_preprocessing (okt)
  • 2-1. tokenize
  • 2-2. remove stop words(불용어처리)
  • 2-3. vectorizing(x1 : titles(embedded), x2:content(embedding),

chap02

단계0

  • 중복(1 or 0) --> 분류 모델링 : 앙상블모델 이용( SVM, Naive baise.. 활용)

단계1. 중복==1

  • 형태소 분석 : 단어 출현 빈도수
  • 단어 출현 : n개 이상 선정

단계2. 이관부서 카테고리 분류 (수작업)

  • n개 이상 출현단어 기준
  • ex) <부서><단어>
  • { '시청' : ['쓰레기', '부지 선정', ... ]} ; dict형

단계3. 민원 text <---> 부서 유사도

  • 민원text 형태소 분석 vs <부서> 유사도
  • top2 <부서> 선정
  • 유사도 0.03미만 : <부서> 없음 or '기타'

About

경기도 17,000개의 민원의 중복 민원 여부 판별 및 관련 부서 추천 모델 프로젝트

Topics

Resources

Stars

Watchers

Forks

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •  

Languages