- 하나의 .ipynb 파일로 만들어서 자신의 깃헙에 게시할 것!
- 1 ~ 5번 문제당 10점, 6번 50점.
- 주석 및 마크다운 잘 달아줄 것.
- 문제를 못 푼경우 주석을 통해서 자신이 왜 못풀겠는지 상세하게 달면 일부 정답 인정
- 답안 파일을 자신의 개인 레포지토리에 업로드 할 것!
- 여러분은 A사의 데이터 애널리스트로서, A사 음식점의 매출 데이터를 전달받아 EDA를 진행하려고 한다.
- 데이터는 아래와 같이 받을 수 있으며 total_bill(계산금액), tip(팁 금액), sex(계산자 성별), smoker(테이블에 흡연자 포함여부), day(요일), time(시간대), size(테이블 인원 수)로 구성되어 있다.
import seaborn as sns tips_dataframe = sns.load_dataset("tips")
- 데이터의 정보와 요약통계를 확인하라. (Head&Tail, 데이터 타입, Row&Columns 수, Std, Mean, NaN 수 등등 다다익선)
- 계산 금액과 팁 금액 사이에 어떠한 상관 관계가 있을 것 같다. 두 변수의 관계를 시각화하여 나타내고, 선형적 관계가 보이는지 회귀선까지 그어서 표시해라.
- 요일별로 팁의 발생 횟수가 어떻게 다른지를 시각화해서 나타내어 보아라. (Countplot 활용)
- 요일별 계산금액의 통계적 분포를 한눈에 보고싶다. 시각화해서 나타내어 보아라.
- 계산자의 성별에 따라서 테이블 인원수, 팁 금액, 계산금액이 어떠한 관계가 있는지 한눈에 알 수 있도록 시각화하라.
- 추가적인 EDA를 진행할 수 있다면 진행하고, 얻어낸 Insight로 음식점의 매출액 혹은 팁 금액을 증대시키기 위한 방안을 제시하라.