Skip to content

jae1jeong/Statistics

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 

Repository files navigation

Statistics

통계학은 기술 통계학, 추측 통계학, 베이즈 통계학으로 나뉜다.

  • 모든 데이터를 조사 그래프화, 평균, 분산하는 기술 통계학
  • 2개 이상의 변량 데이터를 다루는 다변량분석 (회귀분석, 인자분석, 주성분분석, 판별분석, 클러스터분석, 수량화 이론)
  • 일부 표본을 이용하여 추측 정규분포곡선을 자주 사용(추정->가설검정)하는 추측 통계학
  • 주관적 확률, 인간의 경험도 사용하는 베이즈 통계학 (베이즈 확률, 베이즈 추론, 베이즈 결정)
'Garbage in Garbage out' 쓰레기 데이터에서는 쓰레기와 같은 결과만 나온다. 의미 없는 데이터는 분석해도 전혀 도움이 되지 않는다.

기술 통계학

  1. 대상이 되는 '집단'이 하급이나 회사와 같이 비교적 작고 전체 데이터를 모으기 쉽다.
  2. 해당 데이터를 이용하여 그래프를 만들고 데이터를 시각화(기술)한다.

세 종류의 대푯값

  • 평균

전체의 수를 더하고 이를 데이터 수로 나눈 값, 데이터 전체의 중심에 해당

  • 중앙값

데이터를 작은 값부터 순서대로 나열했을 때 한가운데 위치에 있는 값

  • 최빈값

데이터 중에서 가장 많이 나타나는 값

산포도

데이터의 폭이나 흩어짐의 상태

  1. 분산(표준편차)

데이터의 흩어짐 정도를 나타내는 값 중 하나, 분산(variance)과 표준편차(stand-and deviation)는 원래 같은 내용이므로 거의 동의어로 사용함(값은 다름)

  1. 사분위범위

1/4 위치에 있는 값인 제1 사분위수(25번째 백분위수), 3/4 위치에 있는 값인 제3 사분위수(75번쨰 백분위수)까지의 폭을 말함, 중심 근처의 데이터 흩어짐 정도를 보는 지표, 덧붙여 제2 사분위수는 중앙값과 같다(유의어 IQR )

  1. 범위

데이터가 위치하는 폭(최대-최소)을 나타내는 값

추측 통계학

  • 엄청나게 큰 데이터(모집단)이라면 모든 데이터를 얻지 못할 수도 있다. 이럴 때 강력한 도구가 추측 통계학이다.

가설검정

  1. 거짓이라 생각하는 가설을 일부러 세움.
  2. 데이터를 이용하여 거짓이라 생각하는 가설을 판단/기각
  • 모집단

대상이 되는 모든 데이터를 통계학에서는 모집단 이라고 부른다.

  • 표본

모집단에서 뽑은 샘플데이터를 표본 이라 부른다.

  • 추정

소수의 표본 데이터에서 전체 집단(모집단)의 특징을 추측

  • 가설검증(검증)

전체 집단에 대해, 특정 가설의 검정을 일정 확률로 검정

다중응답과 단일응답

다섯 개의 선택지가 있는 설문이 있다고 할 떄 '하나만 선택'하는 것을 단일응답방식이라고 한다.
다중응답 설문에서는 원그래프 사용 금지, 막대 그래프 사용

다변량분석

2변량(변수) 이상을 다루는 분야

연속량 데이터와 비연속량 데이터

  • 연속량 데이터

두 값 사이에 무수히 많은 값으로 이루어진 이어진 점으로 표현할 수 있는 아날로그식 데이터

  • 구분법
  • 연속량, 비연속량 구분은 소수점 이하 인 수치가 있는지 없는지로 판단.
  • 비연속량 데이터

서로 이어지지 않고 띄엄띄엄 흩어진 수인 이산 데이터

척도로 데이터 분류

  • 데이터는 질적 데이터와 양적 데이터로 나뉜다.
  • 질적 데이터
  1. 명목척도: 수치 데이터를 부여하여 통계적으로 처리 ex) 성별, 주소, 혈액형, 찬반 (최빈값만 사용)
  2. 서열척도: 순서에 따라 우열 또는 크고 작음의 순서를 알 수 있는 데이터 ex) 성적순(1등,2등..),평가(좋고 싫음) 등 (중앙값, 최빈값 사용가능)
  • 양적 데이터
  1. 등간척도: 온도계의 온도와 같이 각각의 눈금 간격이 같은 데이터를 말함. ex) 체온, 기온, 득점 등
  2. 비율척도: 4가지 척도 중에 가장 다루기 쉬운 데이터 ex) 키, 몸무게, 돈, 시간 수입, 연령 등

4 > 3 > 2 > 1로 4가 통계에서 가장 사용하기 쉽다.

원그래프 피하기

  • 원그래프는 기업의 프레젠테이션 장면에서 흔히 볼 수 있지만, 원그래프는 크기 비교도 안 되고 시간에 따른 변화도 나타낼 수 없으며 자의적인 조작도 들어가기 쉬운 그래프이다.

평균과 분산 이해하기

대푯값(평균값)

  • 평균은 특잇값에 약하다. 대푯값은 데이터 전체의 특성을 파악하는 중요한 지표이지만, 대푯값만으로 데이터의 특성을 온전히 파악할 수는 없다.

중앙값

데이터를 작은 순서(또는 큰 순서)로 나열했을 때 가장 가운데 위치에 있는 수치를 말한다. 특잇값이 있더라도 평균과 같이 크게 흔들리는 일이 없어서, 중앙값은 강건한 대표값이라고도 한다.

최빈값

인기투표로 말하자면 가장 표를 많이 받은 사람으로, 최빈도값, 모드, 유행값 등으로도 표현한다.

평균, 중앙값, 최빈값의 위치 관계

  • 평균을 대푯값으로 사용하는 것이 편리한데 그 이유는 분산(표준편차와 같은 의미)과의 궁합이 아주 좋기 때문이다.

히스토그램에서 유형

1. 산형(종형)

몸무게나 키와 같은 다수의 "연속형 데이터"에서 볼 수 있는 패턴. 단봉형이라고도 함.

2. 지수형

제품별 판매순위, 신제품 고장(불만)의 시간적 경위 등에서 자주 발견됨.

3. 쌍봉형

산(봉)이 2개인 쌍봉형 패턴, 이런 그래프가 나타날 경우 데이터를 재확인할지 검토 필요. 서로 다른 종류의 데이터가 섞인 것일 수도 있음.

표본을 이용하여 모집단의 특징 추정하기


추정
'원래 집단'의 평균, 분산 또는 비율
중심 극한 정리
동일한 확률 분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.
평균, 분산, 표준편차에도 2가지가 있다.

원래 집단은 보통 모집단 이라고 부르며 이 모집단에서 샘플을 통해 수집한 데이터를 표본 이라고 함.

모집단

(모)평균, (모)분산, (모)표준편차

표본

표본평균, 표본분산, 불편분산, 표본표준편차

표본평균의 분포
  1. 표본평균 -X(엑스바)의 분포 평균은 모집단의 평균과 일치한다.
  2. 표본평균 -X의 분포 분산은 n/o**(루트n/o(표준편차))가 된다.
  3. 모집단의 분포가 어떠하든 표본 수 n이 커질수록 표본평균 -X의 분포는 정규분포에 가까워진다.

About

딥러닝을 위한 기초 통계학

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published