개발 일지

[파이썬 통계학] 추측 통계의 기본 (모집단과 표본, 확률 모형, 확률) 본문

통계학

[파이썬 통계학] 추측 통계의 기본 (모집단과 표본, 확률 모형, 확률)

김개발8253 2021. 11. 8. 17:32

*추측 통계: 일부 데이터에서 전체의 통계적 성질을 추측하는 것

추측 통계의 예시

부분만을 보고 전체를 추측하는 것이 타당할까? 타당하다면 몇 퍼센트 정도일까? 20명을 뽑는 과정에서 편향은 발생하지 않았을까?

모집단 전체가 아닌 일부를 샘플(표본 집단)화하여 모집단(실세계의 결과)을 충분히 추측할 수 있는가?

>근거를 가지고 검증할 수 있다.

 

모집단과 표본

1. 표본 추출 방법

(1)무작위 추출 (임의 추출, random)- 데이터가 균형있게 잘 섞여있나? 뽑을 수 있는 환경, 분석 대상/목표를 고려하였는가?

-seed(0)인 무작위 추출은 매번 동일 결과 (seed- 시작 위치를 정해주는 것. 체크 포인트/ 변화를 줘야 잘 섞인다. 보통 시드값은 계속 변하는 현재 시각을 사용)

-실행할 때마다 결과가 바뀌기 때문에 표본평균도 매번 바뀐다.

 

(2)복원 추출- 몇 번이나 동일 표본을 선택하는 방법

(3)비복원 추출- 동일 표본은 한 번만 선택하는 방법 (*np.random.choice([1,2,3], 3, replace=False))

 

2. 확률

(1)확률- 무작위 추출과 같은 불확정성을 수반하는 현상을 해석하기 위한 것/ 통계는 오차의 과학

*확률 모형: 무작위 추출 혹은 주사위를 모델링

*확률변수: 결과를 알아맞힐 수는 없으나 취하는 값과 그 값이 나올 확률이 결정되어 있다. (주사위의 n눈이 나올 확률- 1/6)

*시행: 확률변수의 결과를 관측하는 것

*실현값: 시행에 의해 관측되는 값

 

*사건- 시행 결과로 나타날 수 있는 값 (눈이 1, 눈이 홀수)

-주사위의 눈은 확률 변수 X

-눈이 1이 되는 사건의 확률: P= 1/6

-눈이 홀수인 사건의 확률: P= 1/2, 50%

 

*근원 사건- 더 분해할 수 없는 사건 (눈이 1)

*상호배반- 동시에 일어날 수 없는 사건 (ex. '눈이 1또는 2'인 사건과 '눈이 6'인 사건/ 교집합이 없다.)

 

*확률분포- 확률변수가 어떻게 움직이는지를 나타낸 것 (나올 수 있는 확률이 정의된 것)

불공정한 주사위의 확률분포는 어떻게 될까? 주사위의 특정 숫자만 높게 혹은 낮게 나올 때. 결과가 1/6같이 균형있는 것이 아닌 상태.

불공정한 주사위를 만들어본다면?
결과. 도수와 상대도수를 보면 4와 6이 동일하게 많이나온 것을 확인할 수 있다.
100번 시행했을 때는 표본과 확률분포 간 차이가 보이는데, 10000번 시행했을 때는 실제의 확률분포에 가까워진다.

단 표본을 키우는 것은 비용과 시간이 많이 들어 힘들기 때문에 최소한의 표본을 가지고 모집단을 분석할 수 있어야 한다.

보통의 통계에서는 확률분포를 알지 못한 상태이고 그 표본이 얼마나 확률분포에 가까운지 역시 알 수 없는 상태이다.

표본평균은 모평균을 중심삼아 분포한다. (많이 시행하면 가까워지며, 표본평균은 확률상 모평균에 근사(중심에 있는 값)해서 나올 확률이 높다.)

 

Comments