목록통계학 (6)
개발 일지

*이산형- 셀 수 있다는 느낌이 강하지만 연속형은 세기보다는 측량에 적용할 수 있는 느낌이다. (ex. 농도, 소숫점 등) *연속형 확률변수- 동전과 앞면 뒷면, 주사위의 1~6값 등, 취할 수 있는 값이 연속적인 확률변수이다. (특정 값을 취하는 확률은 정의되지 않았고, 어느 '구간에 들어가는 확률'을 정의한다.) -1차원 연속형 확률변수 확률질량함수의 경우 주사위 눈 1이 취하는 확률- f(1)= p(x=1)= 1/6이었으나 확률밀도함수는 '구간'이다. 저 색칠된 구간, 면적은 적분된 값이다. (x0부터 x1사이의 x축과 y축의 작은 사각형들을 최대한 쪼갠 후 모두 더한 것) 확률밀도함수의 수식을 보면 f(x)*dx인데, f(x)는 y축이고 dx는 x축의 값들이다. (밑변x높이= 면적의 의미) 즉 특..

*이산형- 정수 1과 정수 2 사이에는 아무 숫자가 없다. (!= 연속형) - 확률 분포를 보기 위해서는 집합과 집합에 대한 확률질량함수(확률분포에 대한 정보를 담고 있는 함수)가 있으면 된다. *누적분포함수(분포함수): X가 x이하기 될 때의 확률을 반환하는 함수 ex. 눈이 3 이하가 되는 확률은? *기댓값: 확률변수의 평균 (평균과 유사하나 약간의 차이가 있다.) 확률변수를 몇 번이나(무제한) 시행하여 얻어진 실현값의 평균 (실제 시행!) 다만 무제한 시행할 수 없기 때문에 확률변수가 취할 수 있는 값과 확률의 곱의 총합 *참고- lambda 함수 (익명 함수) *분산 2차원 이산형 확률변수 *확률의 성질- X와 Y가 취할 수 있는 값의 집합 ex. x_set= np.arange(2, 13)/ 2부..

*추측 통계: 일부 데이터에서 전체의 통계적 성질을 추측하는 것 부분만을 보고 전체를 추측하는 것이 타당할까? 타당하다면 몇 퍼센트 정도일까? 20명을 뽑는 과정에서 편향은 발생하지 않았을까? 모집단 전체가 아닌 일부를 샘플(표본 집단)화하여 모집단(실세계의 결과)을 충분히 추측할 수 있는가? >근거를 가지고 검증할 수 있다. 1. 표본 추출 방법 (1)무작위 추출 (임의 추출, random)- 데이터가 균형있게 잘 섞여있나? 뽑을 수 있는 환경, 분석 대상/목표를 고려하였는가? -seed(0)인 무작위 추출은 매번 동일 결과 (seed- 시작 위치를 정해주는 것. 체크 포인트/ 변화를 줘야 잘 섞인다. 보통 시드값은 계속 변하는 현재 시각을 사용) -실행할 때마다 결과가 바뀌기 때문에 표본평균도 매번 ..

1. 상관계수 - 공분산의 단위는 이해하기 힘들기 때문에 단위에 의존하지 않는 상관을 나타내는 지표 - 공분산을 각 데이터의 표준편차로 나눠 단위에 의존하지 않는다. - 양의 상관은 1에 가깝고(완전 직선), 음의 상관은 -1에 가까워지며, 무상관은 0 *표준화, 정규화- 단위를 바꿔 보기 쉽게 한다. 한쪽이 튀지 않아 보기 편하게 해주는 것 - numpy의 corrcoef 함수 사용 - dataframe의 corr 메서드 사용 2. 산점도 3. 회귀직선 회귀는 예측(연속)과 연관이 깊다. 직선 그 자체를 찾아준다. (위의 데이터를 보면 영어 점수가 80점까지 있는데, 영어 점수 90이 주어졌을 때 수학 점수가 대강 얼마 정도 될지 예측할 수 있는 직선을 의미한다.- 회귀 방정식의 결과가 직선같이 나타날..

*범위 - 데이터 전체가 아닌 최댓값과 최솟값만을 이용하여 산포도 표현 - 전체 데이터 구간의 크기 *사분위 범위 - 상위수 %와 하위수 %에 위치하는 값의 차이 - IQR= Q3- Q1 pd.Series(data).describe() 함수를 사용하면 각종 지표를 확인할 수 있다. (분포를 한눈에 확인) 1. 표준화 - 상대적 결과는 상이하기 때문에 통일된 지표에 맞춰주는 변환 작업 (정규화) ex. 키(140~ 180)와 몸무게(50~ 100)간의 차이는 크지 않다. (키가 10cm 커질때 몸무게도 그에 비슷하게 늘어난다.) 다만 연봉의 차이는 결코 유사하지 않은 정도이다. - 표준화된 데이터는 표준화 변량, z점수/ 평균이 0, 표준편차가 1 2. 편찻값 - 평균이 50, 표준편차가 10이 되게끔 정..

*탐색적 데이터 분석: 실제 데이터를 ML 모델에 넣기 전에 데이터에 대해 알아가며 잘 분석하기 위한 사전 조사 1. pandas의 read_csv함수를 사용하여 읽어들이기 *DataFrame= 2차원 데이터를 담는 구조 (현존하는 대부분의 기본적 데이터 형식들. excel, csv 등... 도표 형식) ㄴ여기서 열을 추출하면 1차원 데이터 구조인 series 반환 shape함수- df의 크기를 찍어준다. ex: (10, 5) 이 때 데이터 개수 10(행, record)/ 변수 개수 5(열, column)이다. 통계학에서의 변수= 열을 의미한다. 하나의 스택을 의미 (변수들간의 관계를 정의할 수 있다.) *질적 변수- 선택이 필요하다. 종류를 구별하기 위한 변수 (ex. 1. 매우 좋음, 2. 좋음.....