통계학도감(1)
- 통계학도감(쿠리하라 신이치 저)을 보고 정리한 내용입니다.
0. 통계학이란?
- 0.1 통계학이란
- 0.2 통계학으로 할 수 있는 것
1. 기술통계학
- 1.1 여러 가지 평균
- 1.2 데이터의 분산1_분위수와 분산
- 1.3 데이터의 분산2_변동계수
- 1.4 변수의 관련성1_상관계수
- 1.5 변수의 관련성2_순위상관
0. 통계학이란?
- 0.1 통계학이란
- 통계학은 데이터를
통계량(평균 등)
이나그림.표(시각화)
로 정리하여특징(패턴)
을 파악하는 학문. - 통계학 종류
- 기술통계학 : 수집된 데이터의 특징을 파악.
- 추측통계학 : 배경에 있는 모집단의 특징을 표본으로 부터 파악.
- 빈도로적 통계학 : 일반적인 통계
- 베이즈통계학
- 통계학은 데이터를
- 0.2 통계학으로 할 수 있는 것
- 기술통계학
- 데이터의 특징(평균과 분산)과 경향을 파악
- 많은 데이터를 대상으로 한 통계학
- 사용예
- 인구조사정리(평균과 분산)
- 식사량과 체중의 상관관계 분석(상관계수)
- 한 반의 편차값 계산(포준화 변량)
- 편의점 상품 구입 방법(빅데이터)
- 추측통계학
- 표본의 정보를 사용하여 모집단의 특성을 추측한다.
- 불편추정, 신뢰구간 추정, 가설검정이 주요 내용.
- 사용예
- 보험사고 발생 횟수의 예측 (포아송 분포)
- 선거속보, TV시청률 (신뢰구간의 추정)
- 신약의 유효성 확인(두 집단의 평균 차이 검정)
- 사료 첨가제의 결정(분산분석, 다중비교법)
- 맛 관능시험 분석(비모수 통계)
- 실험계획법
- 실험을 성공시키기 위한 방법
- 시간과 공간을 절약하는 방법
- 사용예
- 실험 순서와 배치(피셔의 3원칙)
- 제품의 품질관리(직교계획법)
- 피험자 수의 결정(검출력 분석)
- 다중회귀분석. 다변량분석
- 많은 변량을 한번에 처리하는 방법
- 복잡한 문제를 단순한 모델로 받아들여, 예측하고 평가
- 사용예
- 중고차 매입 평가(중회귀분석)
- 검사결과로 질환 진단(프로빗분석)
- 기업의 경영진단(주성분분석)
- 입사적성검사(인자분석)
- 브랜드의 위치(코레스폰던스 분석)
- 베이즈 통계학
- 지식과 경험, 새로운 데이터를 유연하게 통합. -> 추상적인 설명이라서 부가설명 링크
- 즉, 과거의 결과를 기반으로 분석 및 예측하는 통계학을 말함.
- 사용예
- 스팸 메일의 분석
- 기계번역
- 로그 분석(마케팅)
- 기술통계학
1. 기술통계학
- 1.1 여러 가지 평균 (아래 궁금한 내용을 정리하면서 자세한 내용 덧붙임)
- 산술평균
- 기하평균
- 조화평균
- 1.2 데이터의 분산1_분위수와 분산
- 분위수
- N개의 데이터를 오름차순 정렬하고 K등분으로 했을 때, 그 경계가 된 수치를
분위수
라고 한다. - 보통 k=4인 분위수를 사용함. 여기서 제2사분위수는 중앙값이라고함
- 데이터가 중앙값 주위에 집중할수록 사분위 범위가 작아짐
- N개의 데이터를 오름차순 정렬하고 K등분으로 했을 때, 그 경계가 된 수치를
- 편차deviation
- 데이터값과 평균값의 차.
- 분산variation
- 편차의 제곱값
- 이상치outliar
- 데이터의 평균에서 멀리 떨어져 있는 값(설명이 부족해서 하단에 추가정리)
- 분위수
- 1.3 데이터의 분산2_변동계수
- 두개의 데이터가 흩어진 정도를 비교하는 값.
- 1.4 변수의 관련성1_상관계수
- 1.5 변수의 관련성2_순위상관
스터디하면서 궁금헀던 내용 정리
- Q. 이상치는 평균에서 얼마나 떨어져 있는 값이라 할 수 있을까?
- A. ‘5xIQR’ 을 주로 사용. 상한 이상치, 하한 이상치. 링크
Q. statistics, statistic의 차이
- A. 링크
- statistic은 표본의 일부 속성에 대한
단일 척도
. - statistics은 자료의 수집, 조직, 분석, 해석 및 표시에 대한
연구
다. - 위는 우리가 흔히 말하는 통계량, 아래는 학문이다.
Q. 기하평균, 조화평균의 유래
Q. 빈도론적 통계학이란?
Q. 변동계수가 시계열에서도 동일하게 적용되는가?
- 월/일 마다 변동계수의 흐름
Q. 순위상관계수
(EOD)