통계학도감(1)

1 분 소요

  • 통계학도감(쿠리하라 신이치 저)을 보고 정리한 내용입니다.

0. 통계학이란?

  • 0.1 통계학이란
  • 0.2 통계학으로 할 수 있는 것

1. 기술통계학

  • 1.1 여러 가지 평균
  • 1.2 데이터의 분산1_분위수와 분산
  • 1.3 데이터의 분산2_변동계수
  • 1.4 변수의 관련성1_상관계수
  • 1.5 변수의 관련성2_순위상관

0. 통계학이란?

  • 0.1 통계학이란
    • 통계학은 데이터를 통계량(평균 등)이나 그림.표(시각화)로 정리하여 특징(패턴)을 파악하는 학문.
    • 통계학 종류
      • 기술통계학 : 수집된 데이터의 특징을 파악.
      • 추측통계학 : 배경에 있는 모집단의 특징을 표본으로 부터 파악.
        • 빈도로적 통계학 : 일반적인 통계
        • 베이즈통계학
  • 0.2 통계학으로 할 수 있는 것
    • 기술통계학
      • 데이터의 특징(평균과 분산)과 경향을 파악
      • 많은 데이터를 대상으로 한 통계학
      • 사용예
        • 인구조사정리(평균과 분산)
        • 식사량과 체중의 상관관계 분석(상관계수)
        • 한 반의 편차값 계산(포준화 변량)
        • 편의점 상품 구입 방법(빅데이터)
    • 추측통계학
      • 표본의 정보를 사용하여 모집단의 특성을 추측한다.
      • 불편추정, 신뢰구간 추정, 가설검정이 주요 내용.
      • 사용예
        • 보험사고 발생 횟수의 예측 (포아송 분포)
        • 선거속보, TV시청률 (신뢰구간의 추정)
        • 신약의 유효성 확인(두 집단의 평균 차이 검정)
        • 사료 첨가제의 결정(분산분석, 다중비교법)
        • 맛 관능시험 분석(비모수 통계)
    • 실험계획법
      • 실험을 성공시키기 위한 방법
      • 시간과 공간을 절약하는 방법
      • 사용예
        • 실험 순서와 배치(피셔의 3원칙)
        • 제품의 품질관리(직교계획법)
        • 피험자 수의 결정(검출력 분석)
    • 다중회귀분석. 다변량분석
      • 많은 변량을 한번에 처리하는 방법
      • 복잡한 문제를 단순한 모델로 받아들여, 예측하고 평가
      • 사용예
        • 중고차 매입 평가(중회귀분석)
        • 검사결과로 질환 진단(프로빗분석)
        • 기업의 경영진단(주성분분석)
        • 입사적성검사(인자분석)
        • 브랜드의 위치(코레스폰던스 분석)
    • 베이즈 통계학
      • 지식과 경험, 새로운 데이터를 유연하게 통합. -> 추상적인 설명이라서 부가설명 링크
      • 즉, 과거의 결과를 기반으로 분석 및 예측하는 통계학을 말함.
      • 사용예
        • 스팸 메일의 분석
        • 기계번역
        • 로그 분석(마케팅)

1. 기술통계학

  • 1.1 여러 가지 평균 (아래 궁금한 내용을 정리하면서 자세한 내용 덧붙임)
    • 산술평균 img
    • 기하평균 img
    • 조화평균 img
  • 1.2 데이터의 분산1_분위수와 분산
    • 분위수
      • N개의 데이터를 오름차순 정렬하고 K등분으로 했을 때, 그 경계가 된 수치를 분위수라고 한다.
      • 보통 k=4인 분위수를 사용함. 여기서 제2사분위수는 중앙값이라고함
      • 데이터가 중앙값 주위에 집중할수록 사분위 범위가 작아짐
    • 편차deviation
      • 데이터값과 평균값의 차.
    • 분산variation
      • 편차의 제곱값
    • 이상치outliar
      • 데이터의 평균에서 멀리 떨어져 있는 값(설명이 부족해서 하단에 추가정리)
  • 1.3 데이터의 분산2_변동계수
    • 두개의 데이터가 흩어진 정도를 비교하는 값. img
  • 1.4 변수의 관련성1_상관계수 img
  • 1.5 변수의 관련성2_순위상관 img img

스터디하면서 궁금헀던 내용 정리

  • Q. 이상치는 평균에서 얼마나 떨어져 있는 값이라 할 수 있을까?
    • A. ‘5xIQR’ 을 주로 사용. 상한 이상치, 하한 이상치. 링크

    Q. statistics, statistic의 차이

    • A. 링크
    • statistic은 표본의 일부 속성에 대한 단일 척도.
    • statistics은 자료의 수집, 조직, 분석, 해석 및 표시에 대한 연구다.
    • 위는 우리가 흔히 말하는 통계량, 아래는 학문이다.

    Q. 기하평균, 조화평균의 유래

    • A. 기하평균과 조화평균의 개념 설명링크1
    • A. 용어는 잘쓰지 않지만, 연성장률 지표라든가 투자분야에서 기하평균은 정말 중요한 개념. (복리의 법칙) 링크2

    Q. 빈도론적 통계학이란?

    Q. 변동계수가 시계열에서도 동일하게 적용되는가?

    • 월/일 마다 변동계수의 흐름

    Q. 순위상관계수

(EOD)

카테고리:

업데이트: