본문 바로가기

이론/밑바닥부터 시작하는 데이터 과학

6장.확률

< 확률 질량 함수 >

: 이산확률변수 X 분포

: 함수값 -> 확률

 

< 확률 밀도 함수 >

: 연속확률변수 X 분포

: 함수의 넓이 -> 확률

 

< 이산형 분포 >

: 변량 X의 값이 불연속적인 값을 가지는 것.

 

< 균등 분포 >

: 0과 1 사이의 모든 값에 동등한 비중을 준 분포.

: 숫자 하나의 비중은 0 > 확률 밀도 함수로 연속 분포를 표현.

- 균등 분포의 확률 밀도 함수

def uniform_pdf(x:float) -> float:
  return 1 if 0 <= 1 else 0
 
< 누적 분포 함수 >
: 확률변수의 값이 특정 값보다 작거나 클 확률
 
def uniform_cdf(x: float) -> float:
  """균등 분포를 따르는 확률변수의 값이 x보다 작거나 같은 확률을 반환"""
  if x<0:
    return 0 #균등 분포의 확률은 절대로 0보다 작을 수 없다.
  elif x<1:
    return x #예시: P(X <= 0.4) = 0.4
  else:
    return 1 #균등 분포의 확률은 항상 1보다 작다.

< 정규 분포 >

: 평균(mu, 종의 중심) 과 표준편차(sigma, 종의 폭이 얼마나 넓은지)의 두 파라미터로 정의된다.

import math
SQRT_TWO_PI = math.sqrt(2*math.pi)

def normal_pdf(x: float, mu: float = 0, sigma: float = 1) -> float:
  return (math.exp(-(x-mu) ** 2 /2 /sigma ** 2)  / (SQRT_TWO_PI * sigma))
 
< 표준 정규 분포 >
: mu = 0 이고 sigma = 1인 정규분포
 
+ X = sigma*Z(확률변수) + mu (평균이 mu이고 표준편차가 sigma인 정규 분포)
+ Z = (X - mu) / sigma (표준정기분포)
 
< 정규 분포의 누적 분포 함수 >
 
- math.erf
: 오차함수는 정규 분포 누적분포함수와 본질적으로 동일
 
 

누적 분포 함수 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 확률론에서 누적분포함수(累積分布函數, 영어: cumulative distribution function, 약자 cdf)는 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수이다.

ko.wikipedia.org

 - code

def normal_cdf(x: float, mu: float = 0, sigma: float = 1) -> float:
  return (1 + math.erf((x-mu) /math.sqrt(2) / sigma)) / 2