본문 바로가기
수학/통계학

연속형 분포, 연속형 확률변수

by Cyber_ 2024. 9. 24.

확률 밀도 함수

확률밀도함수는 연속형 확률변수의 분포를 설명하는 함수입니다. 이 함수는 특정 값에 대한 확률이 아닌 값의 밀도를 나타냅니다. 연속형 확률 변수의 경우 특정 값에서의 확률은 0 이지만, 확률밀도함수를 특정구간에 대해 적분하면 그 구간에서 변수가 취할 확률을 구할 수 있습니다.

확률변수 X의 구간 [a, b] $-\infty < a < b < \infty$로 부터 임의로 선택되는 하나의 점의 위치를 나타낸다고 하자. 이 실험이 공정하게 진행된다면, 하나의 점이 구간 [a,x], $a \le x \le b$로부터 선택될 확률은 (x - a)/(b - a)이다. 확률은 구간의 길이에 비례하므로 X의 cdf는 다음과 같다.

$$ F(x) = \int_{-\infty}^{x} f(y)dy $$

여기서

$$ f(x) = \frac{1}{b-a}, a \le x \le b $$

그리고 그 외의 곳에서는 0이다. 즉 F'(x) = f(x)이고 f(x)를 X의 확률밀도함수(proba-bility density function)라고 하며 X의 pdf로 간단히 표기한다.

누적분포함수

누적분포함수는 변수의 값이 특정 값 이하가 될 확률을 나타냅니다. 이 함수는 확률 밀도함수를 $-\infty$부터 특정 값까지 적분하여 얻을 수 있습니다. CDF는 항상 0에서 1사이의 값을 가지며, 값의 증가에 따라 단조증가하는 형태를 띕니다.

$$ F(x) = P(X \le x) = \int_{-\infty}^{x} f(t)dt, -\infty < x < \infty $$

기댓값과 분산

연속형 확률변수의 기댓값은 확률밀도함수와 변수의 값을 곱한 후 전체범위에 대해 적분하여 계산합니다. 분산은 기댓값을 중심으로 각 값의 제곱에 대한 기댓값과 기댓값의 제곱의 차이로 계산됩니다. 이는 변수 값의 분포가 평균 주위로 얼마나 퍼져 있는지를 나타내는 척도입니다.