본문 바로가기
수학/통계학

이변량 분포: 이산형 이변량 분포, 상관계수, 조건부 분포이변량 분포: 이산형 이변량 분포, 상관계수, 조건부 분포

by Cyber_ 2024. 10. 3.

이산형 이변량 분포

정의

정의 1-1
X와 Y를 이산형 확률공간에서 정의된 2개의 확률변수라고 하고, X와 Y에 대응하는 2차원 공간을 S라고 하자. X=x, Y=y인 확률을 f(x,y) = P(X = x, Y = y)라 하면, f(x, y)는 X와 Y의 결합확률질량함수(joint probalbility mass function, joint pmf)라고 하고 다음과 같은 성질을 갖는다.
(a) $0 \le f(x, y) \le 1$
(b) $\sum\sum_{(x,y) \in S} f(x,y) = 1$
(c) $P[(X, Y) \in A] = \sum\sum_{(x,y) \in A} f(x,y)$, 여기서 A는 공간 S의 부분집합니다.

정의 1-2
X,Y가 공간 S에서 결합 pmf f(x,y)를 가질 때 X만의 pmf 또는 Y만의 pmf를 각각 X 또는 Y의 주변 확률질량함수(marginal probability mass function)라고 하고 각각 다음과 같이 정의한다.
$$ f_x(X) = \sum_{y} f(x,y) = P(X = x), x \in S_x $$
$$ f_y(Y) = \sum_{x} f(x,y) = P(y = y), y \in S_y $$
그리고, 확률변수 X,Y가 독립(independent)이기 위한 필요충분조건은 다음과 같다.
$$ f(x,y) = f_x(x)f_y(y), x \in S_x, y \in S_y$$
그렇지 않으면 X,Y는 종속(dependent)이라고 한다.

상관계수

상관계수는 두 변수 간의 선형 관계의 강도와 방향을 측정하는 통계적 지표입니다. 가장 흔히 사용되는 상관계수는 피어슨 상관계수(Pearson correlation coefficient)이며, 이 값은 -1에서 +1 사이의 값을 가집니다.

  • +1은 완벽한 양의 선형 관계를 의미합니다. 한 변수가 증가할 때 다른 변수도 비례하여 증가합니다.
  • 0은 두 변수 간에 선형 관계가 없음을 의미합니다.
  • -1은 완벽한 음의 선형 관계를 의미합니다. 한 변수가 증가할 때 다른 변수는 비례하여 감소합니다.

예시

예를 들어, 한 수학 성적과 과학 성적 간의 상관계수를 계산했다고 가정해 보겠습니다. 만약 상관계수가 +0.8이라면, 이는 두 과목의 성적 사이에 강한 양의 선형 관계가 있음을 나타냅니다. 즉, 수학 성적이 높은 학생들은 과학 성적도 높을 경향이 있습니다.

조건부 분포

조건부 분포는 어떤 사건이 발생했다는 조건 하에 다른 사건의 분포를 설명합니다. 이는 확률변수 X의 분포가 다른 확률변수 Y의 값에 따라 어떻게 달라지는지를 보여줍니다.

예시

예를 들어, "비가 오는 날의 교통사고 발생률"을 조사하는 경우, 교통사고 발생률의 조건부 분포는 비가 오는 날과 그렇지 않은 날을 구분하여 분석할 수 있습니다. 만약 비가 올 때 교통사고가 더 자주 발생한다면, 이는 비가 올 때의 조건부 분포가 비가 오지 않을 때의 분포와 다르게 나타납니다.

계산 방법

조건부 확률분포는 주로 조건부 확률을 통해 계산됩니다. 예를 들어, P(A|B)는 사간 B가 일어났을 때 사건 A가 일어날 확률을 의미합니다. 이를 통해 변수들 간의 관계를 더 잘 이해할 수 있습니다.