- 모수가 뭡니까??
통계학에서 모수는 모집단의 특성을 나타내는 수치적인 값입니다. 모집단(population)이란 조사 대상이 되는 전체 집단을 의미하며, 모수는 이 모집단에서 추출한 표본으로부터 계산된 통계량(statistic)의 분포를 결정하는 값입니다.
예를 들어, 어떤 특성에 대해 전체 인구를 조사하고 그 결과를 사용하여 평균값, 분산, 표준편차 등의 통계량을 계산할 수 있습니다. 이때 이 통계량을 계산하는 데 사용된 전체 모집단의 특성을 나타내는 값이 바로 모수입니다.
일반적으로 모수는 대문자로 표기하며, 평균을 나타내는 μ, 분산을 나타내는 σ², 표준편차를 나타내는 σ 등이 대표적인 모수입니다.
그러나 모집단의 평균 분산을 아는 것은 쉬운일이 아니다. 알려고 전수조사를 하면 비용이나 시간 측면에서도 낭비가 엄청 날 것이다. 따라서 다른 방법 을 이용해야 하는데 보통 유한의 데이터를 알아내서 근사적으로 추정하는 방법을 사용한다.
- 통계학에서 모수적 방법론(parametric methods)과 비모수적 방법론(non-parametric methods)은 데이터 분석에 있어서 사용되는 두 가지 주요한 접근 방법입니다.
모수적 방법론은 모집단의 분포가 어떤 형태인지 가정하고, 이 가정을 기반으로 하여 모집단의 모수(평균, 분산, 상관관계 등)를 추정하는 방법입니다. 이 방법은 모집단이 정규분포와 같은 특정한 분포를 따른다는 가정을 전제로 하기 때문에, 적은 수의 표본으로부터도 모집단의 특성을 추정할 수 있어서 효율적이고 정확한 추정이 가능합니다. 대표적인 모수적 방법론으로는 t-검정, 분산분석, 회귀분석 등이 있습니다.
반면에, 비모수적 방법론은 모집단의 분포에 대한 가정을 하지 않고, 표본의 순위나 차이 등에 대한 분포만을 이용하여 모집단의 특성을 추정하는 방법입니다. 이 방법은 모집단의 분포에 대한 가정이 필요 없기 때문에 데이터의 특성에 덜 민감하며, 정규분포와 같은 특정한 분포를 따르지 않는 경우에도 적용이 가능합니다. 대표적인 비모수적 방법론으로는 Wilcoxon 순위합 검정, Kruskal-Wallis 검정, Mann-Whitney U 검정 등이 있습니다.
- 최대 가능도 추정법
가능도 함수
가능도 함수에서 알 수 있는 것은 관찰된 데이터 x 로부터 모수(theta)를 이끌어 낸다는 것이다.
가능도 함수에서 변수는 theta이다. x가 아니다. x는 고정되어있고 theta값을 바꿔가며 가능도 함수의 함숫값이 나오게 된다.
즉, 가능도 함수에서 함숫값이 높게 나온 다는 것은 해당 값을 만든 theta 가 모수일 확률이 높다는 것을 나타낸다. 이러한 값은 수집한 데이터로부터 추정한다.
이것을 확률 밀도함수의 관점에서 해석한다면 오른쪽의 식처럼 나타낼 수 있다.
확률분포에서 관찰된 데이터 x들은 서로 독립적인 값들이다. 따라서 가능도 함수 는 아래 처럼 나타낼 수 있다.
이 식에서위 식은 곱셈으로 나타내어 지는데 곱셈은 컴퓨터가 계산하기 힘들다. 따라서 log를 취해주어 덧셈으로 바꾼다. 그러면 식은 아래와 같이 바뀐다. 이식은 log likelihood function 이라고 한다.
위에서도 말했듯이 이러한 함숫값을 최대로 만드는 theta를 찾으면 되기 때문에 아래 식으로 표현할 수 있다.
최대가능도 추정법은 위식을 최대로 만들어주는 theta를 찾는 과정이라고 할 수 있다.
함수의 최댓값을 찾는 것은 고등학교 시간에 배웠었다. 바로 미분값을 취해준 후 그 식이 0일 때의 값이 최대로 만들어주는 theta라고 할 수 있다.
여기서 theta란 다시 한번 말하지만 모수이다.(평균, 분산, 표준편차 등등이 올 수 있다.)
따라서 theta가 여러개가 될 수 있기 때문에 여러개라면 편미분을 통해 각각 최댓값을 만들어주는 theta들을 찾아줘야 한다.
- 확률 분포의 거리를 구하는 방법
- 총변동거리(Total Variation Distance, TV)
- 쿨백-라이블러 발산(Kullback-Leibler Divergence, KL)
- 바슈타인 거리(Wasserstein Distance)
쿨백 - 라이블러 발산
쿨백-라이블러 발산(Kullback-Leibler Divergence, KL Divergence)은 확률 분포 간의 차이를 측정하는 지표입니다.
KL 발산은 두 개의 확률 분포 P와 Q가 주어졌을 때, P와 Q가 얼마나 다른지 측정합니다. 이를 수식으로 나타내면 다음과 같습니다.
KL(P || Q) = ∑_i P(i) log [P(i) / Q(i)]
여기서 P와 Q는 동일한 사건 공간에서 정의된 두 개의 확률 분포이며, i는 각각의 사건을 나타냅니다. KL 발산은 P와 Q의 분포 차이를 나타내며, 값이 작을수록 두 분포가 비슷하다는 의미입니다.
KL 발산은 정보 이론에서 유래되었으며, 확률 분포 간의 차이를 측정하는데 널리 사용됩니다. 예를 들어, 머신 러닝에서는 KL 발산을 이용하여 모델의 예측 분포와 실제 분포의 차이를 측정하여 모델의 성능을 평가합니다. 또한, KL 발산은 두 개의 클러스터 간의 유사성을 측정하는 클러스터링에서도 사용됩니다.
KL 발산은 비대칭적인 특징을 가지며, KL(P || Q) ≠ KL(Q || P) 입니다.
'수학 > AI Math' 카테고리의 다른 글
CNN (0) | 2023.03.11 |
---|---|
베이즈 통계 (0) | 2023.03.11 |
몬테 카를로 샘플링 (0) | 2023.03.11 |
비선형 함수 모델링 (0) | 2023.03.11 |
경사 하강법 (0) | 2023.03.11 |