728x90
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.
1. 평균 (Mean)
- 평균은 주어진 데이터 세트의 모든 값을 더한 후, 그 값을 데이터의 개수로 나눈 값을 의미한다.
- 주로 실제 관찰된 데이터나 샘플에 대해 계산되며, 우리가 생각하는 일반적인 평균은 "산술 평균" 이다.
2. 기댓값 (Expected Value)
- 기댓값은 확률 변수의 장기적인 평균값을 의미하며, 주사위를 무한번 굴리고, 산술 평균을 구한 값이 기댓값이다.
- 확률 변수 가 가질 수 있는 모든 값에 해당 값이 나올 확률을 곱한 후 더하여 계산한다. 기댓값은 분포의 중심을 이론적으로 나타낸다.
확률 변수 가 가질 수 있는 값들이 이고, 각 값이 나올 확률이 일 때, 불연속 랜덤 변수에 대하여 기댓값 은 다음과 같이 나타낸다.
연속 랜덤 변수에 대해서는 다음과 같이 나타낸다.
3. 분산 (Variance)
- 분산은 평균으로부터 "퍼진 정도"를 나타낸다.
- 평균과의 차이(편차)의 제곱의 평균으로 구할 수 있다.
그런데 왜 절댓값을 안쓰고 제곱값을 사용할까?
과 는 분명 평균 0으로부터 퍼진 정도가 다르다. 하지만 절댓값을 사용하면 이 둘의 차이를 구분하지 못한다. 따라서 더 많이 퍼져 있을수록 가중치를 크게 부여하기 위해 제곱값을 사용한다. 제곱값을 다 더하면 너무 큰 값이기 때문에 이를 평균내서 분산을 구한다.
이는 불연속 랜덤 변수에서 다음과 같이 나타낸다.
연속 랜덤 변수에서는 다음과 같이 나타낸다.
분산을 기댓값으로 나타내자면 다음과 같다.
4. 표준편차 (Standard Deviation)
- 분산에 제곱근을 씌운 것
- 이걸 왜 정의했나? -> 제곱해서 평균을 구하면 단위가 이상해지는 문제점이 생긴다. 키의 단위는 인데, 이를 제곱해서 평균을 구하면 단위가 가 되는 이상한 현상이 발생한다. 따라서 단위를 유지하기 위해 제곱근을 씌운다.
728x90
'수학' 카테고리의 다른 글
최대 우도 추정 (MLE : Maximum Likelihood Estimation) (0) | 2024.08.30 |
---|---|
균등 분포와 정규 분포 (0) | 2024.08.30 |
확률 및 랜덤 변수 (0) | 2024.08.29 |
그라디언트가 가장 가파른 방향을 향하는 이유 (0) | 2024.08.29 |
테일러 급수 (5) | 2024.08.28 |