정규분포를 쉽게 말하면 무엇인가요?

정규분포는 평균 근처의 값이 가장 흔하고, 평균에서 멀어질수록 값이 점점 드물어지는 종 모양의 대칭적인 연속 확률모형입니다.

z-점수는 무엇을 알려주나요?

z-점수는 어떤 값이 평균보다 위나 아래로 표준편차 몇 개만큼 떨어져 있는지를 알려줍니다. 즉, 정확한 확률 자체가 아니라 상대적인 위치를 나타냅니다.

정규분포 — 벨 커브, z-점수와 공식

정규분포는 평균 근처의 값이 가장 자주 나타나고, 평균에서 멀어질수록 값이 대칭적으로 점점 드물어지는 종 모양의 확률모형입니다. 벨 커브, z-점수, 또는 정규분포 공식을 이해하려면 핵심은 간단합니다. 평균은 중심을 정하고, 표준편차는 퍼짐의 정도를 정합니다.

이 모형은 데이터나 상황이 정규분포 모양에 reasonably fit할 때만 유용합니다. 그 조건이 성립하면 전형적인 범위를 추정하고, z-점수로 값을 비교하며, 어떤 결과가 얼마나 이례적인지 해석할 수 있습니다.

벨 커브의 의미

어떤 변수가 정규분포를 따른다면 평균 근처의 값이 멀리 떨어진 값보다 더 흔합니다. 왼쪽과 오른쪽이 서로 대칭이므로, 평균보다 표준편차 $2$ 만큼 큰 값은 평균보다 표준편차 $2$ 만큼 작은 값만큼이나 드문 값입니다.

다음과 같은 표기를 자주 보게 됩니다.

X \sim N(\mu, \sigma^2)

이는 확률변수 $X$ 가 평균 $\mu$ , 분산 $\sigma^2$ 인 정규분포로 모델링된다는 뜻입니다. 분산이 $\sigma^2$ 이므로 표준편차는 $\sigma$ 이며, 여기서 $\sigma > 0$ 입니다.

정규분포 공식, 쉬운 말로 설명하면

정규분포의 밀도함수 공식은 다음과 같습니다.

f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-(x-\mu)^2/(2\sigma^2)}

이 아이디어를 잘 활용하기 위해 공식의 모든 부분을 외울 필요는 없습니다. 가장 중요한 점은 $\mu$ 가 곡선을 왼쪽이나 오른쪽으로 이동시키고, $\sigma$ 가 곡선을 더 좁게 또는 더 넓게 만든다는 것입니다.

이 공식은 한 정확한 값의 확률이 아니라 밀도를 나타냅니다. 연속모형에서는 확률을 $P(X < 80)$ 또는 $P(65 \le X \le 85)$ 같은 구간으로 구합니다.

평균, 표준편차, z-점수의 연결

평균이 바뀌면 곡선은 왼쪽이나 오른쪽으로 이동합니다. 표준편차가 바뀌면 곡선은 더 좁아지거나 더 넓어집니다. $\sigma$ 가 작으면 값들이 평균 주변에 촘촘히 모여 있다는 뜻입니다. $\sigma$ 가 크면 값들이 더 넓게 퍼져 있다는 뜻입니다.

어떤 한 값을 분포의 다른 값들과 비교하려면 z-점수를 사용합니다.

z = \frac{x - \mu}{\sigma}

이 값은 표준편차 단위에서의 상대적 위치를 알려줍니다. $z = 1.5$ 이면 그 값은 평균보다 표준편차 $1.5$ 만큼 위에 있습니다. $z = -2$ 이면 평균보다 표준편차 $2$ 만큼 아래에 있습니다.

정규모형에서 자주 쓰는 실용적인 지름길 하나는 경험법칙입니다.

\text{약 } 68\% \text{의 값이 } \mu \pm \sigma \text{ 범위 안에 있다}

\text{약 } 95\% \text{의 값이 } \mu \pm 2\sigma \text{ 범위 안에 있다}

\text{약 } 99.7\% \text{의 값이 } \mu \pm 3\sigma \text{ 범위 안에 있다}

이 법칙은 정규모형이 실제로 적절할 때만 사용해야 합니다. 모든 실제 데이터에 대해 보장되는 규칙이 아니라, 유용한 근사입니다.

z-점수와 벨 커브 예제

시험 점수가 다음과 같이 모델링된다고 가정해 봅시다.

X \sim N(70, 10^2)

그러면 평균 점수는 $70$ 이고 표준편차는 $10$ 입니다.

먼저 경험법칙을 사용해 봅시다. 점수의 약 $68\%$ 는 평균에서 표준편차 한 개 이내에 있어야 합니다.

70 \pm 10

따라서 빠르게 얻는 구간은

60 \text{ to } 80

입니다.

약 $95\%$ 의 점수는 표준편차 두 개 이내에 있어야 합니다.

70 \pm 2(10) = 70 \pm 20

따라서 그 구간은

50 \text{ to } 90

입니다.

이제 $85$ 점을 받은 한 학생을 생각해 봅시다. z-점수는

z = \frac{85 - 70}{10} = 1.5

입니다.

이는 그 점수가 평균보다 표준편차 $1.5$ 만큼 높다는 뜻입니다. 이것이 가장 빠르고 유용한 해석입니다. 즉, 평균보다 분명히 높은 점수이지만 꼬리 부분의 극단적인 값까지는 아닙니다.

정규분포 문제에서 자주 하는 실수

종 모양 그래프를 모두 정규분포로 보는 경우

어떤 데이터는 비대칭이거나, 꼬리가 두껍거나, 봉우리가 여러 개일 수 있습니다. 이런 경우 그래프가 대체로 둥글어 보여도 정규모형은 잘 맞지 않을 수 있습니다.

밀도와 확률을 혼동하는 경우

공식 $f(x)$ 는 $X$ 가 어떤 정확한 한 숫자와 같을 확률이 아닙니다. 연속분포에서는 한 점에서의 확률이 $0$ 이므로, 대신 구간을 사용해야 합니다.

모형을 확인하지 않고 경험법칙을 사용하는 경우

$68$ - $95$ - $99.7$ 법칙은 정규분포에 속하는 규칙입니다. 어떤 데이터셋에나 자동으로 적용하면 안 됩니다.

분산과 표준편차를 혼동하는 경우

분산은 $\sigma^2$ 입니다. z-점수에는 $\sigma^2$ 가 아니라 $\sigma$ 를 사용합니다.

정규분포는 언제 사용하나요?

정규분포는 측정값이 어떤 중심값 주변에 모이고, 극단적인 값은 비교적 드물 때 자주 나타납니다. 측정 오차 모형, 시험 점수 해석, 품질 관리, 표본평균 연구 등에서 흔히 사용됩니다.

그렇다고 해서 모든 실제 데이터가 정규분포라는 뜻은 아닙니다. 분포의 모양, 맥락, 가정이 그 근사를 타당하게 만들 때 정규모형이 유용한 근사라는 뜻입니다.

비슷한 문제를 직접 해보기

예제를 $X \sim N(100, 15^2)$ 로 바꾸고 $130$ 의 z-점수를 계산해 보세요. 그리고 값의 약 $95\%$ 를 포함하는 구간도 구해 보세요. 평균이나 표준편차를 다르게 바꿔 자신만의 예제를 해 보면 벨 커브가 어떻게 달라지는지 더 잘 보입니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →