정규분포는 평균 근처의 값이 가장 자주 나타나고, 평균에서 멀어질수록 값이 대칭적으로 점점 드물어지는 종 모양의 확률모형입니다. 벨 커브, z-점수, 또는 정규분포 공식을 이해하려면 핵심은 간단합니다. 평균은 중심을 정하고, 표준편차는 퍼짐의 정도를 정합니다.

이 모형은 데이터나 상황이 정규분포 모양에 reasonably fit할 때만 유용합니다. 그 조건이 성립하면 전형적인 범위를 추정하고, z-점수로 값을 비교하며, 어떤 결과가 얼마나 이례적인지 해석할 수 있습니다.

벨 커브의 의미

어떤 변수가 정규분포를 따른다면 평균 근처의 값이 멀리 떨어진 값보다 더 흔합니다. 왼쪽과 오른쪽이 서로 대칭이므로, 평균보다 표준편차 22만큼 큰 값은 평균보다 표준편차 22만큼 작은 값만큼이나 드문 값입니다.

다음과 같은 표기를 자주 보게 됩니다.

XN(μ,σ2)X \sim N(\mu, \sigma^2)

이는 확률변수 XX가 평균 μ\mu, 분산 σ2\sigma^2인 정규분포로 모델링된다는 뜻입니다. 분산이 σ2\sigma^2이므로 표준편차는 σ\sigma이며, 여기서 σ>0\sigma > 0입니다.

정규분포 공식, 쉬운 말로 설명하면

정규분포의 밀도함수 공식은 다음과 같습니다.

f(x)=1σ2πe(xμ)2/(2σ2)f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-(x-\mu)^2/(2\sigma^2)}

이 아이디어를 잘 활용하기 위해 공식의 모든 부분을 외울 필요는 없습니다. 가장 중요한 점은 μ\mu가 곡선을 왼쪽이나 오른쪽으로 이동시키고, σ\sigma가 곡선을 더 좁게 또는 더 넓게 만든다는 것입니다.

이 공식은 한 정확한 값의 확률이 아니라 밀도를 나타냅니다. 연속모형에서는 확률을 P(X<80)P(X < 80) 또는 P(65X85)P(65 \le X \le 85) 같은 구간으로 구합니다.

평균, 표준편차, z-점수의 연결

평균이 바뀌면 곡선은 왼쪽이나 오른쪽으로 이동합니다. 표준편차가 바뀌면 곡선은 더 좁아지거나 더 넓어집니다. σ\sigma가 작으면 값들이 평균 주변에 촘촘히 모여 있다는 뜻입니다. σ\sigma가 크면 값들이 더 넓게 퍼져 있다는 뜻입니다.

어떤 한 값을 분포의 다른 값들과 비교하려면 z-점수를 사용합니다.

z=xμσz = \frac{x - \mu}{\sigma}

이 값은 표준편차 단위에서의 상대적 위치를 알려줍니다. z=1.5z = 1.5이면 그 값은 평균보다 표준편차 1.51.5만큼 위에 있습니다. z=2z = -2이면 평균보다 표준편차 22만큼 아래에 있습니다.

정규모형에서 자주 쓰는 실용적인 지름길 하나는 경험법칙입니다.

약 68%의 값이 μ±σ 범위 안에 있다\text{약 } 68\% \text{의 값이 } \mu \pm \sigma \text{ 범위 안에 있다} 약 95%의 값이 μ±2σ 범위 안에 있다\text{약 } 95\% \text{의 값이 } \mu \pm 2\sigma \text{ 범위 안에 있다} 약 99.7%의 값이 μ±3σ 범위 안에 있다\text{약 } 99.7\% \text{의 값이 } \mu \pm 3\sigma \text{ 범위 안에 있다}

이 법칙은 정규모형이 실제로 적절할 때만 사용해야 합니다. 모든 실제 데이터에 대해 보장되는 규칙이 아니라, 유용한 근사입니다.

z-점수와 벨 커브 예제

시험 점수가 다음과 같이 모델링된다고 가정해 봅시다.

XN(70,102)X \sim N(70, 10^2)

그러면 평균 점수는 7070이고 표준편차는 1010입니다.

먼저 경험법칙을 사용해 봅시다. 점수의 약 68%68\%는 평균에서 표준편차 한 개 이내에 있어야 합니다.

70±1070 \pm 10

따라서 빠르게 얻는 구간은

60 to 8060 \text{ to } 80

입니다.

95%95\%의 점수는 표준편차 두 개 이내에 있어야 합니다.

70±2(10)=70±2070 \pm 2(10) = 70 \pm 20

따라서 그 구간은

50 to 9050 \text{ to } 90

입니다.

이제 8585점을 받은 한 학생을 생각해 봅시다. z-점수는

z=857010=1.5z = \frac{85 - 70}{10} = 1.5

입니다.

이는 그 점수가 평균보다 표준편차 1.51.5만큼 높다는 뜻입니다. 이것이 가장 빠르고 유용한 해석입니다. 즉, 평균보다 분명히 높은 점수이지만 꼬리 부분의 극단적인 값까지는 아닙니다.

정규분포 문제에서 자주 하는 실수

종 모양 그래프를 모두 정규분포로 보는 경우

어떤 데이터는 비대칭이거나, 꼬리가 두껍거나, 봉우리가 여러 개일 수 있습니다. 이런 경우 그래프가 대체로 둥글어 보여도 정규모형은 잘 맞지 않을 수 있습니다.

밀도와 확률을 혼동하는 경우

공식 f(x)f(x)XX가 어떤 정확한 한 숫자와 같을 확률이 아닙니다. 연속분포에서는 한 점에서의 확률이 00이므로, 대신 구간을 사용해야 합니다.

모형을 확인하지 않고 경험법칙을 사용하는 경우

6868-9595-99.799.7 법칙은 정규분포에 속하는 규칙입니다. 어떤 데이터셋에나 자동으로 적용하면 안 됩니다.

분산과 표준편차를 혼동하는 경우

분산은 σ2\sigma^2입니다. z-점수에는 σ2\sigma^2가 아니라 σ\sigma를 사용합니다.

정규분포는 언제 사용하나요?

정규분포는 측정값이 어떤 중심값 주변에 모이고, 극단적인 값은 비교적 드물 때 자주 나타납니다. 측정 오차 모형, 시험 점수 해석, 품질 관리, 표본평균 연구 등에서 흔히 사용됩니다.

그렇다고 해서 모든 실제 데이터가 정규분포라는 뜻은 아닙니다. 분포의 모양, 맥락, 가정이 그 근사를 타당하게 만들 때 정규모형이 유용한 근사라는 뜻입니다.

비슷한 문제를 직접 해보기

예제를 XN(100,152)X \sim N(100, 15^2)로 바꾸고 130130의 z-점수를 계산해 보세요. 그리고 값의 약 95%95\%를 포함하는 구간도 구해 보세요. 평균이나 표준편차를 다르게 바꿔 자신만의 예제를 해 보면 벨 커브가 어떻게 달라지는지 더 잘 보입니다.

문제 풀이가 필요하신가요?

문제를 올리면 검증된 단계별 풀이를 몇 초 만에 받을 수 있습니다.

GPAI Solver 열기 →