정규분포는 평균 근처의 값이 가장 자주 나타나고, 평균에서 멀어질수록 값이 대칭적으로 점점 드물어지는 종 모양의 확률모형입니다. 벨 커브, z-점수, 또는 정규분포 공식을 이해하려면 핵심은 간단합니다. 평균은 중심을 정하고, 표준편차는 퍼짐의 정도를 정합니다.
이 모형은 데이터나 상황이 정규분포 모양에 reasonably fit할 때만 유용합니다. 그 조건이 성립하면 전형적인 범위를 추정하고, z-점수로 값을 비교하며, 어떤 결과가 얼마나 이례적인지 해석할 수 있습니다.
벨 커브의 의미
어떤 변수가 정규분포를 따른다면 평균 근처의 값이 멀리 떨어진 값보다 더 흔합니다. 왼쪽과 오른쪽이 서로 대칭이므로, 평균보다 표준편차 만큼 큰 값은 평균보다 표준편차 만큼 작은 값만큼이나 드문 값입니다.
다음과 같은 표기를 자주 보게 됩니다.
이는 확률변수 가 평균 , 분산 인 정규분포로 모델링된다는 뜻입니다. 분산이 이므로 표준편차는 이며, 여기서 입니다.
정규분포 공식, 쉬운 말로 설명하면
정규분포의 밀도함수 공식은 다음과 같습니다.
이 아이디어를 잘 활용하기 위해 공식의 모든 부분을 외울 필요는 없습니다. 가장 중요한 점은 가 곡선을 왼쪽이나 오른쪽으로 이동시키고, 가 곡선을 더 좁게 또는 더 넓게 만든다는 것입니다.
이 공식은 한 정확한 값의 확률이 아니라 밀도를 나타냅니다. 연속모형에서는 확률을 또는 같은 구간으로 구합니다.
평균, 표준편차, z-점수의 연결
평균이 바뀌면 곡선은 왼쪽이나 오른쪽으로 이동합니다. 표준편차가 바뀌면 곡선은 더 좁아지거나 더 넓어집니다. 가 작으면 값들이 평균 주변에 촘촘히 모여 있다는 뜻입니다. 가 크면 값들이 더 넓게 퍼져 있다는 뜻입니다.
어떤 한 값을 분포의 다른 값들과 비교하려면 z-점수를 사용합니다.
이 값은 표준편차 단위에서의 상대적 위치를 알려줍니다. 이면 그 값은 평균보다 표준편차 만큼 위에 있습니다. 이면 평균보다 표준편차 만큼 아래에 있습니다.
정규모형에서 자주 쓰는 실용적인 지름길 하나는 경험법칙입니다.
이 법칙은 정규모형이 실제로 적절할 때만 사용해야 합니다. 모든 실제 데이터에 대해 보장되는 규칙이 아니라, 유용한 근사입니다.
z-점수와 벨 커브 예제
시험 점수가 다음과 같이 모델링된다고 가정해 봅시다.
그러면 평균 점수는 이고 표준편차는 입니다.
먼저 경험법칙을 사용해 봅시다. 점수의 약 는 평균에서 표준편차 한 개 이내에 있어야 합니다.
따라서 빠르게 얻는 구간은
입니다.
약 의 점수는 표준편차 두 개 이내에 있어야 합니다.
따라서 그 구간은
입니다.
이제 점을 받은 한 학생을 생각해 봅시다. z-점수는
입니다.
이는 그 점수가 평균보다 표준편차 만큼 높다는 뜻입니다. 이것이 가장 빠르고 유용한 해석입니다. 즉, 평균보다 분명히 높은 점수이지만 꼬리 부분의 극단적인 값까지는 아닙니다.
정규분포 문제에서 자주 하는 실수
종 모양 그래프를 모두 정규분포로 보는 경우
어떤 데이터는 비대칭이거나, 꼬리가 두껍거나, 봉우리가 여러 개일 수 있습니다. 이런 경우 그래프가 대체로 둥글어 보여도 정규모형은 잘 맞지 않을 수 있습니다.
밀도와 확률을 혼동하는 경우
공식 는 가 어떤 정확한 한 숫자와 같을 확률이 아닙니다. 연속분포에서는 한 점에서의 확률이 이므로, 대신 구간을 사용해야 합니다.
모형을 확인하지 않고 경험법칙을 사용하는 경우
-- 법칙은 정규분포에 속하는 규칙입니다. 어떤 데이터셋에나 자동으로 적용하면 안 됩니다.
분산과 표준편차를 혼동하는 경우
분산은 입니다. z-점수에는 가 아니라 를 사용합니다.
정규분포는 언제 사용하나요?
정규분포는 측정값이 어떤 중심값 주변에 모이고, 극단적인 값은 비교적 드물 때 자주 나타납니다. 측정 오차 모형, 시험 점수 해석, 품질 관리, 표본평균 연구 등에서 흔히 사용됩니다.
그렇다고 해서 모든 실제 데이터가 정규분포라는 뜻은 아닙니다. 분포의 모양, 맥락, 가정이 그 근사를 타당하게 만들 때 정규모형이 유용한 근사라는 뜻입니다.
비슷한 문제를 직접 해보기
예제를 로 바꾸고 의 z-점수를 계산해 보세요. 그리고 값의 약 를 포함하는 구간도 구해 보세요. 평균이나 표준편차를 다르게 바꿔 자신만의 예제를 해 보면 벨 커브가 어떻게 달라지는지 더 잘 보입니다.