ความแปรปรวนร่วมวัดว่าตัวแปรสองตัวมีแนวโน้มจะอยู่สูงกว่าหรือต่ำกว่าค่าเฉลี่ยพร้อมกันหรือไม่ ถ้าความแปรปรวนร่วมเป็นบวก แปลว่าตัวแปรทั้งสองมักเคลื่อนไปในทิศทางเดียวกันเมื่อเทียบกับค่าเฉลี่ยของตนเอง ถ้าเป็นลบ แปลว่าเมื่อตัวหนึ่งสูงกว่าค่าเฉลี่ย อีกตัวมักต่ำกว่าค่าเฉลี่ย

สำหรับนักเรียนส่วนใหญ่ ประเด็นสำคัญคือ เครื่องหมายของค่ามักมีประโยชน์มากกว่าตัวเลขดิบ ขนาดของความแปรปรวนร่วมขึ้นอยู่กับหน่วยของตัวแปรทั้งสอง จึงไม่ใช่มาตรวัดความแรงที่ชัดเจนด้วยตัวมันเอง

สูตรความแปรปรวนร่วมสำหรับกลุ่มตัวอย่างและประชากร

สำหรับข้อมูลแบบจับคู่จากกลุ่มตัวอย่าง สูตรที่ใช้บ่อยคือ

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

โดยที่ xˉ\bar{x} และ yˉ\bar{y} คือค่าเฉลี่ยของกลุ่มตัวอย่าง แต่ละผลคูณ (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) จะเป็นบวกเมื่อข้อมูลคู่นั้นอยู่ด้านเดียวกันของค่าเฉลี่ยทั้งสอง และเป็นลบเมื่ออยู่คนละด้าน

ถ้าคุณกำลังทำงานกับประชากรทั้งหมด ไม่ใช่กลุ่มตัวอย่าง ตัวส่วนมักเป็น NN แทน n1n-1:

Cov(X,Y)=1Ni=1N(xiμx)(yiμy)\mathrm{Cov}(X,Y) = \frac{1}{N}\sum_{i=1}^N (x_i-\mu_x)(y_i-\mu_y)

ใช้สูตรของกลุ่มตัวอย่างเมื่อข้อมูลเป็นเพียงตัวอย่าง และใช้สูตรของประชากรเมื่อข้อมูลนั้นแทนประชากรทั้งหมดที่คุณต้องการอธิบายจริง ๆ เท่านั้น

วิธีอ่านเครื่องหมายของความแปรปรวนร่วม

ความแปรปรวนร่วมสร้างจากค่าคลาดเคลื่อนจากค่าเฉลี่ยของข้อมูลแบบจับคู่

ถ้าค่าคลาดเคลื่อนทั้งสองเป็นบวก ผลคูณก็เป็นบวก ถ้าทั้งสองเป็นลบ ผลคูณก็ยังเป็นบวกเช่นกัน คู่ข้อมูลแบบนี้จะดันให้ความแปรปรวนร่วมสูงขึ้น เพราะตัวแปรทั้งสองกำลังเคลื่อนไปด้วยกันเมื่อเทียบกับจุดศูนย์กลางของตน

ถ้าค่าคลาดเคลื่อนตัวหนึ่งเป็นบวก แต่อีกตัวเป็นลบ ผลคูณจะเป็นลบ คู่ข้อมูลแบบนี้จะดึงให้ความแปรปรวนร่วมลดลง เพราะตัวแปรทั้งสองกำลังเคลื่อนไปคนละทิศทาง

ดังนั้น ความแปรปรวนร่วมจึงเป็นเหมือนค่าเฉลี่ยของ “การเคลื่อนไหวร่วมกันรอบค่าเฉลี่ย”

ตัวอย่างคำนวณ: ชั่วโมงอ่านหนังสือกับคะแนนควิซ

สมมติว่ามีกลุ่มตัวอย่างขนาดเล็กที่บันทึกชั่วโมงอ่านหนังสือและคะแนนควิซดังนี้:

(1,70), (2,80), (3,90)(1,70),\ (2,80),\ (3,90)

เริ่มจากหาค่าเฉลี่ย:

xˉ=1+2+33=2\bar{x} = \frac{1+2+3}{3} = 2 yˉ=70+80+903=80\bar{y} = \frac{70+80+90}{3} = 80

จากนั้นคำนวณค่าคลาดเคลื่อนและผลคูณของแต่ละคู่:

  • สำหรับ (1,70)(1,70): (12)(7080)=(1)(10)=10(1-2)(70-80) = (-1)(-10) = 10
  • สำหรับ (2,80)(2,80): (22)(8080)=0(2-2)(80-80) = 0
  • สำหรับ (3,90)(3,90): (32)(9080)=(1)(10)=10(3-2)(90-80) = (1)(10) = 10

นำผลคูณมาบวกกัน:

10+0+10=2010 + 0 + 10 = 20

เพราะนี่คือความแปรปรวนร่วมของกลุ่มตัวอย่าง จึงหารด้วย n1=2n-1 = 2:

sxy=202=10s_{xy} = \frac{20}{2} = 10

ความแปรปรวนร่วมเป็นบวก ดังนั้นตัวแปรทั้งสองจึงเคลื่อนไปด้วยกันในกลุ่มตัวอย่างนี้ ชั่วโมงอ่านหนังสือที่มากขึ้นสัมพันธ์กับคะแนนควิซที่สูงขึ้นในข้อมูลชุดนี้

ข้อควรระวังคือ ค่า 1010 ไม่ใช่มาตรวัดความแรงแบบสากล ขนาดของมันขึ้นอยู่กับหน่วยในที่นี้ คือ ชั่วโมงคูณคะแนน ถ้าคุณเปลี่ยนสเกลการวัด ค่าความแปรปรวนร่วมก็จะเปลี่ยนตาม แม้รูปแบบโดยรวมจะยังคล้ายเดิม

ความแปรปรวนร่วม vs สหสัมพันธ์: ความต่างที่สำคัญ

ความแปรปรวนร่วมและสหสัมพันธ์มีความเกี่ยวข้องกันมาก แต่ตอบคำถามต่างกันเล็กน้อย

ความแปรปรวนร่วมบอกทิศทางของการเคลื่อนไหวร่วมกัน และยังคงสเกลเดิมไว้ ส่วนสหสัมพันธ์จะปรับความสัมพันธ์นั้นให้อยู่ในรูปมาตรฐาน โดยนำความแปรปรวนร่วมไปหารด้วยส่วนเบี่ยงเบนมาตรฐาน เมื่อส่วนเบี่ยงเบนมาตรฐานเหล่านั้นไม่เป็นศูนย์:

r=sxysxsyr = \frac{s_{xy}}{s_x s_y}

นั่นจึงเป็นเหตุผลที่สหสัมพันธ์ไม่มีหน่วย และเปรียบเทียบข้ามชุดข้อมูลต่าง ๆ ได้ง่ายกว่า ค่าของมันจะอยู่ระหว่าง 1-1 ถึง 11 เสมอ ในขณะที่ความแปรปรวนร่วมไม่มีช่วงค่าตายตัว

ในทางปฏิบัติ:

  • ใช้ความแปรปรวนร่วมเมื่อคุณสนใจการแปรผันร่วมกันในหน่วยเดิม หรือเมื่อมันปรากฏอยู่ในสมการที่ใหญ่กว่า เช่น เมทริกซ์ความแปรปรวนร่วม
  • ใช้สหสัมพันธ์เมื่อคุณต้องการค่าที่ไม่มีหน่วยและเปรียบเทียบข้ามชุดข้อมูลได้ง่ายกว่า

ข้อผิดพลาดที่พบบ่อยเกี่ยวกับความแปรปรวนร่วม

คิดว่าความแปรปรวนร่วมที่มีค่ามากแปลว่าแรงเสมอ

ความแปรปรวนร่วมเท่ากับ 100100 ไม่ได้แปลว่า “แรงกว่า” ความแปรปรวนร่วมเท่ากับ 55 โดยอัตโนมัติ ตัวแปรอาจถูกวัดด้วยสเกลที่ใหญ่กว่าก็ได้

สับสนระหว่างสูตรของกลุ่มตัวอย่างกับสูตรของประชากร

ถ้าข้อมูลของคุณเป็นกลุ่มตัวอย่าง การหารด้วย n1n-1 เป็นมาตรฐาน ถ้าข้อมูลเป็นประชากรทั้งหมดที่สนใจ การหารด้วย NN คือสูตรของประชากร

คิดว่าความแปรปรวนร่วมเป็นศูนย์แปลว่าไม่มีความสัมพันธ์เลย

ความแปรปรวนร่วมที่ใกล้ 00 หมายถึงมีการเคลื่อนไหวร่วมกันเชิงเส้นรอบค่าเฉลี่ยน้อยมาก แต่ไม่ได้ตัดความเป็นไปได้ของความสัมพันธ์แบบไม่เชิงเส้น

ถ้าตัวแปรสองตัวเป็นอิสระต่อกัน และความแปรปรวนร่วมมีอยู่จริง ความแปรปรวนร่วมจะเท่ากับ 00 แต่ในทางกลับกันไม่จำเป็นต้องจริงเสมอไป

อ่านความแปรปรวนร่วมเป็นเหตุและผล

ความแปรปรวนร่วมบอกเพียงว่าตัวแปรเปลี่ยนแปลงร่วมกันอย่างไร ไม่ได้อธิบายว่าทำไมจึงเปลี่ยนแปลงร่วมกัน

ความแปรปรวนร่วมถูกใช้เมื่อใด

ความแปรปรวนร่วมพบได้ในสถิติ การเงิน การเรียนรู้ของเครื่อง และการวิเคราะห์ข้อมูล ทุกครั้งที่ต้องศึกษาตัวแปรแบบจับคู่ร่วมกัน

มันพบบ่อยเป็นพิเศษในเมทริกซ์ความแปรปรวนร่วม ซึ่งแต่ละช่องสรุปว่าตัวแปรสองตัวแปรผันร่วมกันอย่างไร เรื่องนี้สำคัญในหัวข้อต่าง ๆ เช่น ความเสี่ยงของพอร์ตการลงทุน การวิเคราะห์องค์ประกอบหลัก และการสร้างแบบจำลองหลายตัวแปร

ลองทำโจทย์ที่คล้ายกัน

ลองเลือกข้อมูลแบบจับคู่มา 3 หรือ 4 คู่ หาค่าเฉลี่ยของทั้งสองตัวแปร แล้วคูณค่าคลาดเคลื่อนของแต่ละคู่ก่อนนำมาเฉลี่ย ขั้นตอนเดียวนี้จะช่วยให้ความหมายของเครื่องหมายของความแปรปรวนร่วมชัดเจนขึ้นมาก

ถ้าคุณอยากไปต่อในขั้นถัดไป ให้เปรียบเทียบข้อมูลชุดเดียวกันกับ สัมประสิทธิ์สหสัมพันธ์ แล้วสังเกตว่าการปรับสเกลให้เป็นมาตรฐานทำให้การตีความเปลี่ยนไปอย่างไร

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →