ค่าสัมประสิทธิ์สหสัมพันธ์โดยทั่วไปหมายถึงค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน เขียนเป็น rr ใช้วัดทิศทางและความแรงของความสัมพันธ์เชิงเส้นระหว่างตัวแปรเชิงตัวเลขสองตัว

ถ้า rr เป็นบวก ตัวแปรทั้งสองมักเพิ่มขึ้นไปด้วยกัน ถ้า rr เป็นลบ ตัวแปรหนึ่งมักลดลงเมื่ออีกตัวแปรเพิ่มขึ้น ถ้า rr ใกล้ 00 สิ่งที่ Pearson's rr กำลังบอกคือมีรูปแบบเชิงเส้นน้อย ไม่ได้แปลว่าไม่มีความสัมพันธ์เลยเสมอไป

Pearson's rr มีประโยชน์มากที่สุดเมื่อข้อมูลมาเป็นคู่ ตัวแปรทั้งสองเป็นเชิงตัวเลข และรูปแบบที่คุณต้องการสรุปคือแนวโน้มแบบเส้นตรง

ค่าสัมประสิทธิ์สหสัมพันธ์บอกอะไรได้บ้าง

Pearson's rr เป็นตัววัดแบบมาตรฐานว่าตัวแปรสองตัวเปลี่ยนแปลงร่วมกันอย่างไร สำหรับข้อมูลตัวอย่างแบบจับคู่ สูตรคือ

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

ตัวเศษจะเป็นบวกเมื่อค่าของตัวแปรมีแนวโน้มเคลื่อนไปในทิศทางเดียวกัน และเป็นลบเมื่อมีแนวโน้มเคลื่อนไปในทิศทางตรงข้าม ตัวส่วนทำหน้าที่ปรับขนาดการเคลื่อนไหวร่วมนี้โดยใช้การกระจายของตัวแปรแต่ละตัว

เมื่อ Pearson's rr นิยามได้ จะต้องเป็นไปตามเงื่อนไข

1r1-1 \le r \le 1

ถ้าตัวแปรตัวใดตัวหนึ่งไม่มีความแปรผันเลย ตัวส่วนจะกลายเป็น 00 ทำให้ Pearson's rr ไม่มีนิยาม

วิธีตีความค่าบวก ค่าลบ และค่าที่ใกล้ศูนย์

เริ่มจากดูเครื่องหมาย:

  • r>0r > 0: ความสัมพันธ์เชิงเส้นแบบบวก
  • r<0r < 0: ความสัมพันธ์เชิงเส้นแบบลบ
  • r=0r = 0: ไม่มีความสัมพันธ์เชิงเส้น

จากนั้นดูขนาด r|r| ค่าที่ใกล้ 11 มากขึ้น หมายความว่าจุดข้อมูลอยู่ใกล้รูปแบบเส้นตรงมากขึ้น ค่าที่ใกล้ 00 มากขึ้น หมายความว่ารูปแบบเชิงเส้นอ่อนลง

ควรระวังการใช้คำอย่าง "อ่อน" "ปานกลาง" หรือ "แรง" เพราะเกณฑ์เหล่านี้ขึ้นอยู่กับบริบท ในบางสาขา r=0.3r = 0.3 อาจมีความสำคัญ แต่อีกสาขาหนึ่งอาจเล็กเกินกว่าจะใช้ประกอบการตัดสินใจได้

วิธีที่ปลอดภัยที่สุดคืออ่านค่า rr ควบคู่กับกราฟกระจาย ตัวเลขนี้เป็นเพียงบทสรุปของรูปแบบที่คุณเห็น ไม่ควรใช้แทนภาพข้อมูลจริง

ตัวอย่างคำนวณ: หา r=0.9r = 0.9

สมมติว่าข้อมูลแบบจับคู่คือ

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

เริ่มจากหาค่าเฉลี่ย:

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

ตอนนี้เขียนค่าคลาดเคลื่อนจากค่าเฉลี่ย:

  • สำหรับ xx: 2,1,0,1,2-2, -1, 0, 1, 2
  • สำหรับ yy: 2,1,1,0,2-2, -1, 1, 0, 2

คูณค่าคลาดเคลื่อนของแต่ละคู่แล้วบวกกัน:

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

จากนั้นหาผลรวมกำลังสองทั้งสองส่วน:

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

ดังนั้น

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

ค่านี้บอกว่าข้อมูลตัวอย่างนี้มีความสัมพันธ์เชิงเส้นแบบบวกที่ค่อนข้างแรง เมื่อ xx เพิ่มขึ้น yy ก็มักเพิ่มขึ้นด้วย และจุดข้อมูลจะอยู่ค่อนข้างใกล้กับเส้นที่ลาดขึ้น

ข้อผิดพลาดที่พบบ่อยในการตีความสหสัมพันธ์

มองว่าสหสัมพันธ์คือเหตุและผล

ค่าสหสัมพันธ์ที่สูงไม่ได้พิสูจน์ว่าตัวแปรหนึ่งเป็นสาเหตุของอีกตัวแปรหนึ่ง อาจมีปัจจัยที่สามส่งผลต่อทั้งสองตัวแปร หรือความสัมพันธ์นั้นอาจเป็นเพียงเรื่องบังเอิญในข้อมูลที่สังเกตได้

ลืมว่า Pearson's rr วัดความสัมพันธ์เชิงเส้น

Pearson's rr วัดความสัมพันธ์เชิงเส้นได้ดีเท่านั้น ความสัมพันธ์แบบโค้งอาจให้ค่าสหสัมพันธ์ต่ำ แม้ว่าตัวแปรจะเกี่ยวข้องกันอย่างชัดเจนก็ตาม

มองข้ามค่าผิดปกติ

จุดข้อมูลที่ผิดปกติเพียงจุดเดียวอาจเปลี่ยนค่า rr ได้มาก ถ้ากราฟกระจายมีค่าผิดปกติ ค่าสหสัมพันธ์อาจเล่าเรื่องที่ทำให้เข้าใจรูปแบบโดยรวมผิดไป

ใช้ Pearson's rr ในสถานการณ์ที่ไม่เหมาะ

Pearson's rr ออกแบบมาสำหรับข้อมูลเชิงตัวเลขแบบจับคู่และความสัมพันธ์เชิงเส้น ถ้าตัวแปรตัวหนึ่งเป็นข้อมูลเชิงกลุ่ม หรือถ้ารูปแบบโค้งอย่างชัดเจน ค่าสัมประสิทธิ์นี้อาจไม่ตอบคำถามที่คุณสนใจจริง ๆ

ตีความค่าที่ใกล้ศูนย์มากเกินไป

ค่าที่ใกล้ 00 หมายถึง "มีความสัมพันธ์เชิงเส้นน้อย" ไม่ใช่ "ไม่มีความสัมพันธ์ใด ๆ เลย"

Pearson's Correlation Coefficient ใช้เมื่อใด

Pearson's rr ถูกใช้บ่อยในสถิติ วิทยาศาสตร์ เศรษฐศาสตร์ งานวิจัยทางสังคม และแมชชีนเลิร์นนิง เพื่อสรุปข้อมูลเชิงตัวเลขแบบจับคู่ได้อย่างรวดเร็ว มันมีประโยชน์มากเมื่อคุณต้องการรู้ว่ามีรูปแบบเส้นตรงอยู่หรือไม่ ก่อนจะไปใช้แบบจำลองอย่างการถดถอยเชิงเส้น

ในทางปฏิบัติ ควรดูกราฟกระจายก่อนเสมอ ค่าสัมประสิทธิ์เป็นเพียงบทสรุป ไม่ใช่สิ่งที่ใช้แทนการดูข้อมูลจริง

ลองทำโจทย์ที่คล้ายกัน

นำชุดข้อมูลขนาดเล็กที่คุณเข้าใจอยู่แล้วมาพล็อตจุด แล้วประเมินก่อนว่ารูปแบบดูเป็นบวก เป็นลบ หรือยังไม่ชัดเจน ก่อนจะคำนวณ rr การเปรียบเทียบอย่างรวดเร็วแบบนี้เป็นหนึ่งในวิธีที่ช่วยสร้างความเข้าใจได้เร็วที่สุดว่าค่าสัมประสิทธิ์สหสัมพันธ์กำลังบอกอะไรจริง ๆ

ถ้าคุณอยากไปต่ออีกขั้น ลองสำรวจข้อมูลชุดเดียวกันด้วยเส้นถดถอยเชิงเส้นอย่างง่าย วิธีนี้จะช่วยให้เห็นชัดขึ้นว่าสหสัมพันธ์กับการพยากรณ์เกี่ยวข้องกันอย่างไร แต่ไม่ใช่สิ่งเดียวกัน

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →