ค่าสัมประสิทธิ์สหสัมพันธ์โดยทั่วไปหมายถึงค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน เขียนเป็น ใช้วัดทิศทางและความแรงของความสัมพันธ์เชิงเส้นระหว่างตัวแปรเชิงตัวเลขสองตัว
ถ้า เป็นบวก ตัวแปรทั้งสองมักเพิ่มขึ้นไปด้วยกัน ถ้า เป็นลบ ตัวแปรหนึ่งมักลดลงเมื่ออีกตัวแปรเพิ่มขึ้น ถ้า ใกล้ สิ่งที่ Pearson's กำลังบอกคือมีรูปแบบเชิงเส้นน้อย ไม่ได้แปลว่าไม่มีความสัมพันธ์เลยเสมอไป
Pearson's มีประโยชน์มากที่สุดเมื่อข้อมูลมาเป็นคู่ ตัวแปรทั้งสองเป็นเชิงตัวเลข และรูปแบบที่คุณต้องการสรุปคือแนวโน้มแบบเส้นตรง
ค่าสัมประสิทธิ์สหสัมพันธ์บอกอะไรได้บ้าง
Pearson's เป็นตัววัดแบบมาตรฐานว่าตัวแปรสองตัวเปลี่ยนแปลงร่วมกันอย่างไร สำหรับข้อมูลตัวอย่างแบบจับคู่ สูตรคือ
ตัวเศษจะเป็นบวกเมื่อค่าของตัวแปรมีแนวโน้มเคลื่อนไปในทิศทางเดียวกัน และเป็นลบเมื่อมีแนวโน้มเคลื่อนไปในทิศทางตรงข้าม ตัวส่วนทำหน้าที่ปรับขนาดการเคลื่อนไหวร่วมนี้โดยใช้การกระจายของตัวแปรแต่ละตัว
เมื่อ Pearson's นิยามได้ จะต้องเป็นไปตามเงื่อนไข
ถ้าตัวแปรตัวใดตัวหนึ่งไม่มีความแปรผันเลย ตัวส่วนจะกลายเป็น ทำให้ Pearson's ไม่มีนิยาม
วิธีตีความค่าบวก ค่าลบ และค่าที่ใกล้ศูนย์
เริ่มจากดูเครื่องหมาย:
- : ความสัมพันธ์เชิงเส้นแบบบวก
- : ความสัมพันธ์เชิงเส้นแบบลบ
- : ไม่มีความสัมพันธ์เชิงเส้น
จากนั้นดูขนาด ค่าที่ใกล้ มากขึ้น หมายความว่าจุดข้อมูลอยู่ใกล้รูปแบบเส้นตรงมากขึ้น ค่าที่ใกล้ มากขึ้น หมายความว่ารูปแบบเชิงเส้นอ่อนลง
ควรระวังการใช้คำอย่าง "อ่อน" "ปานกลาง" หรือ "แรง" เพราะเกณฑ์เหล่านี้ขึ้นอยู่กับบริบท ในบางสาขา อาจมีความสำคัญ แต่อีกสาขาหนึ่งอาจเล็กเกินกว่าจะใช้ประกอบการตัดสินใจได้
วิธีที่ปลอดภัยที่สุดคืออ่านค่า ควบคู่กับกราฟกระจาย ตัวเลขนี้เป็นเพียงบทสรุปของรูปแบบที่คุณเห็น ไม่ควรใช้แทนภาพข้อมูลจริง
ตัวอย่างคำนวณ: หา
สมมติว่าข้อมูลแบบจับคู่คือ
เริ่มจากหาค่าเฉลี่ย:
ตอนนี้เขียนค่าคลาดเคลื่อนจากค่าเฉลี่ย:
- สำหรับ :
- สำหรับ :
คูณค่าคลาดเคลื่อนของแต่ละคู่แล้วบวกกัน:
จากนั้นหาผลรวมกำลังสองทั้งสองส่วน:
ดังนั้น
ค่านี้บอกว่าข้อมูลตัวอย่างนี้มีความสัมพันธ์เชิงเส้นแบบบวกที่ค่อนข้างแรง เมื่อ เพิ่มขึ้น ก็มักเพิ่มขึ้นด้วย และจุดข้อมูลจะอยู่ค่อนข้างใกล้กับเส้นที่ลาดขึ้น
ข้อผิดพลาดที่พบบ่อยในการตีความสหสัมพันธ์
มองว่าสหสัมพันธ์คือเหตุและผล
ค่าสหสัมพันธ์ที่สูงไม่ได้พิสูจน์ว่าตัวแปรหนึ่งเป็นสาเหตุของอีกตัวแปรหนึ่ง อาจมีปัจจัยที่สามส่งผลต่อทั้งสองตัวแปร หรือความสัมพันธ์นั้นอาจเป็นเพียงเรื่องบังเอิญในข้อมูลที่สังเกตได้
ลืมว่า Pearson's วัดความสัมพันธ์เชิงเส้น
Pearson's วัดความสัมพันธ์เชิงเส้นได้ดีเท่านั้น ความสัมพันธ์แบบโค้งอาจให้ค่าสหสัมพันธ์ต่ำ แม้ว่าตัวแปรจะเกี่ยวข้องกันอย่างชัดเจนก็ตาม
มองข้ามค่าผิดปกติ
จุดข้อมูลที่ผิดปกติเพียงจุดเดียวอาจเปลี่ยนค่า ได้มาก ถ้ากราฟกระจายมีค่าผิดปกติ ค่าสหสัมพันธ์อาจเล่าเรื่องที่ทำให้เข้าใจรูปแบบโดยรวมผิดไป
ใช้ Pearson's ในสถานการณ์ที่ไม่เหมาะ
Pearson's ออกแบบมาสำหรับข้อมูลเชิงตัวเลขแบบจับคู่และความสัมพันธ์เชิงเส้น ถ้าตัวแปรตัวหนึ่งเป็นข้อมูลเชิงกลุ่ม หรือถ้ารูปแบบโค้งอย่างชัดเจน ค่าสัมประสิทธิ์นี้อาจไม่ตอบคำถามที่คุณสนใจจริง ๆ
ตีความค่าที่ใกล้ศูนย์มากเกินไป
ค่าที่ใกล้ หมายถึง "มีความสัมพันธ์เชิงเส้นน้อย" ไม่ใช่ "ไม่มีความสัมพันธ์ใด ๆ เลย"
Pearson's Correlation Coefficient ใช้เมื่อใด
Pearson's ถูกใช้บ่อยในสถิติ วิทยาศาสตร์ เศรษฐศาสตร์ งานวิจัยทางสังคม และแมชชีนเลิร์นนิง เพื่อสรุปข้อมูลเชิงตัวเลขแบบจับคู่ได้อย่างรวดเร็ว มันมีประโยชน์มากเมื่อคุณต้องการรู้ว่ามีรูปแบบเส้นตรงอยู่หรือไม่ ก่อนจะไปใช้แบบจำลองอย่างการถดถอยเชิงเส้น
ในทางปฏิบัติ ควรดูกราฟกระจายก่อนเสมอ ค่าสัมประสิทธิ์เป็นเพียงบทสรุป ไม่ใช่สิ่งที่ใช้แทนการดูข้อมูลจริง
ลองทำโจทย์ที่คล้ายกัน
นำชุดข้อมูลขนาดเล็กที่คุณเข้าใจอยู่แล้วมาพล็อตจุด แล้วประเมินก่อนว่ารูปแบบดูเป็นบวก เป็นลบ หรือยังไม่ชัดเจน ก่อนจะคำนวณ การเปรียบเทียบอย่างรวดเร็วแบบนี้เป็นหนึ่งในวิธีที่ช่วยสร้างความเข้าใจได้เร็วที่สุดว่าค่าสัมประสิทธิ์สหสัมพันธ์กำลังบอกอะไรจริง ๆ
ถ้าคุณอยากไปต่ออีกขั้น ลองสำรวจข้อมูลชุดเดียวกันด้วยเส้นถดถอยเชิงเส้นอย่างง่าย วิธีนี้จะช่วยให้เห็นชัดขึ้นว่าสหสัมพันธ์กับการพยากรณ์เกี่ยวข้องกันอย่างไร แต่ไม่ใช่สิ่งเดียวกัน
ต้องการความช่วยเหลือในการแก้โจทย์?
อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที
เปิด GPAI Solver →