ความถี่สะสมคือผลรวมสะสมในตารางแจกแจงความถี่ มันบอกว่ามีข้อมูลกี่ค่าที่มีค่าน้อยกว่าหรือเท่ากับค่าหนึ่งหรือขอบเขตชั้นหนึ่ง จึงมีประโยชน์ในการหามัธยฐาน ควอไทล์ และเปอร์เซ็นไทล์

โอไจฟ์คือกราฟของผลรวมสะสมนั้น เมื่อคุณอ่านตารางและกราฟควบคู่กันได้แล้ว โจทย์ข้อมูลแบบจัดกลุ่มจะง่ายขึ้นมาก

นิยามของความถี่สะสม

ถ้าความถี่ของแต่ละชั้นคือ f1,f2,,fkf_1, f_2, \dots, f_k ความถี่สะสมถึงชั้นที่ kk คือ

Fk=f1+f2++fkF_k = f_1 + f_2 + \cdots + f_k

แต่ละแถวคือการเพิ่มอีกหนึ่งชั้นเข้าไปในผลรวม ถ้าความถี่สะสมเป็น 2828 เมื่อจบชั้นหนึ่ง แปลว่ามีข้อมูล 2828 ค่าอยู่ในชั้นนั้นหรือต่ำกว่านั้น

สำหรับข้อมูลที่ไม่ได้จัดกลุ่ม ความถี่สะสมก็คือการนับสะสมตามลำดับ สำหรับข้อมูลแบบจัดกลุ่ม จะเป็นการนับสะสมตามช่วงชั้น

โอไจฟ์ช่วยให้อ่านเปอร์เซ็นไทล์ได้อย่างไร

โอไจฟ์เป็นกราฟที่พล็อตความถี่สะสมเทียบกับขอบเขตชั้น สำหรับข้อมูลต่อเนื่องแบบจัดกลุ่ม โดยทั่วไปจะพล็อต:

  • ขอบเขตชั้นบนบนแกนนอน
  • ความถี่สะสมบนแกนตั้ง

จากนั้นเชื่อมจุดด้วยเส้นโค้งเรียบหรือเส้นหักเป็นช่วง กราฟจะสูงขึ้นเรื่อย ๆ เพราะความถี่สะสมไม่มีวันลดลง

การใช้งานหลักของโอไจฟ์คือการอ่านตำแหน่งในชุดข้อมูลที่เรียงลำดับแล้ว ถ้าความถี่รวมคือ NN จะได้ว่า:

  • มัธยฐานอยู่ประมาณค่าลำดับที่ N/2N/2
  • ควอไทล์ที่หนึ่งอยู่ประมาณค่าลำดับที่ N/4N/4
  • ควอไทล์ที่สามอยู่ประมาณค่าลำดับที่ 3N/43N/4
  • เปอร์เซ็นไทล์ที่ pp อยู่ประมาณค่าลำดับที่ (p/100)N(p/100)N

บนกราฟ คุณเริ่มจากตำแหน่งนั้นบนแกนตั้ง ลากไปหาเส้นโอไจฟ์ แล้วจึงลากลงมายังแกนนอนเพื่อประมาณค่าข้อมูล

ตัวอย่างทำโจทย์: มัธยฐานและเปอร์เซ็นไทล์ที่ 75

สมมติว่าคะแนนสอบของนักเรียน 4040 คนถูกจัดกลุ่มดังนี้:

คะแนน ความถี่ ความถี่สะสม
0-10 22 22
10-20 55 77
20-30 99 1616
30-40 1212 2828
40-50 88 3636
50-60 44 4040

ความถี่รวมคือ N=40N = 40

หามัธยฐานจากตาราง

มัธยฐานคือค่าลำดับที่ N/2=20N/2 = 20

ดูจากความถี่สะสม:

  • ถึงช่วง 20-30 ผลรวมเป็น 1616
  • ถึงช่วง 30-40 ผลรวมเป็น 2828

ดังนั้นค่าลำดับที่ 2020 อยู่ในชั้น 3030-4040

ถ้าต้องการค่าประมาณแบบข้อมูลจัดกลุ่ม ให้ใช้อินเตอร์โพเลชันก็ต่อเมื่อสมเหตุสมผลที่จะถือว่าค่าข้อมูลกระจายค่อนข้างสม่ำเสมอภายในชั้นนั้น แล้วจะได้ว่า

medianL+N/2Fbeforefw\text{median} \approx L + \frac{N/2 - F_{\text{before}}}{f} \cdot w

โดยที่:

  • L=30L = 30 คือขอบเขตล่างของชั้น
  • Fbefore=16F_{\text{before}} = 16 คือความถี่สะสมก่อนถึงชั้นนี้
  • f=12f = 12 คือความถี่ของชั้น
  • w=10w = 10 คือความกว้างของชั้น

ดังนั้น

median30+20161210=30+401233.3\text{median} \approx 30 + \frac{20 - 16}{12} \cdot 10 = 30 + \frac{40}{12} \approx 33.3

ค่าประมาณนี้ไม่ใช่ค่าที่แน่นอน เพราะขึ้นอยู่กับสมมติฐานว่าค่าภายในชั้น 3030-4040 กระจายอย่างค่อนข้างเรียบสม่ำเสมอ

ประมาณเปอร์เซ็นไทล์ที่ 75

เปอร์เซ็นไทล์ที่ 7575 คือค่าลำดับที่ (75/100)40=30(75/100) \cdot 40 = 30

จากความถี่สะสม:

  • ถึงช่วง 30-40 ผลรวมเป็น 2828
  • ถึงช่วง 40-50 ผลรวมเป็น 3636

ดังนั้นค่าลำดับที่ 3030 อยู่ในชั้น 4040-5050

ใช้แนวคิดการอินเตอร์โพเลชันแบบเดียวกัน จะได้ว่า

P7540+3028810=42.5P_{75} \approx 40 + \frac{30 - 28}{8} \cdot 10 = 42.5

บนกราฟโอไจฟ์ คุณจะทำเครื่องหมายที่ 3030 บนแกนความถี่สะสม ลากไปหาเส้นโค้ง แล้วอ่านค่าลงมาบนแกนคะแนนได้ประมาณ 42.542.5

ข้อผิดพลาดที่พบบ่อยเกี่ยวกับความถี่สะสม

สับสนระหว่างความถี่กับความถี่สะสม

ความถี่บอกว่ามีข้อมูลกี่ค่าในชั้นเดียว ส่วนความถี่สะสมบอกว่ามีข้อมูลกี่ค่าในชั้นนั้นรวมกับทุกชั้นก่อนหน้า

ใช้ตำแหน่งผิด

สำหรับมัธยฐานหรือเปอร์เซ็นไทล์ ตำแหน่งต้องมาจากความถี่รวม NN ถ้าใช้ผลรวมผิด ทุกขั้นตอนหลังจากนั้นก็จะผิดตามไปด้วย

คิดว่าค่าประมาณจากข้อมูลจัดกลุ่มเป็นค่าจริงแน่นอน

โอไจฟ์หรือการอินเตอร์โพเลชันให้เพียงค่าประมาณภายในชั้น ไม่ใช่ค่าข้อมูลดั้งเดิมที่แน่นอน ค่าประมาณนี้ขึ้นอยู่กับการกระจายของข้อมูลภายในช่วงนั้น

พล็อตค่าบนแกนนอนผิด

สำหรับข้อมูลแบบจัดกลุ่ม โอไจฟ์มักพล็อตเทียบกับขอบเขตชั้น โดยเฉพาะขอบเขตชั้นบน การพล็อตเทียบกับจุดกึ่งกลางชั้นจะทำให้ความหมายเปลี่ยนไป

ความถี่สะสมถูกใช้เมื่อใด

ความถี่สะสมใช้เมื่อคุณต้องการตำแหน่งเชิงลำดับในชุดข้อมูล มากกว่าการนับแยกทีละชั้น ซึ่งรวมถึงสรุปคะแนนสอบ การกระจายรายได้ ข้อมูลควบคุมคุณภาพ และสถานการณ์ใด ๆ ที่เปอร์เซ็นไทล์หรือมัธยฐานสำคัญกว่าจำนวนในแต่ละช่วง

มันมีประโยชน์เป็นพิเศษเมื่อข้อมูลดิบมีจำนวนมาก และตารางแบบจัดกลุ่มอ่านง่ายกว่ารายการข้อมูลยาว ๆ

ลองทำโจทย์ความถี่สะสมที่คล้ายกัน

ลองนำตารางข้อมูลแบบจัดกลุ่มขนาดเล็กสักตารางหนึ่งมาเพิ่มคอลัมน์ความถี่สะสมก่อนวาดโอไจฟ์ จากนั้นอ่านค่ามัธยฐานและเปอร์เซ็นไทล์หนึ่งค่าจากกราฟ แล้วเปรียบเทียบกับค่าประมาณจากตาราง

ถ้าต้องการตรวจสอบเพิ่มอีกนิด ลองสร้างตัวอย่างของคุณเองโดยให้ N=50N = 50 แล้วถามว่าค่าลำดับที่ 2020, 2525 และ 4545 จะตกอยู่ในช่วงใด วิธีนี้ช่วยให้เข้าใจแนวคิดได้ชัดเจนขึ้น

ต้องการความช่วยเหลือในการแก้โจทย์?

อัปโหลดคำถามของคุณแล้วรับคำตอบแบบทีละขั้นตอนที่ผ่านการตรวจสอบในไม่กี่วินาที

เปิด GPAI Solver →