02 มกราคม 2552

Box Plot

วันนี้ขอเสนอเรื่องแนวสถิติง่ายๆ บ้างละกันนะครับ บางท่านอาจทราบแล้ว แต่ผมเชื่อว่าอีกหลายท่านยังไม่ทราบ นั่นคือเรื่องเกี่ยวกับกราฟที่เรียกว่า Boxplot...

BoxPlot คืออะไร BoxPlot นั้นคือกราฟชนิดหนึ่ง คิดค้นขึ้นเมื่อปี 1977 โดยนักสถิติชาวอังกฤษชื่อ N A Sheldon

ถามว่ามันแตกต่างยังไงกับการพล็อตกราฟธรรมดาๆ คือกราฟธรรมดาสมมติว่าผมมีข้อมูลของระยะเวลาของคนที่เสียเวลาไปกับแชคผ่านอินเทอร์เน็ตใน 1 วันเป็นดังนี้

Table

หลายคนอาจจะไม่คิดอะไร แหม ง่ายๆ ก็เอามาพล็อตเป็นกราฟแท่ง หรือไม่ก็กราฟจุดๆ สิ ก็จะออกมาเป็นแบบนี้ครับ

graph

ถามว่าใช้ได้หรือไม่ ก็ต้องตอบว่าใช้ได้ แต่การแสดงกราฟแบบนี้ จะไม่บอกอะไรเราเลย คนดูแล้วก็จะเออ แต่ละคนใช้เวลาในเน็ตไปแบบนี้ๆ นะ ไม่รู้จะจับจุดอะไรจากกราฟนี้ดี เนื่องจากเราไม่ได้สรุปอะไรให้เขาเลย

การสรุปข้อมูลจากสิ่งที่เรามีอยู่ เราควรจะสรุปให้เขารู้อย่างน้อยๆ สองอย่าง ว่า

  1. ส่วนใหญ่คนที่เรามีอยู่น่ะมันอยู่ตรงไหนกัน อันนี้คงนึกออกว่ามันก็คือ "ค่ากลางของข้อมูล" ซึ่งอาจจะเป็น Mean หรือ Median ก็ได้ แต่ถ้าเราใช้ Mean มันจะไม่เหมาะสมสำหรับข้อมูลที่ไม่เบ้ ในขณะที่ถ้าเราใช้ Median มันจะใช้ได้ทั้งตอนที่เบ้ และตอนที่ไม่เบ้ (เพราะ Median มันเท่ากับ Mean ถ้าข้อมูลมันไม่เบ้)
  2. บอกว่าข้อมูลที่กระจายอออกไปจากตรงกลางนี้น่ะ มันกระจายออกไปด้านข้างซักประมาณไหนกัน (ศัพท์ทางสถิติเขาใช้คำว่า Dispersion ครับ) ซึ่งมีหลายวิธี เช่น บอกเป็น ค่าต่ำสุด-ค่าสูงสุด (พิสัยหรือ Range), บอกเป็น Standard Deviation

สำหรับ Box Plot นี้เราจะได้บอกทั้งสองอย่าง นอกจากนี้ยังบอกถึงค่าที่มันกระโดดจากกลุ่ม (ศัพท์สถิติเรียกว่า Outliers หรือพวกนอกคอก) ได้เป็นของแถมด้วยครับ เราลองมาดูกันเลยดีกว่าว่าถ้าผมเอาข้อมูลชุดดังกล่าวมาปรับปรุงเป็นแบบนี้ครับ

Boxplot

หลายคนอาจจะงง ว่ามันหมายถึงอะไร ลองดูวิธีการพล็อตของเขาก่อนนะครับ

  1. ก่อนอื่นเขาก็จะเอาข้อมูลทั้งหมดมาเรียงจากน้อยที่สุดไปหามากที่สุด
  2. ลากสี่เหลี่ยมตรงกลาง โดยให้จุดกลางของสี่เหลี่ยมนั้นคือ Median คือข้อมูลอันดับที่ 50 ของเรานั้นอยู่ตรงนั้นครับ
  3. ส่วนด้านบนและด้านล่างของสี่เหลี่ยมนั้นก็คือข้อมูลลำดับที่ 25 (25th percentile หรือถ้าแบ่งข้อมูลเป็นสี่ส่วนก็คือ 1st Quatile นั่นเอง) และ 75 (3rd Quatile) ตามลำดับ
  4. หลังจากลากรั้ว (fence) ที่เกิดขึ้นเพื่อจะบอกว่าข้อมูลไหนจะอยู่ในคอกหรือนอกคอก โดยรั้วที่เกิดขึ้นนั้นไม่ใช่เส้นขีดๆ ที่อยู่ในกราฟตอนสุดท้ายนะครับ แต่เป็นรั้วที่มองไม่เห็น ซึ่งลากขึ้นเหนือจาก Q3 เป็นความยาว = 1.5 เท่าของ Q3-Q1
  5. จากนั้นให้ลากหนวด (whisker) จากสี่เหลี่ยมไปหาจุดที่มากที่สุดที่ยังอยู่ในรั้ว
  6. ทำเช่นเดียวกันกับจุดที่น้อยที่สุดที่ยังอยู่ในรั้ว
  7. จุดนอกรั้วก็ปล่อยไว้ตามเดิม

เราสามารถสรุปได้คร่าวๆ ตามนี้ครับ:

Boxplotanalyse

ก็ลองแปลความหมายกันดูนะครับ บางคนเพื่อให้เข้าใจง่ายก็อาจจะเหมือนเรามอง Histogram จากด้านบนก็เป็นไปได้

comparewithhistogram

ถ้ายังสงสัยอะไร ลองไปอ่านเพิ่มเติมได้ที่ Wikipedia หัวข้อ Box Plot นะครับมีเขียนไว้ละเอียดดี

13 ความคิดเห็น:

  1. ไม่ระบุชื่อ22/7/52 20:11

    ขอบคุณมากเลยค่ะ อธิบายได้เข้าใจง่ายดี

    ตอบลบ
  2. ไม่ระบุชื่อ27/7/52 14:15

    สุดยอด กำลังหาเรื่องboxplotอ่านอยุพอดี แตงค์กิ้วจ้า

    ตอบลบ
  3. ขอบคุณมากเลยครับ

    ตอบลบ
  4. ไม่ระบุชื่อ13/12/52 22:34

    ขอบคุณมากๆครับ

    ตอบลบ
  5. ไม่ระบุชื่อ19/6/53 14:26

    ขอบคุนมากคับ...

    ตอบลบ
  6. ไม่ระบุชื่อ21/9/53 18:00

    good explanation!

    ตอบลบ
  7. ไม่ระบุชื่อ6/3/54 17:37

    ขอบคุณมากๆเลยค่ะพี่ เวลาทำ journal club ทีไร ต้องแวะมาพึ่งพาเว็บนี้ทุกทีค่ะ ^_^

    ตอบลบ
  8. ไม่ระบุชื่อ10/10/54 23:27

    ขอบคุณค่ะ

    ตอบลบ
  9. ไม่ระบุชื่อ16/6/55 11:11

    ขอบคุณค่ะ :)

    ตอบลบ
  10. ไม่ระบุชื่อ21/8/55 11:44

    ขอบคุณครับ

    ตอบลบ
  11. ไม่ระบุชื่อ7/9/55 09:18

    ขอบคุณค่ะ

    ตอบลบ
  12. ข้อมูลที่ตั้งสมมติ มี 20 ข้อมูล เเล้ว Median อันดับที่ 50 ของคุณมายังงัย ตัวเลข 25 (1st Quatile) กับ 75 (3rd Quatile) อีก เข้าใจกันด้วยหรอ ผมไม่เข้าใจอ่ะ

    ตอบลบ

ช่วยแสดงความคิดเห็นเกี่ยวกับบทความนี้ด้วยนะครับ
Please leave your comments about this topic.