วันนี้ขอเสนอเรื่องแนวสถิติง่ายๆ บ้างละกันนะครับ บางท่านอาจทราบแล้ว แต่ผมเชื่อว่าอีกหลายท่านยังไม่ทราบ นั่นคือเรื่องเกี่ยวกับกราฟที่เรียกว่า Boxplot...
BoxPlot คืออะไร BoxPlot นั้นคือกราฟชนิดหนึ่ง คิดค้นขึ้นเมื่อปี 1977 โดยนักสถิติชาวอังกฤษชื่อ N A Sheldon
ถามว่ามันแตกต่างยังไงกับการพล็อตกราฟธรรมดาๆ คือกราฟธรรมดาสมมติว่าผมมีข้อมูลของระยะเวลาของคนที่เสียเวลาไปกับแชคผ่านอินเทอร์เน็ตใน 1 วันเป็นดังนี้
หลายคนอาจจะไม่คิดอะไร แหม ง่ายๆ ก็เอามาพล็อตเป็นกราฟแท่ง หรือไม่ก็กราฟจุดๆ สิ ก็จะออกมาเป็นแบบนี้ครับ
ถามว่าใช้ได้หรือไม่ ก็ต้องตอบว่าใช้ได้ แต่การแสดงกราฟแบบนี้ จะไม่บอกอะไรเราเลย คนดูแล้วก็จะเออ แต่ละคนใช้เวลาในเน็ตไปแบบนี้ๆ นะ ไม่รู้จะจับจุดอะไรจากกราฟนี้ดี เนื่องจากเราไม่ได้สรุปอะไรให้เขาเลย
การสรุปข้อมูลจากสิ่งที่เรามีอยู่ เราควรจะสรุปให้เขารู้อย่างน้อยๆ สองอย่าง ว่า
- ส่วนใหญ่คนที่เรามีอยู่น่ะมันอยู่ตรงไหนกัน อันนี้คงนึกออกว่ามันก็คือ "ค่ากลางของข้อมูล" ซึ่งอาจจะเป็น Mean หรือ Median ก็ได้ แต่ถ้าเราใช้ Mean มันจะไม่เหมาะสมสำหรับข้อมูลที่ไม่เบ้ ในขณะที่ถ้าเราใช้ Median มันจะใช้ได้ทั้งตอนที่เบ้ และตอนที่ไม่เบ้ (เพราะ Median มันเท่ากับ Mean ถ้าข้อมูลมันไม่เบ้)
- บอกว่าข้อมูลที่กระจายอออกไปจากตรงกลางนี้น่ะ มันกระจายออกไปด้านข้างซักประมาณไหนกัน (ศัพท์ทางสถิติเขาใช้คำว่า Dispersion ครับ) ซึ่งมีหลายวิธี เช่น บอกเป็น ค่าต่ำสุด-ค่าสูงสุด (พิสัยหรือ Range), บอกเป็น Standard Deviation
สำหรับ Box Plot นี้เราจะได้บอกทั้งสองอย่าง นอกจากนี้ยังบอกถึงค่าที่มันกระโดดจากกลุ่ม (ศัพท์สถิติเรียกว่า Outliers หรือพวกนอกคอก) ได้เป็นของแถมด้วยครับ เราลองมาดูกันเลยดีกว่าว่าถ้าผมเอาข้อมูลชุดดังกล่าวมาปรับปรุงเป็นแบบนี้ครับ
หลายคนอาจจะงง ว่ามันหมายถึงอะไร ลองดูวิธีการพล็อตของเขาก่อนนะครับ
- ก่อนอื่นเขาก็จะเอาข้อมูลทั้งหมดมาเรียงจากน้อยที่สุดไปหามากที่สุด
- ลากสี่เหลี่ยมตรงกลาง โดยให้จุดกลางของสี่เหลี่ยมนั้นคือ Median คือข้อมูลอันดับที่ 50 ของเรานั้นอยู่ตรงนั้นครับ
- ส่วนด้านบนและด้านล่างของสี่เหลี่ยมนั้นก็คือข้อมูลลำดับที่ 25 (25th percentile หรือถ้าแบ่งข้อมูลเป็นสี่ส่วนก็คือ 1st Quatile นั่นเอง) และ 75 (3rd Quatile) ตามลำดับ
- หลังจากลากรั้ว (fence) ที่เกิดขึ้นเพื่อจะบอกว่าข้อมูลไหนจะอยู่ในคอกหรือนอกคอก โดยรั้วที่เกิดขึ้นนั้นไม่ใช่เส้นขีดๆ ที่อยู่ในกราฟตอนสุดท้ายนะครับ แต่เป็นรั้วที่มองไม่เห็น ซึ่งลากขึ้นเหนือจาก Q3 เป็นความยาว = 1.5 เท่าของ Q3-Q1
- จากนั้นให้ลากหนวด (whisker) จากสี่เหลี่ยมไปหาจุดที่มากที่สุดที่ยังอยู่ในรั้ว
- ทำเช่นเดียวกันกับจุดที่น้อยที่สุดที่ยังอยู่ในรั้ว
- จุดนอกรั้วก็ปล่อยไว้ตามเดิม
เราสามารถสรุปได้คร่าวๆ ตามนี้ครับ:
ก็ลองแปลความหมายกันดูนะครับ บางคนเพื่อให้เข้าใจง่ายก็อาจจะเหมือนเรามอง Histogram จากด้านบนก็เป็นไปได้
ถ้ายังสงสัยอะไร ลองไปอ่านเพิ่มเติมได้ที่ Wikipedia หัวข้อ Box Plot นะครับมีเขียนไว้ละเอียดดี
ขอบคุณมากเลยค่ะ อธิบายได้เข้าใจง่ายดี
ตอบลบสุดยอด กำลังหาเรื่องboxplotอ่านอยุพอดี แตงค์กิ้วจ้า
ตอบลบขอบคุณมากเลยครับ
ตอบลบขอบคุณมากๆครับ
ตอบลบขอบคุนมากคับ...
ตอบลบgood explanation!
ตอบลบขอบคุณมากๆเลยค่ะพี่ เวลาทำ journal club ทีไร ต้องแวะมาพึ่งพาเว็บนี้ทุกทีค่ะ ^_^
ตอบลบขอบคุณค่ะ
ตอบลบขอบคุณค่ะ :)
ตอบลบขอบคุณครับ
ตอบลบขอบคุณค่ะ
ตอบลบtiffany jewelry
ตอบลบmoncler coats
oakley sunglasses outlet
ralph lauren outlet
red bottom shoes
michael kors outlet online
ugg boots
toms shoes outlet
replica watches
oakley sunglasses outlet
201610.25chenjinyan
ข้อมูลที่ตั้งสมมติ มี 20 ข้อมูล เเล้ว Median อันดับที่ 50 ของคุณมายังงัย ตัวเลข 25 (1st Quatile) กับ 75 (3rd Quatile) อีก เข้าใจกันด้วยหรอ ผมไม่เข้าใจอ่ะ
ตอบลบ