12 ตุลาคม 2552

ชนิดของตัวแปร


ข้อมูลที่เกิดขึ้นจากการวัด ที่แตกต่างกันไปในแต่ละคน ในทางการวิจัยเราจะเรียกมันว่า "ตัวแปร" (variable) ครับ เช่นง่ายๆ ผมทำสำรวจการเรื่องการได้ยินในนักดนตรี ตัวแปรพวกนี้ที่เจอบ่อยๆ ก็เช่น เพศ อายุ นอกจากนี้ก็จะเป็นตัวแปรที่เกี่ยวข้องกับงานวิจัยของเราครับ นั่นคือของผมก็อาจจะเป็น ระดับการได้ยินเฉลี่ยในหูซ้ายและหูขวาในปัจจุบัน, ระดับเสียงที่ได้ยินโดยเฉลี่ยต่อวัน, จำนวนชั่วโมงที่เล่นเพลง, รูปแบบเพลงที่ชอบเล่น, ประวัติเคยใช้เครื่องช่วยฟังมาก่อนหรือไม่, ประวัติการได้ยินผิดปกติในญาติ


ตัวแปรต่างๆ เราจะต้องทำความเข้าใจมันก่อนว่ามันเป็นตัวแปรแบบไหน ทั้งนี้เพื่อที่จะได้รู้ต่อไปว่า ควรจะแปลความหมายมันอย่างไร จะแสดงผลเป็นกราฟแบบไหน จะใช้การทดสอบทางสถิติตัวไหนมาทดสอบความแตกต่างในแต่ละกลุ่ม และจะแปลความหมายผลการทดสอบนั้นอย่างไรครับ


ตัวแปรที่พบกันบ่อยๆ นั้นสามารถแยกได้สองกลุ่มใหญ่ๆ นั่นคือ



  • ตัวแปรแบบกลุ่ม (Categorical Data) พวกนี้ แต่ละกลุ่มก็มีความหมายของตัวมันเอง ซึ่งแบ่งย่อยได้สองกลุ่ม คือ

    • Nominal แต่ละกลุ่มเป็นอิสระต่อกัน ไม่ค่อยเกี่ยวกัน ไม่เป็นลำดับ (order) เช่น เพศ รูปแบบเพลงที่ชอบเล่น (พูดง่ายๆ คือไม่ใช่ว่าเพศหญิงมีค่ามากกว่าเพศชาย หรือเพลงร็อกมีความมายมากกว่าเพลงเพื่อชีวิต) สำหรับตัวแปรชนิดนี้ ถ้ามีสองคำตอบ เช่น ใช่ หรือไม่ใช่ จะเรียกว่าเป็น Dichotomous หรือ Binary ครับ เช่นในตัวอย่างที่ผมยกนั้นคือตัวแปรที่บอกว่า "เคยใช้เครื่องช่วยฟังมาก่อนหรือไม่" นั้นคำตอบมีแค่ "ใช่" กับ "ไม่ใช่" เป็นต้นครับ

    • Ordinal พวกนี้จะมีลำดับขั้น แต่ไม่สามารถบอกได้ว่าขั้นไหนมากกว่าขั้นไหนได้อย่างชัดเจน (คือแต่ละขั้นมันอาจไม่เท่ากันก็ได้) ยกตัวอย่างพวกนี้เช่น ระดับความดังของเสียงผิดปกติของหัวใจ (เกรด I, II, III, ฯลฯ) ก็ไม่ได้หมายความว่า เสียงหัวใจเกรด II มากกว่าเกรด I ซักเท่าไหร่ เป็นต้น



  • ตัวแปรแบบช่วง (Interval Data) พวกนี้มักจะมีลำดับขั้นของมัน และเป็นลำดับขั้นที่แบ่งอย่างเท่าๆ พอๆ กัน แบ่งออกอีกเป็นสองกลุ่มครับ

    • Continuous ง่ายๆ คือพวกนี้เป็นตัวแปรที่สามารถจุดย่อยลงไปได้อีกเรื่อยๆ เช่น ระดับการได้ยินมีทั้งได้ยินที่ 25 dB, ได้ยินที่ 40.0056 dB เป็นต้น บางคนยังได้แยกตัวแปรที่มี "ศูนย์ที่แปลว่าไม่มี" ออกไปอีกเรียกว่า Ratio ครับ เช่นความยาวของขน (ยาว=0 หมายถึงไม่มีความยาวจริงๆ) เป็นต้น

    • Discrete คือเป็นสเกลที่แบ่งชัดเจน พวกนี้มีระยะห่างกันชัด (หรือสเกลแต่ละช่วงไฟมันเท่ากัน) ครับ เช่น จำนวนบุตร ก็ตอบ 1 2 3 4 ไม่มีใครตอบ 1.25 และเราก็รู้ว่า 2 มากกว่า 1 อยู่ 1 คน, 4 มากกว่า 1 อยู่ 3 คน เป็นต้นครับ




พอจะเข้าใจไหมครับ ยังไงลองมาคิดดูนะครับ ว่าตัวแปรต่อไปนี้เป็นตัวแปรแบบไหน



  • น้ำหนักของผู้ป่วย เช่น 60kg, 50.25kg, 40.7kg, ...

  • จำนวนบล็อกที่ผมเขียนในแต่ละเดือน เช่น 0, 1, 3, ...

  • จำนวนก้อนมะเร็งที่คอ เช่น 1 ก้อน, 2 ก้อน, 0 ก้อน, ...

  • ชนิดของมะเร็งที่ศีรษะที่พบในคนไทย เช่น มะเร็งโพรงจมูก, มะเร็งต่อมน้ำลาย, มะเร็งกล่องเสียง...

  • ลักษณะของเม็ดเลือดแดงที่ผิดปกติ เช่น 1+, 3+, 4+, ...


.

.

.

.

.

.

เฉลยนะครับ



  • น้ำหนัก เป็น continuous interval data ครับ เพราะมันสามารถจุดย่อยลงไปได้เรื่อยๆ และมีความหมาย นอกจากนี้ถ้าแยกย่อย มันก็คือ ratio เพราะมันมี 0 แท้จริงครับ (0 kg = ไม่มีน้ำหนัก)

  • จำนวนบล็อก เป็น discrete interval data ครับ เพราะไม่มีเขียนบล็อก 1.05 บล็อกแน่ๆ แต่ความแตกต่างระหว่างเขียน 3 กับ 2 บล็อก มันเหมือนกันกับความแตกต่างระหว่างเขียน 8 กับ 7 บล็อก (นั่นคือ สเกลมันเท่ากันตลอดนั่นเอง)

  • จำนวนก้อนมะเร็งที่คอ เป็น discrete interval data เหมือนกัน

  • ชนิดของมะเร็ง เป็น nominal เพราะไม่รู้ว่าจะเรียงมะเร็งอันไหนมาก่อนมาหลังดี มันก็สำคัญเท่าๆ กันไปหมด

  • ลักษณะของเม็ดเลือดแดง เป็น ordinal ครับเพราะว่า เรียงได้ 0 1+ 2+ 3+ 4+ แต่ว่า 1+ เทียบกับกับ 0 อาจจะไม่เท่ากับ 4+ เทียบ 3+


งงไหมครับ จริงๆ รู้แค่ว่าเป็น continuous หรือ categorical ก็เพียงพอต่อการเลือกสถิติเข้าใช้ครับ ไว้ต่อไปผมจะเขียนเรื่องที่เกี่ยวข้องนะครับ :)