ครับ วันนี้ผมขอเขียนถึงเรื่อง Forest Plot และ Heterogeneity Test ใน Meta-analysis นะครับ เพราะมีคนถามถึงบ่อย
Forest Plot นั้นก็คือการเรียบเรียงรายละเอียดของแต่ละ Study ย่อยครับ ปกติแล้วเวลาเอา RCT มาสรุปด้วยวิธีการทางสถิตินั้นมันจะมีแต่ตัวเลขเต็มไปหมด เขาก็เลยอาศัยกราฟขึ้นมาเพื่อให้เราสามารถตีความผลลัพธ์ที่ได้ดีขึ้นครับ
ยกตัวอย่างนะครับ จาก Systematic Review เรื่องการรักษาหูหนวกแบบฉับพลันที่ลงใน Arch Otol Laryngol: Conlin AE, Parnes LS. Treatment of sudden sensorineural hearing loss: II. A Meta-analysis. Arch Otolaryngol Head Neck Surg. 2007 Jun ;133(6):582-6. เขาทำการศึกษารวบรวม RCT ที่ให้ Steroid ในคนไข้หูหนวกฉับพลัน เทียบกับคนที่ได้ Placebo และ Outcome เป็นการหายจากหูหนวก โดยพบว่ามี 2 Study ย่อยดังนี้ครับ (คลิ๊กเพื่อดูรูปใหญ่นะครับ):
สังเกตนะครับ ว่าเขาจะเอาแต่ละ Study มาเรียงกันเป็นบรรทัด แล้วก็พล็อตเป็นเส้นขีด รวมถึงมีจุดสี่เหลี่ยมอยู่ตรงกลาง หลังจากนั้นเขาจะแสดงบรรทัด Total (คือการรวมของทุก Study) แล้วแสดงด้วยสี่เหลี่ยมข้าวหลามตัดไว้ในกราฟครับ สังเกตว่าถ้าเราตะแคงหัว 90 องศาจะเห็นกราฟนี้เป็นคล้ายๆ ป่าของต้นไม้ (นั่นคือที่มาของชื่อ Forest Plot น่ะเอง)
วิธีอ่านก็ไม่ยากเย็นอะไรครับ เช่นของ Study แรกนั้นก็แสดง OR อยู่ที่จุด 3.22 (จุดสี่เหลี่ยมจะอยู่ที่ 3.22) และมี 95% CI อยู่ที่ 1.18-8.76 (เส้นขีดจะขีดตั้งแต่ 1.18 ถึง 8.76) วิธีแปลผลก็แปลแบบ OR ธรรมดา (ลองอ่านโพสต์เก่า) เช่นในที่นี้ก็คือ คนที่ได้สเตียรอยด์ มีโอกาสหายเป็น 3.22 เท่าเมื่อเทียบกับ Placebo โดยเรามีความมั่นใจว่า ถ้าทำการทดลอง 100 ครั้งนั้น 95 ครั้งค่านี้จะอยู่ระหว่าง 1.18 ถึง 8.76 เท่าครับ (หรืออีกอย่างคือ ค่านี้มันน่าจะอยู่ในระหว่าง 1.18-8.76)
ส่วน Study อันที่สองนั้นก็เหมือนกันครับ ลองแปลดูเองก่อนนะครับ
.
.
นั่นคือ คนที่ได้ Steroid มีโอกาสหายเป็น 0.89 เท่าเมื่อเทียบกับคนที่ได้ Placebo โดยเรามั่นใจว่ามันจะอยู่ระหว่าง 0.10-7.86 ถ้างงว่าควรแปลยังไง เอาอะไรเทียบอะไร ให้เหลือบไปมองใต้กราฟครับ ว่าของเรามันอยู่ในช่วงที่ Favor Steroid หรือ Favor Placebo
ทีนี้ก็มาถึงตรงสรุปแล้วครับ ก็แปลแบบเดียวกันเป๊ะเลย แต่กราฟเขาพล็อตไว้ให้รูปมันแตกต่างไว้นั่นเอง จากกราฟนี้เราจะสรุปว่า คนที่ได้ Steroid นั้นจะมีโอกาสหายเป็น 2.47 เท่าของคนที่ได้ Placebo โดยเรามั่นใจว่ามันจะอยู่ที่ 0.89 ถึง 6.84 เท่านั่นเองครับ
สำหรับว่าทำไมสี่เหลี่ยมของสอง Study มันถึงขนาดไม่เท่ากัน นั้นถ้าอธิบายง่ายๆ ก็คือมันมีจำนวนคนใน Study นั้นไม่เท่ากันครับ เพราะฉะนั้น Study ที่คนน้อยกว่า เขาก็จะให้น้ำหนักน้อยกว่า (จริงๆ แล้วมีหลายวิธีในการให้น้ำหนักใน Study แต่ที่ง่ายๆ ก็คือให้ตามปริมาณคนใน Study)
ทีนี้ก็มาถึงการแปลผลของ Heterogeneity แล้วครับ
Heterogeneity คืออะไร? Heterogeneity แปลว่า ความไม่เป็นเนื้อเดียวกันครับ ง่ายๆ เลยคือเหมือนเราเอา ส้มเขียวหวาน มารวมกับ มะนาว แล้วดูเรื่องความเปรี้ยว แล้วเราจะเอามาสรุปว่าส้มมันเปรี้ยวก็คงลำบาก เนื่องจากว่าก็รู้ๆ อยู่ว่ามะนาว มันไม่ใช่ส้ม นั่นคือมันไม่เป็นเนื้อเดียวกัน หรือเป็น Heterogeneity นั่นเองครับ
ทีนี้เราจะบอกได้ยังไงว่าสิ่งที่เราดูอยู่มันต่างกัน? เพราะมันไม่ได้ง่ายเหมือนส้มหรือมะนาว… วิธีการของนักสถิติคือ เขาจะดูว่าค่าที่ได้มันไปในอารมณ์เดียวกันหรือเปล่าครับ โดยวิธีดูด้วยตาเปล่าคือ กราฟ 95%CI มันคร่อมกันหรือเปล่านั่นเอง
แต่ทั้งนี้เนื่องจากว่าเป็นนักสถิติ จะอธิบายด้วยตาเปล่าคงยังไงๆ อยู่ เขาก็เลยใช้วิธีการทางตัวเลขมาเพื่อตอบปัญหาในกรณีนี้ นั่นคือ Heterogeneity Test นั่นเองครับ โดย Heterogeneity Test นั้นมีสมมติฐานหลักว่า แต่ละค่าของการศึกษานั้นเป็นไปในทางเดียวกัน แล้วพยายามหาค่าโอกาสของความที่ Study มันต่างกัน (ซึ่งเป็น p-Value ของ Test) มาหักล้างนั่นเอง
อย่างในตัวอย่างข้างต้นที่กล่าวไป นั่นคือเขาทำ Heterogeneity Test ได้ Chi2 = 1.11 เมื่อแปลงมาเป็นค่า p-Value แล้วได้ 0.29 นั่นหมายความว่า “ในทางสถิติแล้ว โอกาสที่จะมี Study ที่ต่างกันซ่อนอยู่ (โอกาสที่มีมะนาวแอบอยู่) นั้น = 29%”
แล้วเราจะเอาเท่าไหร่เป็น cut-point ว่ามันเหมือนหรือไม่เหมือนละ? อันนี้ไม่มีคำตอบครับ ส่วนใหญ่เนื่องจาก Test นี้มันโหดน้อยไปหน่อย ถ้าเอา 0.05 แบบการแปลผล p-Value ทั่วไปแล้ว ก็จะกลายเป็นว่าทุกอันแทบไม่มีอันไหนไม่ต่างกันเลย เขาจึงเอาที่ 0.10 เป็นเกณฑ์ครับ หมายความว่า Study ใดๆ ที่มันได้ p น้อยกว่า 0.10 นั้นมันอาจมีความแตกต่างกันของ Study ซ่อนอยู่ภายใน
หรือถ้าในกรณีนี้ p=0.29 ก็คือ Study มันน่าจะไปในทางเดียวกันนั่นเอง ซึ่งสอดคล้องกับการที่ 95%CI มันคร่อมกันอยู่
ต่อจากนี้แล้วช่วงหลังเขาจะนิยมใส่ค่า I2 เข้ามาด้วยครับ ค่านี้เป็นค่าที่ได้มาจากการคำนวณของ Heterogeneity อีกทีหนึ่ง ซึ่งจะดีกว่าตรงที่มันไม่ต้องมี Cutpoint มันจะบอกเป็น % ให้เลยว่าโอกาสที่ Study มันแตกต่างน่าจะซักเท่าไหร่
อย่างในกรณีนี้ I2 = 9.5% แสดงว่ามันค่อนข้างไม่แตกต่างเท่าไหร่ครับ.. เอ แล้วจะเอาเท่าไหร่มาบอกว่ามันแตกต่างกันเยอะมากน้อยละ? อันนี้ก็กลับมาเรื่อง cutpoint อีกเหมือนเดิม แต่มีคนแนะนำคร่าวๆ ไว้ถ้าเกิดว่ามัน <25% มันก็แตกต่างไม่เท่าไหร่ 25-50% แตกต่างมากหน่อย >50% ควรระวังได้แล้ว แต่ทั้งนี้อย่าลืมว่า cutpoint นั้นไม่ใช่จุดชี้ชะตานะครับ เป็นแค่คำแนะนำจากนักสถิติเท่านั้นเอง (เพราะงั้นหนังสือแต่ละเล่มย่อมไม่เหมือนกันแน่ๆ)
แล้วทีนี้ Study แต่ละอันจะแตกต่างกันได้ยังไงบ้าง Source ของ Heterogeneity มันจะมาจากไหน?
- อาจแตกต่างกันในแง่ของการดำเนินงาน เช่น ทำในประชากรคนละที่, ให้ยาคนละ dose, เก็บข้อมูลกันคนละแบบ
- หรือแตกต่างในแง่ของคุณภาพการศึกษา (methodology quality) เช่น Randomize ดี รัดกุม อีกอัน โยนหัวก้อย หรืออันหนึ่ง Blind อีกอันไม่ Blind เป็นต้น
ซึ่งบางครั้งใน Meta-analysis ก็อาจแบ่ง Study เป็นหลายๆ แบบเพื่อดูว่าถ้าแบ่งตามยา dose น้อยแล้วผลมันจะเป็นอย่างไร หรือถ้าเอาเฉพาะ Study ที่คุณภาพดีๆ นั้นจะไปทางเดียวกันหรือเปล่า (ซึ่งก็อาจใช้ค่า I2 มาดูนั่นแหละครับว่าแบ่งแล้วมันดีขึ้น หรือมันแย่ลง)
สำหรับ Test for Overall Effect นั้นเป็นเรื่องเกี่ยวกับ Random Effects และ Fixed Effect Model ซึ่งค่อนข้างจะอธิบายนานครับ ยังไงผมขอผ่านไปก่อน เดี๋ยววันหลังจะมาอธิบายในตอนการ Appraise Systematic Review อีกทีให้นะครับ :)