Taking too long? Close loading screen.

Simpson’s Paradox: ตัวแปรแฝงที่เปลี่ยนแปลงข้อสรุป กับ 2 กรณีตัวอย่างที่น่าเหลือเชื่อ

Apr 3, 2023
Simpson's Paradox
รูปที่ 1 Simpson’s Paradox in a nutshell ที่มา analyticsindiamag

Simpson’s Paradox คืออะไร?

ความขัดแย้งของซิมป์สัน  (Simpson’s Paradox) เป็นปรากฏการณ์ทางสถิติ ที่เกิดขึ้นในกรณีที่แนวโน้มของข้อมูลมีทิศทางสลับด้านกันเมื่อมีการแบ่งกลุ่มของข้อมูลย่อย โดยในบทความนี้ผู้เขียนจะนำเสนอตัวอย่างที่น่าสนใจในการการสรุปข้อมูลจากข้อมูลชุดเดียวกัน แต่สามารถได้ข้อสรุปที่ตรงกันข้ามกัน

Case Study 1: เคสการอคติทางเพศของ UC Berkeley (Dexter, 2017)

เมื่อปี 1973 มหาวิทยาลัย UC Berkeley มีประเด็นเรื่องการมีอคติทางเพศ เนื่องจากเมื่อดูสถิติการรับนักศึกษาเข้าแล้ว มีนักเรียนเพศหญิงเพียง 35% (จาก 4321 คน) ที่ได้รับการคัดเลือกเพื่อเข้าเรียน แต่นักเรียนเพศชายกลับได้รับคัดเลือกเพื่อเข้าเรียนถึง 44% (จาก 8442 คน) จึงกลายเป็นประเด็นทางสังคมในเรื่องความไม่เท่าเทียมทางเพศ

ตารางที่ 1: อัตราการได้เข้าเรียนจำแนกตามเพศ

ต้นตอของความไม่เท่าเทียมอยู่ที่ไหน?

ซึ่งเมื่อทางมหาวิทยาลัย UC Berkeley ได้เห็นข้อมูลนี้ แล้วจึงได้ทำการสืบค้นข้อมูลเพิ่มเติม เพื่อทีจะชี้เป้าว่าภาควิชาใด ที่เป็นต้นตอของความไม่เท่าเทียมทางเพศในครั้งนี้ จากนั้นจึงได้เผยข้อมูลสรุปสำหรับ 6 ภาควิชา ที่มีจำนวนผู้สมัครมากที่สุดได้ดังนี้

ตารางที่ 2: เปรียบเทียบอัตราการได้เข้าเรียนจำแนกตามเพศและภาควิชา

การสรุปข้อมูลในแง่มุมนี้ได้ให้ข้อสรุปที่แตกต่างกัน โดยสามารถสรุปได้ว่ามีทั้งหมด 4 ภาควิชา (จาก 6) ที่มีอัตราส่วนการรับนักเรียนเพศหญิงสูงกว่าอัตราส่วนการรับนักเรียนเพศชาย ซึ่งขัดแย้งกับแนวโน้มภาพรวมที่อัตราการรับนักเรียนชายสูงกว่า

ทำไมข้อมูลถึงขัดแย้งกัน?

Simpson's Paradox in UC Berkeley Admission
รูปที่ 2: ภาควิชา A ที่มีอัตราการรับสูง มีผู้สมัครหญิงน้อย แต่ภาควิชา F ที่มีอัตราการรับเข้าต่ำมีจำนวนผู้สมัครทั้งสองเพศใกล้เคียงกัน

โดยที่คำถามต่อไปที่น่าสนใจก็คือ เกิดอะไรขึ้นกับข้อมูลชุดนี้ ? ในกรณีนี้เราอาจจะเรียกว่ามีตัวแปรแฝง (Lurking Variable) ซึ่งในกรณีนี้คือ “ภาควิชา” โดยผู้อ่านสามารถสังเกตได้ว่าภาควิชา A มีอัตราการรับที่สูงมาก (82% ของนักเรียนหญิงที่สมัครภาควิชานี้) แต่มีจำนวนนักเรียนหญิงที่สมัครเข้าภาควิชา A เพียง 108 คน (คิดเป็น 2% ของนักเรียนหญิงที่สมัครทั้งหมด) แต่มีจำนวนนักเรียนชายที่สมัครเข้าภาควิชา A อยู่ถึง 825 คน (คิดเป็น 10% ของนักเรียนชายที่สมัครทั้งหมด)

ในทางกลับกัน ภาควิชา F นั้นมีอัตราการรับนักศึกษาต่ำนั้นมีผู้สมัครที่เป็นนักเรียนหญิง 341 คน (คิดเป็น 8% ของนักเรียนหญิงที่สมัครทั้งหมด) แต่มีผู้สมัครที่เป็นนักเรียนชายเพียง 373 คน (คิดเป็น 4% ของนักเรียนชายที่สมัครทั้งหมด) ดังนั้นเมื่อทำการวิเคราะห์จากข้อมูลสถิตินี้ อาจะสรุปได้ว่า ผู้สมัครเพศหญิงมีแนวโน้มที่จะสมัครเข้าภาควิชาที่มีอัตราการคัดเลือกเข้าเรียนต่ำ (ภาควิชา F) แต่ผู้สมัครเพศชายมีแนวโน้มที่จะสมัครเข้าภาควิชาที่มีอัตราการคัดเลือกเข้าเรียนสูง (ภาควิชา A) จึงเป็นสาเหตุให้เกิด Simpson’s Paradox ในครั้งนี้

Case Study 2: การสูบบุหรี่ทำให้อายุยืน (David R. Appleton, 1996)

ในปี ค.ศ. 1996 ได้มีงานวิจัยที่ประเทศอังกฤษ โดยทำการศึกษาเปรียบเทียบอัตราการรอดชีวิต 20 ปี ระหว่างกลุ่มตัวอย่างที่สูบบุหรี่ และกลุ่มที่ไม่สูบบุหรี่ โดยคณะผู้วิจัยพบว่ากลุ่มตัวอย่างที่สูบบุหรี่ นั้นมีอัตราการมีชีวิตรอด (ไม่เสียชีวิตภายใน 20 ปี) สูงกว่ากลุ่มตัวอย่างที่สูบบุหรี่ (76% สำหรับผู้สูบบุหรี่ และ 69% สำหรับผู้ไม่สูบบุหรี่) ในเบื้องต้นนั้นจะสามารถสรุปได้ว่าการสูบบุหรี่นั้นทำให้มีอายุยืนมากขึ้น

ตารางที่ 3: เปรียบเทียบจำนวนการรอดชีวิตในระยะ 20 ปี ระหว่างกลุ่มตัวอย่างที่สูบบุหรี่ และไม่สูบบุหรี่

ตัวแปรแฝงอยู่ที่ไหน?

แน่นอนว่าข้อสรุปเบื้องต้นที่ได้นั้นค่อนข้างตรงกันข้ามกับสิ่งที่เรารู้และเข้าใจกัน ในกรณีนี้เราวิเคราะห์แบบเจาะลึก (Drill Down) ว่าสาเหตุที่แท้จริงที่ทำให้ข้อมูลออกมาเป็นลักษณะใด เพื่อที่จะค้นหา ผู้ร้ายตัวจริง (Lurking Variable) โดยนำกลุ่มตัวอย่างมาแบ่งเป็น 2 กลุ่มอายุ (18-65 ปี และ 65 ปีขึ้นไป) จะสามารถระบุสาเหตุเบื้องหลังแท้จริงนั้นเป็นที่การกระจายตัวของอายุในกลุ่มตัวอย่าง

ตารางที่ 4: อัตราการรอดชีวิตเมื่อ Drill Down ด้วยกลุ่มอายุ

เมื่อวิเคราะห์แบบจำแนกกลุ่มอายุตามตารางด้านบน จะพบว่ากลุ่มที่ไม่สูบบุหรี่นั้น มีอัตราการรอดชีวิตสูงกว่ากลุ่มที่สูบบุหรี่ในทั้งสองกลุ่มอายุ ซึ่งตรงกันข้ามกับข้อสรุปเมื่อทำการพิจารณาจากภาพรวม

ความขัดแย้งเชิงข้อมูลในกรณีนี้เกิดจากความเอนเอียงในการสุ่มตัวอย่าง (Sampling Bias) โดยจะพบว่ากลุ่มตัวอย่างที่ไม่สูบบุหรี่นั้นมีสัดส่วนที่ของผู้มีอายุเกิน 65 ปีถึง 26% แต่กลุ่มที่สูบบุหรี่มีสัดส่วนของผู้ที่มีอายุเกิน 65 ปีอยู่เพียง 8% ดังนั้นอัตราการรอดชีวิตของกลุ่มที่ไม่สูบบุหรี่จึงมีน้อยกว่า ในการวิเคราะห์แบบภาพรวม

ข้อสรุปและวิธีการหลีกเลี่ยง Simpson’s Paradox

ในปัจจุบันข้อมูลนั้น ถือเป็นสินทรัพย์ที่มีค่าสำหรับหลาย ๆ องค์กรในการตัดสินใจโดยการขับเคลื่อนด้วยข้อมูล (Data-Driven Decision Making) ซึ่งบทความนี้ ได้ทำการแสดงกรณีตัวอย่างของการแสดงผลของข้อมูล ให้ตรงกันข้ามกันกับความเป็นจริง เพื่อลดความเสี่ยงในการตีความผิดพลาดที่เกิดจาก Simpson’s Paradox ผู้วิเคราะห์ข้อมูลควรจะทำการหาตัวแปรแฝง (Lurking Variables) โดยพิจารณาสิ่งต่อไปนี้

  1. เพิ่มการวิเคราะห์ข้อมูลแบบ Drill Down: ในกรณีที่มีข้อมูลหลาย ตัวแปร ผู้วิเคราะห์สามารถแบ่งกลุ่มข้อมูล (Group by) ก่อนทำการคำนวณสถิติสรุป เพื่อหาตัวแปรแฝง (Lurking Variables)
  2. ควบคุมการ Sampling Bias: ควรตรวจสอบการกระจายตัวของข้อมูลในกลุ่มตัวอย่าง ว่ามีความสมดุลกันมากหรือน้อยเพียงใด
  3. ปรึกษาผู้เชี่ยวชาญเฉพาะด้าน: ความเข้าใจในบริบทของข้อมูลนั้นมีความสำคัญอย่างยิ่งต่อการวิเคราะห์ข้อมูล ดังนั้นจึงต้องขอความเห็นจากผู้ที่มีความรู้เฉพาะทาง (Domain Experts) เพื่อระบุสาเหตุ และตัวแปรแฝงที่เป็นไปได้

แหล่งอ้างอิงเพิ่มเติม

  1. Ignoring a Covariate: An Example of Simpson’s Paradox
  2. How UC Berkeley Almost Got Sued For SEX Discrimination….LYING Data?
  3. The curious case of Simpson’s Paradox
  4. Bayesian Trap: กับดักจากความแม่นยำ
  5. เลือกแผนภาพอย่างไรสำหรับการทำ Data Visualization
  6. Sampling Bias and How to Avoid It | Types & Examples
  7. เตรียมข้อมูลอย่างไรให้โมเดล Linear Regression ดีขึ้น

Weerapat Satitkanitkul

Data Scientist Government Big Data Institute (GBDi)

Ananwat Tippawat

Data Scientist Government Big Data institute (GBDi)

Sign up to join Big Data Community Thailand

Make comments, write articles, and contribute to our community.