ทำไมเราต้องตรวจความสัมพันธ์ระหว่างตัวแปรพยากรณ์ (Multicollinearity)

Multicollinearity คือ ปัญหาที่เกิดขึ้นเมื่อตัวแปรพยากรณ์ในโมเดลการถดถอยมีความสัมพันธ์กันสูง ปัญหานี้ส่งผลต่อความแม่นยำและความน่าเชื่อถือของผลลัพธ์การวิเคราะห์ ดังนี้

1. ประมาณค่าสัมประสิทธิ์การถดถอยที่ไม่เสถียร:

  • เมื่อตัวแปรพยากรณ์มีความสัมพันธ์กันสูง การเปลี่ยนแปลงเล็กน้อยในข้อมูลอาจส่งผลต่อค่าประมาณสัมประสิทธิ์การถดถอยอย่างมาก ส่งผลให้ค่าประมาณมีความไม่เสถียรและยากจะตีความ

2. ค่า p ที่ไม่น่าเชื่อถือ:

  • Multicollinearity ทำให้ค่า p ของค่าสัมประสิทธิ์การถดถอยมีขนาดเล็กลง ซึ่งอาจทำให้เข้าใจผิดว่าตัวแปรพยากรณ์มีความสัมพันธ์กับตัวแปรตามอย่างมีนัยสำคัญทางสถิติ ทั้งๆที่ไม่เป็นความจริง

3. ลดความสามารถในการอธิบาย:

  • เมื่อตัวแปรพยากรณ์มีความสัมพันธ์กันสูง ตัวแปรเหล่านี้จะอธิบายความแปรปรวนของตัวแปรตามซ้ำซ้อนกัน ส่งผลให้ค่า R-squared ของโมเดลสูงเกินจริง แต่ความสามารถในการอธิบายจริงๆ (Adjusted R-squared) กลับต่ำ

4. ยากต่อการแปลผล:

  • เมื่อตัวแปรพยากรณ์มีความสัมพันธ์กันสูง ยากที่จะแยกแยะผลกระทบของตัวแปรแต่ละตัวต่อตัวแปรตาม

วิธีการตรวจสอบ Multicollinearity:

  • ค่า Variance Inflation Factor (VIF): ค่า VIF ที่สูง (มากกว่า 10) บ่งบอกถึงปัญหา Multicollinearity
  • ค่า Eigenvalues: ค่า Eigenvalues ที่ต่ำ (น้อยกว่า 1) บ่งบอกถึงปัญหา Multicollinearity
  • การดูค่า Correlation Matrix: ค่า Correlation Matrix ที่สูง (มากกว่า 0.5) บ่งบอกถึงปัญหา Multicollinearity

วิธีการแก้ไข Multicollinearity:

  • การคัดเลือกตัวแปร: ลบตัวแปรที่มีความสัมพันธ์กันสูงออกจากโมเดล
  • การแปลงตัวแปร: แปลงตัวแปรที่มีความสัมพันธ์กันสูงให้เป็นตัวแปรใหม่ที่ไม่สัมพันธ์กัน
  • การใช้เทคนิคทางสถิติ: ใช้เทคนิคทางสถิติ เช่น Ridge regression, Lasso regression, Elastic net regression

สรุป:

การตรวจสอบ Multicollinearity เป็นสิ่งสำคัญในการวิเคราะห์การถดถอย เพื่อป้องกันปัญหาต่างๆ ที่อาจเกิดขึ้น ส่งผลต่อความแม่นยำและความน่าเชื่อถือของผลลัพธ์การวิเคราะห์

Scroll to Top