အခန်း ၁၁ ဖြစ်တဲ့ “ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်းဆိုင်ရာ အပိုဆောင်းနည်းစနစ်များ (Regression Analysis: Some Additional Techniques)” အကြောင်းကို အသေးစိတ် ဆွေးနွေးပေးပါမယ်။
ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်းဆိုင်ရာ အပိုဆောင်းနည်းစနစ်များ (Regression Analysis: Some Additional Techniques)
ဒီအခန်း ၁၁ ကတော့ ကျွန်တော်တို့ အခန်း ၉ နဲ့ ၁၀ မှာ လေ့လာခဲ့ကြတဲ့ ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်း (Regression Analysis) နည်းလမ်းတွေကို ဆက်ပြီး ချဲ့ထွင်ထားတာပါ။ အရင်အခန်းတွေမှာတော့ မှီခိုပြောင်းလဲကိန်း (dependent variable) တစ်ခုနဲ့ သီးခြားပြောင်းလဲကိန်း (independent variable) တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုတာတွေရဲ့ ဆက်နွယ်မှုကို လေ့လာခဲ့ကြတယ်။
ဒီအခန်းမှာတော့ တကယ့်လက်တွေ့ အချက်အလက်တွေမှာ ကြုံတွေ့ရနိုင်တဲ့ ပိုရှုပ်ထွေးတဲ့ အခြေအနေတချို့အတွက် Regression နည်းလမ်းတွေကို ဘယ်လို အသုံးချမလဲဆိုတာကို ပြောပြထားပါတယ်။
အဓိကအားဖြင့် အချက် (၃) ချက်လောက်ကို ဆွေးနွေးထားတာ တွေ့ရပါတယ်။
၁။ အရည်အချင်းကို ကိုယ်စားပြုသော သီးခြားပြောင်းလဲကိန်းများ (Qualitative Independent Variables)
၂။ ပြောင်းလဲကိန်း ရွေးချယ်ခြင်း နည်းစနစ်များ (Variable Selection Procedures)
၃။ လော့ဂျစ်စတစ် ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်း (Logistic Regression)
ကဲ၊ တစ်ခုချင်းစီကို အသေးစိတ် ဆက်သွားကြရအောင်။
၁။ အရည်အချင်းကို ကိုယ်စားပြုသော သီးခြားပြောင်းလဲကိန်းများ (Qualitative Independent Variables)
ကျွန်တော်တို့ Regression ကို သုံးတဲ့အခါ သီးခြားပြောင်းလဲကိန်း (independent variable) တွေက ကိန်းဂဏာန်းတန်ဖိုးတွေ (quantitative variables) ဖြစ်နေရင် ပြဿနာမရှိပါဘူး။ ဥပမာ- အသက်၊ အရပ်၊ ကိုယ်အလေးချိန် စသဖြင့်ပေါ့။ ဒါပေမဲ့ တချို့ ပြောင်းလဲကိန်းတွေကျတော့ အမျိုးအစားတွေ (categories) သာ ရှိတဲ့ အရည်အချင်းပြောင်းလဲကိန်း (qualitative variables) တွေ ဖြစ်နေနိုင်တယ်။ ဥပမာ- လူနာရဲ့ ကျား/မ (gender)၊ ဆေးရုံ အမျိုးအစား (hospital type)၊ ဆေးလိပ် သောက်/မသောက် (smoking status) စသဖြင့်ပေါ့။
Regression Model ထဲကို ဒီလို အရည်အချင်းပြောင်းလဲကိန်းတွေကို ထည့်သွင်းဖို့အတွက် Dummy Variable လို့ခေါ်တဲ့ နည်းလမ်းကို သုံးပါတယ်။ Dummy variable တွေကတော့ အမျိုးအစားတစ်ခုစီကို ကိန်းဂဏာန်းတန်ဖိုး (ဥပမာ- ၀ သို့မဟုတ် ၁) သတ်မှတ်ပေးခြင်းဖြင့် အရည်အချင်းပြောင်းလဲကိန်းကို ကိန်းဂဏာန်းပုံစံအဖြစ် ပြောင်းလဲပေးတာပါ။ ဥပမာ- ဆေးလိပ် သောက်/မသောက် ဆိုတဲ့ ပြောင်းလဲကိန်းအတွက် Dummy variable တစ်ခု ဖန်တီးမယ်ဆိုရင် ဆေးလိပ်သောက်သူကို ၁၊ မသောက်သူကို ၀ လို့ သတ်မှတ်နိုင်ပါတယ်။ ဆေးရုံ ၃ မျိုးဆိုရင်တော့ Dummy variable ၂ ခု လိုအပ်ပါလိမ့်မယ်။
ဒီလို Dummy variable တွေကို Regression model ထဲ ထည့်လိုက်တဲ့အခါ၊ Model က အဲဒီ အရည်အချင်းပြောင်းလဲကိန်း အမျိုးအစားတစ်ခုစီအတွက် သီးခြား Regression equation (သီးခြား y-intercept သို့မဟုတ် သီးခြား slope) တွေကို ခန့်မှန်းပေးနိုင်ပါတယ်။ အဲဒီ Dummy variable တွေရဲ့ Regression coefficient တွေကို စစ်ဆေးခြင်းဖြင့် အမျိုးအစားအချင်းချင်းကြားမှာ မှီခိုပြောင်းလဲကိန်း (dependent variable) ရဲ့ ပျမ်းမျှတန်ဖိုးကွာခြားမှု ရှိ၊ မရှိကို စမ်းသပ်နိုင်ပါတယ်။
၂။ ပြောင်းလဲကိန်း ရွေးချယ်ခြင်း နည်းစနစ်များ (Variable Selection Procedures)
တချို့ လေ့လာမှုတွေမှာ မှီခိုပြောင်းလဲကိန်းတစ်ခုကို ခန့်မှန်းဖို့အတွက် သီးခြားပြောင်းလဲကိန်းပေါင်းများစွာ (independent variables) ကို စုဆောင်းထားနိုင်ပါတယ်။ ဥပမာ- မှီခိုပြောင်းလဲကိန်း Y နဲ့ ဆက်နွယ်နိုင်တဲ့ X1, X2, X3, X4, X5, X6 ဆိုပြီး ပြောင်းလဲကိန်း ၆ ခု ရှိနိုင်တယ်။ ဒီပြောင်းလဲကိန်းတွေ အကုန်လုံးကို Model ထဲ ထည့်သင့်သလား၊ ဘယ်ဟာတွေကို ထည့်သင့်သလဲဆိုတာကို ဆုံးဖြတ်ဖို့ လိုအပ်ပါတယ်။ ဘာလို့လဲဆိုတော့ မသက်ဆိုင်တဲ့ ပြောင်းလဲကိန်းတွေကို Model ထဲ ထည့်ရင် Model ရဲ့ ခန့်မှန်းနိုင်စွမ်းကို ထိခိုက်နိုင်လို့ပါ။
ဒါ့ကြောင့် Variable Selection Procedures လို့ခေါ်တဲ့ နည်းလမ်းတွေကို အသုံးပြုပါတယ်။ ဒီနည်းစနစ်တွေက သီးခြားပြောင်းလဲကိန်းတွေထဲက ဘယ်ဟာတွေကို Regression Model မှာ ထည့်သွင်းသင့်လဲဆိုတာကို သိပ္ပံနည်းကျ ရွေးချယ်ပေးတာပါ။ ဒီအခန်းမှာ Stepwise Regression ဆိုတဲ့ နည်းလမ်းကို မိတ်ဆက်ပေးထားပါတယ်။ Stepwise regression ကတော့ ပြောင်းလဲကိန်းတွေကို တစ်ခုပြီးတစ်ခု Model ထဲ ထည့်သွင်းတာ ဒါမှမဟုတ် Model ထဲက ပြန်ထုတ်ပယ်တာမျိုးကို အဆင့်လိုက် လုပ်ဆောင်ပြီး အကောင်းဆုံး Model ကို ရှာဖွေတဲ့ နည်းလမ်းပါ။ ဒီနည်းလမ်းမှာ ပြောင်းလဲကိန်းတစ်ခုကို Model ထဲ ထည့်/မထည့် ဒါမှမဟုတ် ထုတ်/မထုတ်ဖို့အတွက် F-statistic တန်ဖိုး (F-to-Enter, F-to-Remove) လို စံနှုန်းတွေကို သုံးပါတယ်။
၃။ လော့ဂျစ်စတစ် ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်း (Logistic Regression)
ကျွန်တော်တို့ အခန်း ၉ နဲ့ ၁၀ မှာ လေ့လာခဲ့တဲ့ Linear Regression က မှီခိုပြောင်းလဲကိန်း (dependent variable) ကိန်းဂဏာန်းတန်ဖိုး ဖြစ်နေတဲ့ အခြေအနေတွေအတွက် ကောင်းကောင်း အလုပ်လုပ်ပါတယ်။ ဒါပေမဲ့ မှီခိုပြောင်းလဲကိန်းက ဟုတ်/မဟုတ် (Yes/No)၊ ဖြစ်/မဖြစ် (Occurred/Not Occurred) စသဖြင့် အဖြေ ၂ ခုသာ ရှိတဲ့ Dichotomous Variable ဖြစ်နေခဲ့ရင် Linear Regression ကို တိုက်ရိုက်သုံးဖို့ မသင့်တော်ပါဘူး။ ဘာလို့လဲဆိုတော့ Linear Regression Model ကနေ ရလာတဲ့ ခန့်မှန်းတန်ဖိုး (predicted value) တွေက ၀ နဲ့ ၁ ကြားမှာပဲ ရှိရမယ့် Probability (ဖြစ်နိုင်ခြေ) ကို ကိုယ်စားပြုရမှာ ဖြစ်ပေမယ့် Linear Regression Model က တန်ဖိုးတွေက ၀ အောက် ဒါမှမဟုတ် ၁ အထက် ဖြစ်သွားနိုင်လို့ပါ။
ဒီလိုအခြေအနေမျိုးအတွက် Logistic Regression လို့ခေါ်တဲ့ အထူး Regression နည်းလမ်းကို သုံးပါတယ်။ Logistic Regression က မှီခိုပြောင်းလဲကိန်း ဖြစ်နိုင်ခြေ (probability) ကို တိုက်ရိုက်ခန့်မှန်းပေးတာမဟုတ်ဘဲ၊ Logit Transformation လို့ခေါ်တဲ့ ln(p/(1-p)) ကို ခန့်မှန်းပေးတာပါ။ p ဆိုတာက မှီခိုပြောင်းလဲကိန်း ဖြစ်နိုင်ခြေ ဖြစ်ပြီး၊ (1-p) က မဖြစ်နိုင်ခြေ ဖြစ်ပါတယ်။ p/(1-p) ဆိုတာကတော့ Odds လို့ခေါ်တဲ့ ဖြစ်နိုင်ခြေနဲ့ မဖြစ်နိုင်ခြေ အချိုးပါ။ ဒါ့ကြောင့် Logistic Regression Model က log odds (ln(Odds)) ကို ခန့်မှန်းပေးတယ်လို့ ပြောနိုင်ပါတယ်။
Logistic Regression Model ကို အောက်ပါအတိုင်း ရေးလို့ရပါတယ်:
ln(p / (1-p)) = b0 + b1x1 + b2x2 + … + bk*xk
ဒီ Model ကနေ p (ဖြစ်နိုင်ခြေ) ကို ပြန်လိုချင်ရင် အောက်ပါ Formula ကို သုံးလို့ ရပါတယ်:
p = exp(b0 + b1x1 + … + bkxk) / (1 + exp(b0 + b1x1 + … + bkxk))
Logistic Regression ရဲ့ Coefficient တွေကို Linear Regression လို တိုက်ရိုက်အဓိပ္ပာယ်ဖွင့်လို့ မရပါဘူး။ ဒါပေမဲ့ exp(b) ကို တွက်လိုက်ရင် Odds Ratio (OR) လို့ခေါ်တဲ့ တန်ဖိုး ရလာပါတယ်။ Odds Ratio ကတော့ သီးခြားပြောင်းလဲကိန်း (x) တစ်ယူနစ် ပြောင်းသွားတဲ့အခါ မှီခိုပြောင်းလဲကိန်းရဲ့ Odds (ဖြစ်နိုင်ခြေ/မဖြစ်နိုင်ခြေ အချိုး) က ဘယ်နှစ်ဆ ပြောင်းလဲသွားသလဲဆိုတာကို ပြောပြပါတယ်။ ဥပမာ- exp(b1) = 2 ဆိုရင် x1 တစ်ယူနစ် တိုးလာတာနဲ့အမျှ မှီခိုပြောင်းလဲကိန်း ဖြစ်နိုင်ခြေ Odds က ၂ ဆ တိုးလာတယ်လို့ အဓိပ္ပာယ်ရပါတယ်။
Logistic Regression Model က ကောင်းမွန်ရဲ့လားဆိုတာကို စစ်ဆေးဖို့အတွက် Coefficient တွေရဲ့ t-test နဲ့ ဆင်တူတဲ့ z-test (သို့မဟုတ် chi-square test) တွေကို အသုံးပြုပါတယ်။ Pseudo-R2 လို တိုင်းတာမှုတွေကလည်း Model ရဲ့ Fit ကို ကြည့်ဖို့ အသုံးဝင်ပါတယ်။
နိဂုံး
ဒီတော့ အချုပ်အားဖြင့်ပြောရရင် ဒီအခန်း ၁၁ က ကျွန်တော်တို့ Regression Analysis ရဲ့ အသုံးချနိုင်မှုနယ်ပယ်ကို ချဲ့ထွင်ပေးလိုက်တာပေါ့။ အရည်အချင်း ပြောင်းလဲကိန်းတွေ ပါလာရင် Dummy Variable ကို သုံးတာ၊ ပြောင်းလဲကိန်းများလွန်းရင် Variable Selection နည်းလမ်း (Stepwise Regression လို) ကို သုံးတာ၊ မှီခိုပြောင်းလဲကိန်းက Dichotomous ဖြစ်နေရင် Logistic Regression ကို သုံးတာ စတဲ့ အခြေခံကျတဲ့ အပိုဆောင်းနည်းစနစ်တွေကို မိတ်ဆက်ပေးထားပါတယ်။ ဒါတွေက တကယ့်လက်တွေ့ ကျန်းမာရေးဆိုင်ရာ လေ့လာမှုတွေမှာ အသုံးများတဲ့ နည်းလမ်းတွေ ဖြစ်ပါတယ်။