naywinaung Biostatistics Chapter 11 Regression Analysis: Some Additional Techniques

Chapter 11 Regression Analysis: Some Additional Techniques

အခန်း ၁၁ ဖြစ်တဲ့ “ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်းဆိုင်ရာ အပိုဆောင်းနည်းစနစ်များ (Regression Analysis: Some Additional Techniques)” အကြောင်းကို အသေးစိတ် ဆွေးနွေးပေးပါမယ်။

ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်းဆိုင်ရာ အပိုဆောင်းနည်းစနစ်များ (Regression Analysis: Some Additional Techniques)

ဒီအခန်း ၁၁ ကတော့ ကျွန်တော်တို့ အခန်း ၉ နဲ့ ၁၀ မှာ လေ့လာခဲ့ကြတဲ့ ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်း (Regression Analysis) နည်းလမ်းတွေကို ဆက်ပြီး ချဲ့ထွင်ထားတာပါ။ အရင်အခန်းတွေမှာတော့ မှီခိုပြောင်းလဲကိန်း (dependent variable) တစ်ခုနဲ့ သီးခြားပြောင်းလဲကိန်း (independent variable) တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုတာတွေရဲ့ ဆက်နွယ်မှုကို လေ့လာခဲ့ကြတယ်။
ဒီအခန်းမှာတော့ တကယ့်လက်တွေ့ အချက်အလက်တွေမှာ ကြုံတွေ့ရနိုင်တဲ့ ပိုရှုပ်ထွေးတဲ့ အခြေအနေတချို့အတွက် Regression နည်းလမ်းတွေကို ဘယ်လို အသုံးချမလဲဆိုတာကို ပြောပြထားပါတယ်။
အဓိကအားဖြင့် အချက် (၃) ချက်လောက်ကို ဆွေးနွေးထားတာ တွေ့ရပါတယ်။
၁။ အရည်အချင်းကို ကိုယ်စားပြုသော သီးခြားပြောင်းလဲကိန်းများ (Qualitative Independent Variables)
၂။ ပြောင်းလဲကိန်း ရွေးချယ်ခြင်း နည်းစနစ်များ (Variable Selection Procedures)
၃။ လော့ဂျစ်စတစ် ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်း (Logistic Regression)

ကဲ၊ တစ်ခုချင်းစီကို အသေးစိတ် ဆက်သွားကြရအောင်။

၁။ အရည်အချင်းကို ကိုယ်စားပြုသော သီးခြားပြောင်းလဲကိန်းများ (Qualitative Independent Variables)
ကျွန်တော်တို့ Regression ကို သုံးတဲ့အခါ သီးခြားပြောင်းလဲကိန်း (independent variable) တွေက ကိန်းဂဏာန်းတန်ဖိုးတွေ (quantitative variables) ဖြစ်နေရင် ပြဿနာမရှိပါဘူး။ ဥပမာ- အသက်၊ အရပ်၊ ကိုယ်အလေးချိန် စသဖြင့်ပေါ့။ ဒါပေမဲ့ တချို့ ပြောင်းလဲကိန်းတွေကျတော့ အမျိုးအစားတွေ (categories) သာ ရှိတဲ့ အရည်အချင်းပြောင်းလဲကိန်း (qualitative variables) တွေ ဖြစ်နေနိုင်တယ်။ ဥပမာ- လူနာရဲ့ ကျား/မ (gender)၊ ဆေးရုံ အမျိုးအစား (hospital type)၊ ဆေးလိပ် သောက်/မသောက် (smoking status) စသဖြင့်ပေါ့။

Regression Model ထဲကို ဒီလို အရည်အချင်းပြောင်းလဲကိန်းတွေကို ထည့်သွင်းဖို့အတွက် Dummy Variable လို့ခေါ်တဲ့ နည်းလမ်းကို သုံးပါတယ်။ Dummy variable တွေကတော့ အမျိုးအစားတစ်ခုစီကို ကိန်းဂဏာန်းတန်ဖိုး (ဥပမာ- ၀ သို့မဟုတ် ၁) သတ်မှတ်ပေးခြင်းဖြင့် အရည်အချင်းပြောင်းလဲကိန်းကို ကိန်းဂဏာန်းပုံစံအဖြစ် ပြောင်းလဲပေးတာပါ။ ဥပမာ- ဆေးလိပ် သောက်/မသောက် ဆိုတဲ့ ပြောင်းလဲကိန်းအတွက် Dummy variable တစ်ခု ဖန်တီးမယ်ဆိုရင် ဆေးလိပ်သောက်သူကို ၁၊ မသောက်သူကို ၀ လို့ သတ်မှတ်နိုင်ပါတယ်။ ဆေးရုံ ၃ မျိုးဆိုရင်တော့ Dummy variable ၂ ခု လိုအပ်ပါလိမ့်မယ်။

ဒီလို Dummy variable တွေကို Regression model ထဲ ထည့်လိုက်တဲ့အခါ၊ Model က အဲဒီ အရည်အချင်းပြောင်းလဲကိန်း အမျိုးအစားတစ်ခုစီအတွက် သီးခြား Regression equation (သီးခြား y-intercept သို့မဟုတ် သီးခြား slope) တွေကို ခန့်မှန်းပေးနိုင်ပါတယ်။ အဲဒီ Dummy variable တွေရဲ့ Regression coefficient တွေကို စစ်ဆေးခြင်းဖြင့် အမျိုးအစားအချင်းချင်းကြားမှာ မှီခိုပြောင်းလဲကိန်း (dependent variable) ရဲ့ ပျမ်းမျှတန်ဖိုးကွာခြားမှု ရှိ၊ မရှိကို စမ်းသပ်နိုင်ပါတယ်။

၂။ ပြောင်းလဲကိန်း ရွေးချယ်ခြင်း နည်းစနစ်များ (Variable Selection Procedures)

တချို့ လေ့လာမှုတွေမှာ မှီခိုပြောင်းလဲကိန်းတစ်ခုကို ခန့်မှန်းဖို့အတွက် သီးခြားပြောင်းလဲကိန်းပေါင်းများစွာ (independent variables) ကို စုဆောင်းထားနိုင်ပါတယ်။ ဥပမာ- မှီခိုပြောင်းလဲကိန်း Y နဲ့ ဆက်နွယ်နိုင်တဲ့ X1, X2, X3, X4, X5, X6 ဆိုပြီး ပြောင်းလဲကိန်း ၆ ခု ရှိနိုင်တယ်။ ဒီပြောင်းလဲကိန်းတွေ အကုန်လုံးကို Model ထဲ ထည့်သင့်သလား၊ ဘယ်ဟာတွေကို ထည့်သင့်သလဲဆိုတာကို ဆုံးဖြတ်ဖို့ လိုအပ်ပါတယ်။ ဘာလို့လဲဆိုတော့ မသက်ဆိုင်တဲ့ ပြောင်းလဲကိန်းတွေကို Model ထဲ ထည့်ရင် Model ရဲ့ ခန့်မှန်းနိုင်စွမ်းကို ထိခိုက်နိုင်လို့ပါ။

ဒါ့ကြောင့် Variable Selection Procedures လို့ခေါ်တဲ့ နည်းလမ်းတွေကို အသုံးပြုပါတယ်။ ဒီနည်းစနစ်တွေက သီးခြားပြောင်းလဲကိန်းတွေထဲက ဘယ်ဟာတွေကို Regression Model မှာ ထည့်သွင်းသင့်လဲဆိုတာကို သိပ္ပံနည်းကျ ရွေးချယ်ပေးတာပါ။ ဒီအခန်းမှာ Stepwise Regression ဆိုတဲ့ နည်းလမ်းကို မိတ်ဆက်ပေးထားပါတယ်။ Stepwise regression ကတော့ ပြောင်းလဲကိန်းတွေကို တစ်ခုပြီးတစ်ခု Model ထဲ ထည့်သွင်းတာ ဒါမှမဟုတ် Model ထဲက ပြန်ထုတ်ပယ်တာမျိုးကို အဆင့်လိုက် လုပ်ဆောင်ပြီး အကောင်းဆုံး Model ကို ရှာဖွေတဲ့ နည်းလမ်းပါ။ ဒီနည်းလမ်းမှာ ပြောင်းလဲကိန်းတစ်ခုကို Model ထဲ ထည့်/မထည့် ဒါမှမဟုတ် ထုတ်/မထုတ်ဖို့အတွက် F-statistic တန်ဖိုး (F-to-Enter, F-to-Remove) လို စံနှုန်းတွေကို သုံးပါတယ်။

၃။ လော့ဂျစ်စတစ် ဆက်စပ်တန်ဖိုး ခန့်မှန်းတွက်ချက်ခြင်း (Logistic Regression)

ကျွန်တော်တို့ အခန်း ၉ နဲ့ ၁၀ မှာ လေ့လာခဲ့တဲ့ Linear Regression က မှီခိုပြောင်းလဲကိန်း (dependent variable) ကိန်းဂဏာန်းတန်ဖိုး ဖြစ်နေတဲ့ အခြေအနေတွေအတွက် ကောင်းကောင်း အလုပ်လုပ်ပါတယ်။ ဒါပေမဲ့ မှီခိုပြောင်းလဲကိန်းက ဟုတ်/မဟုတ် (Yes/No)၊ ဖြစ်/မဖြစ် (Occurred/Not Occurred) စသဖြင့် အဖြေ ၂ ခုသာ ရှိတဲ့ Dichotomous Variable ဖြစ်နေခဲ့ရင် Linear Regression ကို တိုက်ရိုက်သုံးဖို့ မသင့်တော်ပါဘူး။ ဘာလို့လဲဆိုတော့ Linear Regression Model ကနေ ရလာတဲ့ ခန့်မှန်းတန်ဖိုး (predicted value) တွေက ၀ နဲ့ ၁ ကြားမှာပဲ ရှိရမယ့် Probability (ဖြစ်နိုင်ခြေ) ကို ကိုယ်စားပြုရမှာ ဖြစ်ပေမယ့် Linear Regression Model က တန်ဖိုးတွေက ၀ အောက် ဒါမှမဟုတ် ၁ အထက် ဖြစ်သွားနိုင်လို့ပါ။

ဒီလိုအခြေအနေမျိုးအတွက် Logistic Regression လို့ခေါ်တဲ့ အထူး Regression နည်းလမ်းကို သုံးပါတယ်။ Logistic Regression က မှီခိုပြောင်းလဲကိန်း ဖြစ်နိုင်ခြေ (probability) ကို တိုက်ရိုက်ခန့်မှန်းပေးတာမဟုတ်ဘဲ၊ Logit Transformation လို့ခေါ်တဲ့ ln(p/(1-p)) ကို ခန့်မှန်းပေးတာပါ။ p ဆိုတာက မှီခိုပြောင်းလဲကိန်း ဖြစ်နိုင်ခြေ ဖြစ်ပြီး၊ (1-p) က မဖြစ်နိုင်ခြေ ဖြစ်ပါတယ်။ p/(1-p) ဆိုတာကတော့ Odds လို့ခေါ်တဲ့ ဖြစ်နိုင်ခြေနဲ့ မဖြစ်နိုင်ခြေ အချိုးပါ။ ဒါ့ကြောင့် Logistic Regression Model က log odds (ln(Odds)) ကို ခန့်မှန်းပေးတယ်လို့ ပြောနိုင်ပါတယ်။

Logistic Regression Model ကို အောက်ပါအတိုင်း ရေးလို့ရပါတယ်:
ln(p / (1-p)) = b0 + b1x1 + b2x2 + … + bk*xk

ဒီ Model ကနေ p (ဖြစ်နိုင်ခြေ) ကို ပြန်လိုချင်ရင် အောက်ပါ Formula ကို သုံးလို့ ရပါတယ်:
p = exp(b0 + b1x1 + … + bkxk) / (1 + exp(b0 + b1x1 + … + bkxk))

Logistic Regression ရဲ့ Coefficient တွေကို Linear Regression လို တိုက်ရိုက်အဓိပ္ပာယ်ဖွင့်လို့ မရပါဘူး။ ဒါပေမဲ့ exp(b) ကို တွက်လိုက်ရင် Odds Ratio (OR) လို့ခေါ်တဲ့ တန်ဖိုး ရလာပါတယ်။ Odds Ratio ကတော့ သီးခြားပြောင်းလဲကိန်း (x) တစ်ယူနစ် ပြောင်းသွားတဲ့အခါ မှီခိုပြောင်းလဲကိန်းရဲ့ Odds (ဖြစ်နိုင်ခြေ/မဖြစ်နိုင်ခြေ အချိုး) က ဘယ်နှစ်ဆ ပြောင်းလဲသွားသလဲဆိုတာကို ပြောပြပါတယ်။ ဥပမာ- exp(b1) = 2 ဆိုရင် x1 တစ်ယူနစ် တိုးလာတာနဲ့အမျှ မှီခိုပြောင်းလဲကိန်း ဖြစ်နိုင်ခြေ Odds က ၂ ဆ တိုးလာတယ်လို့ အဓိပ္ပာယ်ရပါတယ်။

Logistic Regression Model က ကောင်းမွန်ရဲ့လားဆိုတာကို စစ်ဆေးဖို့အတွက် Coefficient တွေရဲ့ t-test နဲ့ ဆင်တူတဲ့ z-test (သို့မဟုတ် chi-square test) တွေကို အသုံးပြုပါတယ်။ Pseudo-R2 လို တိုင်းတာမှုတွေကလည်း Model ရဲ့ Fit ကို ကြည့်ဖို့ အသုံးဝင်ပါတယ်။

နိဂုံး

ဒီတော့ အချုပ်အားဖြင့်ပြောရရင် ဒီအခန်း ၁၁ က ကျွန်တော်တို့ Regression Analysis ရဲ့ အသုံးချနိုင်မှုနယ်ပယ်ကို ချဲ့ထွင်ပေးလိုက်တာပေါ့။ အရည်အချင်း ပြောင်းလဲကိန်းတွေ ပါလာရင် Dummy Variable ကို သုံးတာ၊ ပြောင်းလဲကိန်းများလွန်းရင် Variable Selection နည်းလမ်း (Stepwise Regression လို) ကို သုံးတာ၊ မှီခိုပြောင်းလဲကိန်းက Dichotomous ဖြစ်နေရင် Logistic Regression ကို သုံးတာ စတဲ့ အခြေခံကျတဲ့ အပိုဆောင်းနည်းစနစ်တွေကို မိတ်ဆက်ပေးထားပါတယ်။ ဒါတွေက တကယ့်လက်တွေ့ ကျန်းမာရေးဆိုင်ရာ လေ့လာမှုတွေမှာ အသုံးများတဲ့ နည်းလမ်းတွေ ဖြစ်ပါတယ်။


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

Chapter 5 SOME IMPORTANT SAMPLING DISTRIBUTIONSChapter 5 SOME IMPORTANT SAMPLING DISTRIBUTIONS

အခန်း (၅) တွင်ပါဝင်သော “အရေးကြီးသော နမူနာဖြန့်ဝေမှုအချို့” (SOME IMPORTANT SAMPLING DISTRIBUTIONS) သည် စာရင်းအင်းဘာသာရပ်ရှိ အရေးကြီးဆုံး အခန်းများထဲမှ တစ်ခုဖြစ်ပြီး၊ ဖော်ပြချက်ဆိုင်ရာစာရင်းအင်း (descriptive statistics) နှင့် ဖြစ်နိုင်ခြေသဘောတရား (probability) တို့မှ ကောက်ချက်ဆွဲခြင်းဆိုင်ရာစာရင်းအင်း (inferential statistics) သို့ ကူးပြောင်းရာတွင် အဓိကတံတားအဖြစ် တည်ရှိနေသည်။ ကောက်ချက်ဆွဲခြင်းဆိုသည်မှာ လူဦးရေ

Daniel Chapter 3:Daniel Chapter 3:

Daniel Chapter 3:အခြေခံ ဖြစ်နိုင်ခြေ သဘောတရားများ (Some Basic Probability Concepts)Chapter 3 ဟာ ဖြစ်နိုင်ခြေရဲ့ အခြေခံသဘောတရားတွေကို မိတ်ဆက်ပေးပြီး ကိန်းဂဏန်းဆိုင်ရာ ကောက်ချက်ချမှုတွေအတွက် အုတ်မြစ်ချပေးပါတယ်ဒီအခန်းရဲ့ အဓိကရည်ရွယ်ချက်ကတော့ ကျန်းမာရေးသိပ္ပံနယ်ပယ်မှာ အသုံးဝင်တဲ့ ဖြစ်နိုင်ခြေဆိုင်ရာ အယူအဆတွေနဲ့ တွက်ချက်မှုတွေကို နားလည်စေဖို့ ဖြစ်ပါတယ်။ဖြစ်နိုင်ခြေကို ရှုထောင့်နှစ်မျိုးနဲ့ ကြည့်နိုင်ပါတယ်။ပထမတစ်ခုကတော့ ရည်ရွယ်ချက်အခြေခံ ဖြစ်နိုင်ခြေ (Objective

ANOVAANOVA

Analysis of Variance (ANOVA) ဆိုတာ ဘာလဲ၊ ဘာလို့သုံးတာလဲပြောရမယ်ဆိုရင် Analysis of Variance လို့ခေါ်တဲ့ ANOVA ဟာ ကိန်းဂဏန်းအချက်အလက်တွေကို ခွဲခြမ်းစိတ်ဖြာတဲ့ နည်းလမ်းတစ်ခုပါ။ ဒီအခန်းရဲ့ ရည်ရွယ်ချက်ကတော့ linear models လို့ခေါ်တဲ့ နည်းလမ်းတွေထဲက ပထမဆုံး နည်းလမ်းအကြောင်းကို မိတ်ဆက်ပေးဖို့ပါပဲ။ANOVA ရဲ့ အဓိက အိုင်ဒီယာ ကတော့ ဒေတာတစ်ခုလုံးမှာ