Regression လွယ်သလား၊ ခက်သလား
(စာများတယ်၊ အရုပ်မပါဘူး… စိတ်ဝင်စားသူများသာ ဖတ်ရှုပါ။ ခေါင်းမူးလျှင် တာဝန်မယူပါ)
အဟေဟေ
စာရင်းအင်းပညာမှာ regression model ကို ဘာကြောင့် သုံးရတာသလဲ၊ ဘာတွေကို အဓိက ရှာဖွေချင်တာလဲ၊ ရလဒ်တွေကို ဘယ်လို သုံးသပ်ပြီး တင်ပြရမလဲ ဆိုတာကို ရိုးရိုးရှင်းရှင်းနှင့် နားလည်လွယ်အောင် ရှင်းပြချင်ပါတယ်။
Regression model ကို သုံးရတဲ့ ရည်ရွယ်ချက်က အများကြီး ရှိပါတယ်၊ ဒါပေမဲ့ အဓိက လေးချက်လောက်ကိုပဲ ကနဦးပြောပြချင်ပါတယ်။
1. ဆက်စပ်မှု ရှင်းပြချင်တာ (Description / Explanation)
ဘယ် variable တွေ အချင်းချင်း ဆက်စပ်နေလဲ၊ ဘယ်လို ဆက်စပ်နေလဲ ဆိုတာ နားလည်ချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ ကြော်ငြာ ပိုက်ဆံ ပိုသုံးရင် ရောင်းအား တက်လာသလားဆိုတာ သိချင်တယ်။ ဘယ်လောက် ဆက်စပ်လဲ၊ အပြုသဘော လား အပျက်သဘော လား ဆိုတာ ရှင်းချင်တာမျိုး။
2. ခန့်မှန်းချက် ထုတ်ချင်တာ (Prediction / Forecasting)
အရင်က data တွေကနေ အနာဂတ်မှာ ဘာဖြစ်နိုင်မလဲ ခန့်မှန်းချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ အိမ်ခြံမြေ ဈေးက နောက်လ ဘယ်လောက်ဖြစ်မလဲ၊ ရောင်းအား ဘယ်လောက်ထွက်မလဲ ဆိုတာ ကြိုတင် တွက်ချင်တာမျိုး။ ဒါက စီးပွားရေး၊ စျေးကွက်၊ ရာသီဥတု ခန့်မှန်းတာ စတဲ့ နေရာမှာ အရမ်း အသုံးဝင်ပါတယ်။
3. အကျိုးသက်ရောက်မှု ပမာဏ တိုင်းတာချင်တာ (Estimation of Effects)
Independent variable တစ်ခုက dependent variable ကို ဘယ်လောက် ပြောင်းလဲစေလဲ ဆိုတာ အတိအကျ သိချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ ကြော်ငြာခ ၁ သန်း ထပ်သုံးရင် ရောင်းအား ဘယ်လောက် ထပ်တက်မလဲ၊ အလုပ်သမား တစ်ယောက် ထပ်ငှားရင် ထုတ်လုပ်မှု ဘယ်လောက် တိုးမလဲ ဆိုတာ တိုင်းချင်တာမျိုး။
4. အခြားစွက်ဖက်မှုတွေကို ထိန်းချုပ်ပြီး နားလည်ချင်တာ (Control / Adjusting for Confounders)
တခြား variable တွေ ထိန်းထားပြီး တကယ့် ဆက်စပ်မှု ကို သီးသန့် မြင်ချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ လူနာ အသက်၊ ကိုယ်အလေးချိန် စတဲ့ အချက်တွေ ထိန်းထားပြီး ဆေးတစ်မျိုးက သွေးပေါင်ချိန် ကို ဘယ်လောက် လျှော့ပေးလဲ ဆိုတာ သိချင်တာမျိုး။
Regression လုပ်ရင် အဓိကရှာဖွေတဲ့ အချက်တွေကတော့
– Coefficient (β သို့မဟုတ် b)
predictor တစ်ခုချင်း ရဲ့ အကျိုးသက်ရောက်မှု ပမာဏ။ ဥပမာ ကြော်ငြာ ၁ သန်း တိုးရင် ရောင်းအား ၅၀၀ ထပ်တက်တယ်ဆို အဲဒီ ၅၀၀ ကို ရှာတာ။ အပေါင်း (+) ဆို အပြုသဘော၊ အနှုပ် (-) ဆို အပျက်သဘော။
– p-value
ဒီ coefficient က တကယ် အရေးပါလား၊ ဒါမှမဟုတ် ကံကြောင့်၊ တိုက်ဆိုင်မှုကြောင့်ပဲ ဖြစ်နေတာလား။ များသောအားဖြင့် p < 0.05 ဆို အရေးပါတယ်လို့ ယူဆကြပါတယ်။
– R-squared (R²)
model က dependent variable ရဲ့ ပြောင်းလဲမှု ဘယ်လောက် ရှင်းပြပေးနိုင်သလဲ။ ၀.၇ ဆို ၇၀% ရှင်းပြတယ်လို့ ဆိုနိုင်ပါတယ်။ မြင့်ရင် ကောင်းပါတယ်၊ ဒါပေမဲ့ အရမ်းမြင့်ရင် overfitting ဖြစ်နိုင်ပါတယ်။
– Intercept (β₀)
predictor တွေ အားလုံး သုည ဖြစ်ရင် dependent variable ဘယ်လောက်ရှိမလဲ။ တခါတလေ အဓိပ္ပာယ်ရှိပေမဲ့ တခါတလေတော့ အဓိပ္ပါယ် သိပ်မရှိပါဘူး။
– Confidence Interval
coefficient ရဲ့ တန်ဖိုး အတိအကျ မဟုတ်ဘဲ အတိုင်းအတာ တစ်ခု အတွင်း ရှိနေတယ်ဆိုတာ ပြသတဲ့ အခြေအနေပါ။
ရလဒ်တွေထွက်လာတဲ့အခါ ဒီလိုတင်ပြကြပါတယ်။
1. Model ရဲ့ အလုံးစုံ ကောင်းမွန်မှုကို အရင်ဆုံးပြောရပါတယ်
“ဒီ model က R² = 0.65 ရှိတယ်၊ ဆိုလိုတာ ရောင်းအား ပြောင်းလဲမှု ရဲ့ ၆၅% ကို ကြော်ငြာ၊ ဈေးနှုန်း၊ ရာသီ စတဲ့ အချက်တွေက ရှင်းပြပေးနိုင်ပါတယ်။ F-test က p < 0.001 ဆိုတော့ model တစ်ခုလုံး အရေးပါတယ်”ဆိုတဲ့ ရှင်းပြမှုပုံစံမျိုးပေါ့။ ပြီးရင်
2. တစ်ခုချင်း variable ရဲ့ အရေးပါမှုကို ပြောကြပါတယ်
“ကြော်ငြာ ပိုက်ဆံ တစ်သန်း တိုးရင် ရောင်းအား ပျမ်းမျှ ၄၈၀ ယူနစ် ထပ်တက်ပါတယ် (β = 480, p = 0.002)။ ဒါက အတော်လေး သိသာတယ်”ပေါ့။ ဆက်ပြီး
3. လက်တွေ့ အဓိပ္ပာယ်ကို ထည့်ပြီးပြောကြပါတယ်
“ဆိုလိုတာက ကြော်ငြာ ဘတ်ဂျက် တိုးရင် ရောင်းအား တိုးလာနိုင်ခြေ မြင့်ပါတယ်။ ဒါပေမဲ့ ဈေးနှုန်း တစ်ရာခိုင်နှုန်း တက်ရင်တော့ ရောင်းအား ၁၂၀ ယူနစ်လောက် ကျဆင်းနိုင်ပါတယ် (β = -120, p = 0.01)။ ဒါကြောင့် ဈေးချ၊မချ တက်၊မတက် သတိထားရပါမယ်”ဆိုတဲ့ သုံးသပ်ချက်မျိုးပေါ့။ ပြီးရင်တော့
4. ကန့်သတ်ချက်တွေကို ထည့်ပြီးပြောရပါတယ်။
“ဒီ model က အရင် data တွေအပေါ် အခြေခံထားတာပါ။ အနာဂတ်မှာ အခြေအနေ ပြောင်းရင် မတူနိုင်ပါဘူး။ Multicollinearity ရှိမရှိ စစ်ထားပြီး၊ residual တွေ ပုံမှန်ရှိမရှိ ကြည့်ထားပါတယ်” ဆိုပြီး သုံးသပ်ချက်တွေ ရေးသားကြရပါတယ်။
ဆက်လက်ပြီး အသုံးများတဲ့ regression model လေးတွေအကြောင်း နည်းနည်း ထပ်ပြောချင်ပါတယ်။
Linear Regression ဆိုတာက အခြေခံအကျဆုံး model တစ်ခုဖြစ်ပါတယ်။ ဒီ model က dependent variable နဲ့ independent variable တွေ ကြားမှာ အဖြောင့် ဆက်နွယ်မှု (straight-line relationship) ရှိတယ်လို့ ယူဆပြီး တွက်ချက်တာပါ။ Ordinary least squares (OLS) နည်းနဲ့ residual တွေရဲ့ squares တွေ အားလုံးပေါင်းပြီး အနည်းဆုံးဖြစ်အောင် လုပ်ပေးပါတယ်။ ဥပမာ ကြော်ငြာသုံးလိုက်တဲ့ ပိုက်ဆံ နဲ့ ရောင်းအား ဘယ်လောက်ထွက်မလဲ ဆိုတာမျိုး ခန့်မှန်းချင်ရင် သုံးကြပါတယ်။ ရိုးရှင်းတဲ့ continuous outcome တွေအတွက် အဆင်ပြေဆုံး model ဖြစ်ပါတယ်။
Polynomial Regression ကတော့ Linear Regression ကို နည်းနည်း အဆင့်မြှင့်ထားတာပါ။ တည့်တည့်မဟုတ်ဘဲ ကွေးနေတဲ့ပုံစံနဲ့ ဆက်နွယ်နေတဲ့ အခါ (curved relationship) သုံးပါတယ်။ x²၊ x³ လို polynomial terms တွေ ထည့်ပြီး feature တွေကို ပြောင်းလဲပြီး OLS နဲ့ ဆက်တွက်တာဖြစ်ပါတယ်။ လူဦးရေ တိုးပွားမှု ဒါမှမဟုတ် စီးပွားရေးမှာ diminishing returns မျိုး ဖြစ်တဲ့ အခါ အဆင်ပြေပါတယ်။
Ridge Regression က Linear Regression ရဲ့ ပိုကောင်းတဲ့ ဗားရှင်း တစ်မျိုးဖြစ်ပါတယ်။ Loss function ထဲကို L2 penalty (λ∑β²) ထည့်ပြီး coefficient တွေကို အနည်းငယ် ကျုံ့ပေးလိုက်ပါတယ်။ Multicollinearity ရှိတဲ့ အခါ (predictor တွေ အချင်းချင်း အရမ်းဆက်စပ်နေရင်) အရမ်းကို အဆင်ပြေပါတယ်။ Overfitting လျှော့ချပြီး model ကို ပိုတည်ငြိမ်အောင် လုပ်ပေးနိုင်ပါတယ်။ Socioeconomic data မျိုးတွေမှာ သုံးလေ့ရှိပါတယ်။
Lasso Regression ကတော့ L1 penalty (λ∑|β|) သုံးပါတယ်။ Coefficient တွေ ကျုံ့ရုံတင်မကဘဲ အရေးမပါတဲ့ တချို့ကို သုညအဖြစ် သုံးလိုက်ပါတယ် (zero ဖြစ်သွားတယ်)။ ဒါကြောင့် automatic feature selection လုပ်ပေးနိုင်ပါတယ်။ High-dimensional data မျိုး၊ ဥပမာ genomics မှာ ဘယ် gene တွေ အဓိက ပါလဲ ရှာချင်ရင် အရမ်းကောင်းပါတယ်။
Elastic Net Regression က Lasso နဲ့ Ridge ရဲ့ အကောင်းဆုံး အချက်တွေကို ရောစပ်ထားတာမျိုး ဖြစ်ပါတယ်။ L1 နဲ့ L2 penalty နှစ်မျိုးလုံး ထည့်ထားပါတယ် (λ₁∑|β| + λ₂∑β²)။ တစ်ချိန်တည်းမှာ feature selection လုပ်ချင်ရင်း correlated variables တွေကိုပါ ကောင်းကောင်း group လုပ်ပေးနိုင်ပါတယ်။ Marketing analytics လို feature အများကြီး ရှိတဲ့ နေရာမှာ အဆင်ပြေပါတယ်။
Stepwise Regression က နည်းနည်းလေး ကွဲပြားပါတယ်။ Model ကို တစ်ဆင့်ချင်း တည်ဆောက်တာမျိုးပါ။ Forward၊ backward ဒါမှမဟုတ် bidirectional နည်းနဲ့ predictor တွေ ထည့်တာ/ထုတ်တာတွေ လုပ်ပါတယ်။ AIC၊ BIC ဒါမှမဟုတ် p-value တွေကို ကြည့်ပြီး ဆုံးဖြတ်ပါတယ်။ ရှာဖွေတဲ့ အဆင့်မှာ (exploratory) သုံးလေ့ရှိပြီး ရိုးရှင်းတဲ့ model ရအောင် ကူညီပေးပါတယ်။
Bayesian Linear Regression က ပိုထူးခြားပါတယ်။ Coefficient တွေကို random variable လို့ သတ်မှတ်ပြီး prior distribution ပေးပါတယ်။ Bayes’ theorem နဲ့ posterior distribution တွက်ပါတယ်။ MCMC ဒါမှမဟုတ် variational inference နဲ့ တွက်ချက်ပါတယ်။ Prior knowledge ထည့်ချင်ရင်၊ data နည်းနည်းပဲ ရှိရင် အဆင်ပြေတဲ့ နည်းဖြစ်ပါတယ်။ Uncertainty ကိုပါ တိုင်းတာပေးနိုင်ပါတယ်။
Decision Tree Regression က tree ဆောက်ပြီး အဆက်ဆက် split လုပ်တဲ့ပုံစံမျိုးဖြစ်ပါတယ်။ Mean squared error အနည်းဆုံးဖြစ်အောင် feature တွေ ခွဲပါတယ်။ နောက်ဆုံး leaf node မှာ prediction ထုတ်ပါတယ်။ Non-linear ဆက်နွယ်မှုတွေ၊ interaction တွေ ကို ကောင်းကောင်း ဖမ်းနိုင်ပါတယ်။ နားလည်ရလွယ်ကူပါတယ်။ Customer risk scoring လို နေရာမှာ သုံးကြပါတယ်။
Random Forest Regression က Decision Tree တွေ အများကြီး (ရာချီ) တည်ဆောက်ပြီး ပျမ်းမျှ ယူတာမျိုးဖြစ်ပါတယ်။ Bootstrapped sample နဲ့ random feature subset သုံးပါတယ်။ Bagging နည်းနဲ့ variance လျှော့ချပါတယ်။ Overfitting သိပ်မဖြစ်ပါဘူး၊ noisy data မျိုးမှာ အရမ်းကောင်းပါတယ်။ တော်တော်များများ အတွက် အဆင်ပြေတဲ့ ရွေးချယ်မှု တစ်ခုဖြစ်ပါတယ်။
Support Vector Regression (SVR) က epsilon-insensitive tube ထဲမှာ data တွေ ဝင်အောင် hyperplane ရှာတာမျိုးဖြစ်ပါတယ်။ Tube အပြင်က ထွက်ရင်ပဲ penalty ပေးပါတယ်။ Kernel (ဥပမာ RBF) သုံးရင် non-linear လည်း လုပ်နိုင်ပါတယ်။ Quadratic optimization နဲ့ ဖြေရှင်းပါတယ်။ Data နည်းနည်း၊ noisy ဖြစ်နေရင် အဆင်ပြေပါတယ်။ Finance ဒါမှမဟုတ် time series မှာ သုံးလေ့ရှိတဲ့ model ဖြစ်ပါတယ်။
Partial Least Squares (PLS) Regression က predictor နဲ့ response နှစ်ခုလုံးကို latent variable တွေ အသစ်ဖန်တီးပြီး ဆက်စပ်မှု အများဆုံး ဖြစ်အောင် project လုပ်ပါတယ်။ Multicollinearity ရှိတဲ့ အခါ PCA ထက် ပိုကောင်းပါတယ်။ Spectroscopy ဒါမှမဟုတ် chemometrics လို high-dimensional correlated data မျိုးမှာ အထူးကောင်းမွန်တဲ့ model ဖြစ်ပါတယ်။
ဖတ်တဲ့သူတော့ မသိဘူး
ရေးတဲ့နပေတိုးကိုယ်တိုင် ခေါင်းမူးပြီ
အဟေဟ
နပေတိုး
Discover more from naywinaung
Subscribe to get the latest posts sent to your email.