naywinaung blog,statistics Regression လွယ်သလား၊ ခက်သလား

Regression လွယ်သလား၊ ခက်သလား

Regression လွယ်သလား၊ ခက်သလား
(စာများတယ်၊ အရုပ်မပါဘူး… စိတ်ဝင်စားသူများသာ ဖတ်ရှုပါ။ ခေါင်းမူးလျှင် တာဝန်မယူပါ)
အဟေဟေ

စာရင်းအင်းပညာမှာ regression model ကို ဘာကြောင့် သုံးရတာသလဲ၊ ဘာတွေကို အဓိက ရှာဖွေချင်တာလဲ၊ ရလဒ်တွေကို ဘယ်လို သုံးသပ်ပြီး တင်ပြရမလဲ ဆိုတာကို ရိုးရိုးရှင်းရှင်းနှင့်  နားလည်လွယ်အောင် ရှင်းပြချင်ပါတယ်။

Regression model ကို သုံးရတဲ့ ရည်ရွယ်ချက်က အများကြီး ရှိပါတယ်၊ ဒါပေမဲ့ အဓိက လေးချက်လောက်ကိုပဲ ကနဦးပြောပြချင်ပါတယ်။

1. ဆက်စပ်မှု ရှင်းပြချင်တာ (Description / Explanation)
   ဘယ် variable တွေ အချင်းချင်း ဆက်စပ်နေလဲ၊ ဘယ်လို ဆက်စပ်နေလဲ ဆိုတာ နားလည်ချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ ကြော်ငြာ ပိုက်ဆံ ပိုသုံးရင် ရောင်းအား တက်လာသလားဆိုတာ သိချင်တယ်။ ဘယ်လောက် ဆက်စပ်လဲ၊ အပြုသဘော လား အပျက်သဘော လား ဆိုတာ ရှင်းချင်တာမျိုး။

2. ခန့်မှန်းချက် ထုတ်ချင်တာ (Prediction / Forecasting)
   အရင်က data တွေကနေ အနာဂတ်မှာ ဘာဖြစ်နိုင်မလဲ ခန့်မှန်းချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ အိမ်ခြံမြေ ဈေးက နောက်လ ဘယ်လောက်ဖြစ်မလဲ၊ ရောင်းအား ဘယ်လောက်ထွက်မလဲ ဆိုတာ ကြိုတင် တွက်ချင်တာမျိုး။ ဒါက စီးပွားရေး၊ စျေးကွက်၊ ရာသီဥတု ခန့်မှန်းတာ စတဲ့ နေရာမှာ အရမ်း အသုံးဝင်ပါတယ်။

3. အကျိုးသက်ရောက်မှု ပမာဏ တိုင်းတာချင်တာ (Estimation of Effects) 
   Independent variable တစ်ခုက dependent variable ကို ဘယ်လောက် ပြောင်းလဲစေလဲ ဆိုတာ အတိအကျ သိချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ ကြော်ငြာခ ၁ သန်း ထပ်သုံးရင် ရောင်းအား ဘယ်လောက် ထပ်တက်မလဲ၊ အလုပ်သမား တစ်ယောက် ထပ်ငှားရင် ထုတ်လုပ်မှု ဘယ်လောက် တိုးမလဲ ဆိုတာ တိုင်းချင်တာမျိုး။

4. အခြားစွက်ဖက်မှုတွေကို ထိန်းချုပ်ပြီး နားလည်ချင်တာ (Control / Adjusting for Confounders) 
   တခြား variable တွေ ထိန်းထားပြီး တကယ့် ဆက်စပ်မှု ကို သီးသန့် မြင်ချင်တဲ့အခါ သုံးပါတယ်။ ဥပမာ လူနာ အသက်၊ ကိုယ်အလေးချိန် စတဲ့ အချက်တွေ ထိန်းထားပြီး ဆေးတစ်မျိုးက သွေးပေါင်ချိန် ကို ဘယ်လောက် လျှော့ပေးလဲ ဆိုတာ သိချင်တာမျိုး။

Regression လုပ်ရင် အဓိကရှာဖွေတဲ့ အချက်တွေကတော့
– Coefficient (β သို့မဟုတ် b)
predictor တစ်ခုချင်း ရဲ့ အကျိုးသက်ရောက်မှု ပမာဏ။ ဥပမာ ကြော်ငြာ ၁ သန်း တိုးရင် ရောင်းအား ၅၀၀ ထပ်တက်တယ်ဆို အဲဒီ ၅၀၀ ကို ရှာတာ။ အပေါင်း (+) ဆို အပြုသဘော၊ အနှုပ် (-) ဆို အပျက်သဘော။

– p-value
ဒီ coefficient က တကယ် အရေးပါလား၊ ဒါမှမဟုတ် ကံကြောင့်၊ တိုက်ဆိုင်မှုကြောင့်ပဲ ဖြစ်နေတာလား။ များသောအားဖြင့် p < 0.05 ဆို အရေးပါတယ်လို့ ယူဆကြပါတယ်။

– R-squared (R²)
model က dependent variable ရဲ့ ပြောင်းလဲမှု ဘယ်လောက် ရှင်းပြပေးနိုင်သလဲ။ ၀.၇ ဆို ၇၀% ရှင်းပြတယ်လို့ ဆိုနိုင်ပါတယ်။ မြင့်ရင် ကောင်းပါတယ်၊ ဒါပေမဲ့ အရမ်းမြင့်ရင် overfitting ဖြစ်နိုင်ပါတယ်။

– Intercept (β₀)
predictor တွေ အားလုံး သုည ဖြစ်ရင် dependent variable ဘယ်လောက်ရှိမလဲ။ တခါတလေ အဓိပ္ပာယ်ရှိပေမဲ့ တခါတလေတော့ အဓိပ္ပါယ် သိပ်မရှိပါဘူး။

– Confidence Interval
coefficient ရဲ့ တန်ဖိုး အတိအကျ မဟုတ်ဘဲ အတိုင်းအတာ တစ်ခု အတွင်း ရှိနေတယ်ဆိုတာ ပြသတဲ့ အခြေအနေပါ။

ရလဒ်တွေထွက်လာတဲ့အခါ ဒီလိုတင်ပြကြပါတယ်။

1. Model ရဲ့ အလုံးစုံ ကောင်းမွန်မှုကို အရင်ဆုံးပြောရပါတယ်
   “ဒီ model က R² = 0.65 ရှိတယ်၊ ဆိုလိုတာ ရောင်းအား ပြောင်းလဲမှု ရဲ့ ၆၅% ကို ကြော်ငြာ၊ ဈေးနှုန်း၊ ရာသီ စတဲ့ အချက်တွေက ရှင်းပြပေးနိုင်ပါတယ်။ F-test က p < 0.001 ဆိုတော့ model တစ်ခုလုံး အရေးပါတယ်”ဆိုတဲ့ ရှင်းပြမှုပုံစံမျိုးပေါ့။ ပြီးရင်

2. တစ်ခုချင်း variable ရဲ့ အရေးပါမှုကို ပြောကြပါတယ်
   “ကြော်ငြာ ပိုက်ဆံ တစ်သန်း တိုးရင် ရောင်းအား ပျမ်းမျှ ၄၈၀ ယူနစ် ထပ်တက်ပါတယ် (β = 480, p = 0.002)။ ဒါက အတော်လေး သိသာတယ်”ပေါ့။ ဆက်ပြီး

3. လက်တွေ့ အဓိပ္ပာယ်ကို ထည့်ပြီးပြောကြပါတယ် 
   “ဆိုလိုတာက ကြော်ငြာ ဘတ်ဂျက် တိုးရင် ရောင်းအား တိုးလာနိုင်ခြေ မြင့်ပါတယ်။ ဒါပေမဲ့ ဈေးနှုန်း တစ်ရာခိုင်နှုန်း တက်ရင်တော့ ရောင်းအား ၁၂၀ ယူနစ်လောက် ကျဆင်းနိုင်ပါတယ် (β = -120, p = 0.01)။ ဒါကြောင့် ဈေးချ၊မချ တက်၊မတက် သတိထားရပါမယ်”ဆိုတဲ့ သုံးသပ်ချက်မျိုးပေါ့။ ပြီးရင်တော့

4. ကန့်သတ်ချက်တွေကို ထည့်ပြီးပြောရပါတယ်။ 
   “ဒီ model က အရင် data တွေအပေါ် အခြေခံထားတာပါ။ အနာဂတ်မှာ အခြေအနေ ပြောင်းရင် မတူနိုင်ပါဘူး။ Multicollinearity ရှိမရှိ စစ်ထားပြီး၊ residual တွေ ပုံမှန်ရှိမရှိ ကြည့်ထားပါတယ်” ဆိုပြီး သုံးသပ်ချက်တွေ ရေးသားကြရပါတယ်။

ဆက်လက်ပြီး အသုံးများတဲ့ regression model လေးတွေအကြောင်း နည်းနည်း ထပ်ပြောချင်ပါတယ်။
Linear Regression ဆိုတာက အခြေခံအကျဆုံး model တစ်ခုဖြစ်ပါတယ်။ ဒီ model က dependent variable နဲ့ independent variable တွေ ကြားမှာ အဖြောင့် ဆက်နွယ်မှု (straight-line relationship) ရှိတယ်လို့ ယူဆပြီး တွက်ချက်တာပါ။ Ordinary least squares (OLS) နည်းနဲ့ residual တွေရဲ့ squares တွေ အားလုံးပေါင်းပြီး အနည်းဆုံးဖြစ်အောင် လုပ်ပေးပါတယ်။ ဥပမာ ကြော်ငြာသုံးလိုက်တဲ့ ပိုက်ဆံ နဲ့ ရောင်းအား ဘယ်လောက်ထွက်မလဲ ဆိုတာမျိုး ခန့်မှန်းချင်ရင် သုံးကြပါတယ်။ ရိုးရှင်းတဲ့ continuous outcome တွေအတွက် အဆင်ပြေဆုံး model ဖြစ်ပါတယ်။

Polynomial Regression ကတော့ Linear Regression ကို နည်းနည်း အဆင့်မြှင့်ထားတာပါ။ တည့်တည့်မဟုတ်ဘဲ ကွေးနေတဲ့ပုံစံနဲ့ ဆက်နွယ်နေတဲ့ အခါ (curved relationship) သုံးပါတယ်။ x²၊ x³ လို polynomial terms တွေ ထည့်ပြီး feature တွေကို ပြောင်းလဲပြီး OLS နဲ့ ဆက်တွက်တာဖြစ်ပါတယ်။ လူဦးရေ တိုးပွားမှု ဒါမှမဟုတ် စီးပွားရေးမှာ diminishing returns မျိုး ဖြစ်တဲ့ အခါ အဆင်ပြေပါတယ်။

Ridge Regression က Linear Regression ရဲ့ ပိုကောင်းတဲ့ ဗားရှင်း တစ်မျိုးဖြစ်ပါတယ်။ Loss function ထဲကို L2 penalty (λ∑β²) ထည့်ပြီး coefficient တွေကို အနည်းငယ် ကျုံ့ပေးလိုက်ပါတယ်။ Multicollinearity ရှိတဲ့ အခါ (predictor တွေ အချင်းချင်း အရမ်းဆက်စပ်နေရင်) အရမ်းကို အဆင်ပြေပါတယ်။ Overfitting လျှော့ချပြီး model ကို ပိုတည်ငြိမ်အောင် လုပ်ပေးနိုင်ပါတယ်။ Socioeconomic data မျိုးတွေမှာ သုံးလေ့ရှိပါတယ်။

Lasso Regression ကတော့ L1 penalty (λ∑|β|) သုံးပါတယ်။ Coefficient တွေ ကျုံ့ရုံတင်မကဘဲ အရေးမပါတဲ့ တချို့ကို သုညအဖြစ် သုံးလိုက်ပါတယ် (zero ဖြစ်သွားတယ်)။ ဒါကြောင့် automatic feature selection လုပ်ပေးနိုင်ပါတယ်။ High-dimensional data မျိုး၊ ဥပမာ genomics မှာ ဘယ် gene တွေ အဓိက ပါလဲ ရှာချင်ရင် အရမ်းကောင်းပါတယ်။

Elastic Net Regression က Lasso နဲ့ Ridge ရဲ့ အကောင်းဆုံး အချက်တွေကို ရောစပ်ထားတာမျိုး ဖြစ်ပါတယ်။ L1 နဲ့ L2 penalty နှစ်မျိုးလုံး ထည့်ထားပါတယ် (λ₁∑|β| + λ₂∑β²)။ တစ်ချိန်တည်းမှာ feature selection လုပ်ချင်ရင်း correlated variables တွေကိုပါ ကောင်းကောင်း group လုပ်ပေးနိုင်ပါတယ်။ Marketing analytics လို feature အများကြီး ရှိတဲ့ နေရာမှာ အဆင်ပြေပါတယ်။

Stepwise Regression က နည်းနည်းလေး ကွဲပြားပါတယ်။ Model ကို တစ်ဆင့်ချင်း တည်ဆောက်တာမျိုးပါ။ Forward၊ backward ဒါမှမဟုတ် bidirectional နည်းနဲ့ predictor တွေ ထည့်တာ/ထုတ်တာတွေ လုပ်ပါတယ်။ AIC၊ BIC ဒါမှမဟုတ် p-value တွေကို ကြည့်ပြီး ဆုံးဖြတ်ပါတယ်။ ရှာဖွေတဲ့ အဆင့်မှာ (exploratory) သုံးလေ့ရှိပြီး ရိုးရှင်းတဲ့ model ရအောင် ကူညီပေးပါတယ်။

Bayesian Linear Regression က ပိုထူးခြားပါတယ်။ Coefficient တွေကို random variable လို့ သတ်မှတ်ပြီး prior distribution ပေးပါတယ်။ Bayes’ theorem နဲ့ posterior distribution တွက်ပါတယ်။ MCMC ဒါမှမဟုတ် variational inference နဲ့ တွက်ချက်ပါတယ်။ Prior knowledge ထည့်ချင်ရင်၊ data နည်းနည်းပဲ ရှိရင် အဆင်ပြေတဲ့ နည်းဖြစ်ပါတယ်။ Uncertainty ကိုပါ တိုင်းတာပေးနိုင်ပါတယ်။

Decision Tree Regression က tree ဆောက်ပြီး အဆက်ဆက် split လုပ်တဲ့ပုံစံမျိုးဖြစ်ပါတယ်။ Mean squared error အနည်းဆုံးဖြစ်အောင် feature တွေ ခွဲပါတယ်။ နောက်ဆုံး leaf node မှာ prediction ထုတ်ပါတယ်။ Non-linear ဆက်နွယ်မှုတွေ၊ interaction တွေ ကို ကောင်းကောင်း ဖမ်းနိုင်ပါတယ်။ နားလည်ရလွယ်ကူပါတယ်။ Customer risk scoring လို နေရာမှာ သုံးကြပါတယ်။

Random Forest Regression က Decision Tree တွေ အများကြီး (ရာချီ) တည်ဆောက်ပြီး ပျမ်းမျှ ယူတာမျိုးဖြစ်ပါတယ်။ Bootstrapped sample နဲ့ random feature subset သုံးပါတယ်။ Bagging နည်းနဲ့ variance လျှော့ချပါတယ်။ Overfitting သိပ်မဖြစ်ပါဘူး၊ noisy data မျိုးမှာ အရမ်းကောင်းပါတယ်။ တော်တော်များများ အတွက် အဆင်ပြေတဲ့ ရွေးချယ်မှု တစ်ခုဖြစ်ပါတယ်။

Support Vector Regression (SVR) က epsilon-insensitive tube ထဲမှာ data တွေ ဝင်အောင် hyperplane ရှာတာမျိုးဖြစ်ပါတယ်။ Tube အပြင်က ထွက်ရင်ပဲ penalty ပေးပါတယ်။ Kernel (ဥပမာ RBF) သုံးရင် non-linear လည်း လုပ်နိုင်ပါတယ်။ Quadratic optimization နဲ့ ဖြေရှင်းပါတယ်။ Data နည်းနည်း၊ noisy ဖြစ်နေရင် အဆင်ပြေပါတယ်။ Finance ဒါမှမဟုတ် time series မှာ သုံးလေ့ရှိတဲ့ model ဖြစ်ပါတယ်။

Partial Least Squares (PLS) Regression က predictor နဲ့ response နှစ်ခုလုံးကို latent variable တွေ အသစ်ဖန်တီးပြီး ဆက်စပ်မှု အများဆုံး ဖြစ်အောင် project လုပ်ပါတယ်။ Multicollinearity ရှိတဲ့ အခါ PCA ထက် ပိုကောင်းပါတယ်။ Spectroscopy ဒါမှမဟုတ် chemometrics လို high-dimensional correlated data မျိုးမှာ အထူးကောင်းမွန်တဲ့ model ဖြစ်ပါတယ်။

ဖတ်တဲ့သူတော့ မသိဘူး
ရေးတဲ့နပေတိုးကိုယ်တိုင် ခေါင်းမူးပြီ
အဟေဟ

နပေတိုး


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

Grounded Theory ResearchGrounded Theory Research

Grounded Theory Research ဆိုတာ လူမှုဗေဒနဲ့ သုတေသနလောကမှာ အသုံးများတဲ့ Qualitative Research (အရည်အသွေးအခြေပြု သုတေသန) နည်းလမ်းတစ်ခု ဖြစ်ပါတယ်။ရိုးရိုးသုတေသနတွေက ရှိပြီးသား Theory (သီအိုရီ) တစ်ခုကို အမှန် ဟုတ်၊ မဟုတ် စမ်းသပ်တာမျိုးဖြစ်ပေမဲ့ Grounded Theory ကတော့ “အချက်အလက်တွေကနေတစ်ဆင့် သီအိုရီအသစ်တစ်ခုကို အောက်ခြေကနေ စတင်တည်ဆောက်တာ” ဖြစ်ပါတယ်။Grounded Theory

eHealth (Lili model)eHealth (Lili model)

#Ehealth#Lily_Modelမနေ့က 5Cs model ကိုရေးပြခဲ့ပြီးပါပြီဒီနေ့ပြောပြချင်တာက နာမည်ကြီး Lily Model ဖြစ်ပါတယ်။ ehealthရဲ့ ကနဦးခေါင်းဆောင်တွေထဲက တစ်ဦးအပါအဝင်ဖြစ်တဲ့ Norman က ehealth ဆိုတာ ဘာလဲလို့ရှင်းပြတဲ့အခါမှာ Lily model ကို အသုံးပြုခဲ့ပါတယ်။အဲ့ဒီ Lily Model မှာ အဓိက ပွင့်ချပ်ခြောက်ခု သို့မဟုတ် essential components ခြောက်ခုပါဝင်ပါတယ်။အဲ့ဒါတွေကတော့၁။ traditional

SDG (Sustainable Development Goals)SDG (Sustainable Development Goals)

SDG (Sustainable Development Goals) တွေနဲ့ ပတ်သက်ပြီး နည်းနည်းပွားကြည့်ကြရအောင်ဗျာ။ SDG ဆိုတာကတော့ ရေရှည်ဖွံ့ဖြိုးတိုးတက်ရေးပန်းတိုင်များ (Sustainable Development Goals) ကို အတိုကောက်ခေါ်တာပါ။ ဒီပန်းတိုင်တွေကို ကုလသမဂ္ဂ (UN) က ၂၀၁၅ ခုနှစ် စက်တင်ဘာလမှာ ကျင်းပခဲ့တဲ့ ရေရှည်ဖွံ့ဖြိုးတိုးတက်ရေး ထိပ်သီးအစည်းအဝေးကနေ ချမှတ်ခဲ့တာ ဖြစ်ပါတယ်။ သူတို့ဟာ ၂၀၃၀ ခုနှစ်အထိ