မနေ့က ရေးခဲ့တဲ့ regression အကြောင်း နည်းနည်း ဆက်ပွားကြည့်ကြရအောင်ဗျာ
residual analysis
Regression analysis မှာ residual analysis ဆိုတာရှိပါတယ်။ Residual ဆိုတာက ရိုးရိုးရှင်းရှင်း ပြောရရင် observed value (တကယ့် ဒေတာ y) နဲ့ predicted value (model က ခန့်မှန်းထားတဲ့ ŷ) ကြားက ကွာခြားချက်ကို ဆိုလိုတာပါ။
Residual = Observed – Predicted
ဒါမှမဟုတ် e = y – ŷ
ဒီ residual တွေကို စမ်းသပ်ရတာ (residual diagnostics) က မော်ဒယ်ရဲ့ အဓိက assumptions တွေ မှန်မမှန် စစ်ဖို့ဖြစ်ပါတယ်။ အဲဒီ assumptions တွေ ချိုးဖောက်ခဲ့ရင် ရလဒ်တွေက ယုံကြည်ရမှု နည်းသွားနိုင်လို့ပါ။ အဓိက စစ်ရတဲ့ assumptions တွေကတော့
1. Linearity
Independent variable (X) နဲ့ dependent variable (Y ) ကြားက ဆက်စပ်မှုက linear ဖြစ်ရမယ်။ ဆိုလိုတာ ပုံစံ က တည့်တည့် လိုင်းနဲ့ ဖော်ပြနိုင်ရမယ်။ Residual vs Fitted plot ကြည့်ရင် ပုံစံ မရှိဘဲ random ပဲ ဖြစ်နေရမယ်။ အကယ်၍ ကွေ့ညွတ်နေတယ်၊ လှိုင်းလုံးလို ဖြစ်နေတယ်ဆိုရင် linearity မရှိဘူး ဆိုတာကို သိနိုင်ပါတယ်။
2. Independence
Residual တစ်ခုနဲ့ တစ်ခု ဆက်စပ်မှု မရှိရဘူး။ အချိန်စီးရီး ဒေတာ မှာ အဖြစ်များပါတယ်။ ဥပမာ ယနေ့ residual ကြီးရင် မနက်ဖြန် residual လည်း ကြီးနေတတ်တယ် (autocorrelation)။ Durbin-Watson test နဲ့ စစ်ကြပါတယ်။ independence မရှိရင် မော်ဒယ်ရဲ့ standard error တွေက မမှန်နိုင်ပါဘူး။
3. Homoscedasticity (ဒါမှမဟုတ် constant variance)
Residual တွေရဲ့ variance က တစ်ပုံစံတည်း ရှိရပါမယ်။ ဆိုလိုတာက predicted value နည်းနည်းလေးပဲဖြစ်စေ၊ အများကြီးပဲဖြစ်စေ residual တွေရဲ့ ပျံ့နှံ့မှုက အတူတူပဲ ဖြစ်ရပါမယ်။ Residual vs Fitted plot မှာ ပုံစံ မရှိဘဲ အဆက်မပြတ် ပျံ့နေရပါမယ်။ အကယ်၍ ပုံစံ က funnel shape ဆိုရင် heteroscedasticity ရှိနေပါတယ်။ Breusch-Pagan test နဲ့ စစ်ကြပါတယ်။ homoscedasticity မရှိရင် coefficient တွေ ရဲ့ significance ကို စမ်းတဲ့ အခါ မှားနိုင်ပါတယ်။
4. Normality
Residual တွေ က normal distribution ဖြစ်ရပါမယ် (mean ≈ 0 နဲ့ symmetric)။ ဒါ မှ ကျွန်တော်တို့ သုံးတဲ့ t-test, F-test, confidence interval တွေ ယုံကြည်လို့ရပါမယ်။ QQ-plot ကြည့်ရင် အမှတ်တွေ တည့်တည့် လိုင်းပေါ်မှာ ရှိနေရပါမယ်။ Shapiro-Wilk test လည်း သုံးနိုင်ပါတယ်။ မမှန်ရင် အထူးသဖြင့် sample size နည်းတဲ့ အခါ ရလဒ်တွေ မတိကျနိုင်ပါဘူး။
ဒီ assumptions တွေ စစ်ဖို့အတွက် residual တွေကို အဓိက သုံးရပါတယ်။ ဘာလို့လဲ ဆိုတော့ residual က မော်ဒယ်က မဖမ်းမိတဲ့ အပိုင်း ဖြစ်နေလို့ပါပဲ။ ဒါကြောင့် residual plot တွေ (Residuals vs Fitted, Scale-Location, QQ-plot, Residuals vs Leverage စသဖြင့်) ကြည့်ပြီး မော်ဒယ်က ကျန်းမာရဲ့လား ဆိုတာ စစ်ရပါတယ်။
အကယ်၍ ချို့ယွင်းချက် တွေ့ရင် ဘာလုပ်လို့ ရလဲ။
– Data ကို transform လုပ်လို့ရပါတယ် (log, square root စသဖြင့်)
– Outlier တွေ ဖယ်ထုတ်နိုင်ပါတယ် ဒါမှမဟုတ် ပြင်နိုင်ပါတယ်
– အခြား model သုံးလို့ရပါတယ် (robust regression, generalized linear model စသဖြင့်)
အတိုချုပ်ဆို residual testing ဆိုတာ မော်ဒယ်ရဲ့ အမှားတွေ ကို စစ်ဆေးပြီး ယုံကြည်စိတ်ချရတဲ့ ရလဒ်တွေ ရဖို့ လုပ်တာပဲဖြစ်ပါတယ်။
နပေတိုး
မြန်မာပြည်တက္ကသိုလ်တစ်ခုက သုတေသနလေ့လာနေသူ ကျောင်းသား
အဟေဟေ
Discover more from naywinaung
Subscribe to get the latest posts sent to your email.