အခန်း ၉ ဖြစ်တဲ့ “Simple Linear Regression နှင့် Correlation” အကြောင်းကို အသေးစိတ် တင်ပြပေးပါမယ်။ဒီအခန်းက ဘာတွေအကြောင်းလဲဆိုတော့ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုကို ဘယ်လို လေ့လာမယ်၊ တိုင်းတာမလဲဆိုတဲ့ အခြေခံနည်းလမ်းနှစ်ခုကို မိတ်ဆက်ပေးတာ ဖြစ်ပါတယ်။
Regression က အချက်အလက်တစ်ခု (Y) ကို နောက်တစ်ခု (X) ကို အခြေခံပြီး ခန့်မှန်းတာ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်တာအတွက် အသုံးဝင်ပြီး၊ Correlation ကတော့ အချက်အလက်နှစ်ခုကြားက Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာပုံနဲ့ ဘယ်လိုဦးတည်နေလဲ (ဥပမာ – တစ်ခုတိုးရင် နောက်တစ်ခုတိုးသလား၊ လျှော့သလား) ဆိုတာကို တိုင်းတာတာ ဖြစ်ပါတယ်။
Simple Linear Regression
ဒီ Regression မှာ အဓိကရည်ရွယ်ချက်ကတော့ မှီခိုနေတဲ့အချက်အလက် (dependent variable) ခေါ်တဲ့ Y တန်ဖိုးကို လွတ်လပ်တဲ့အချက်အလက် (independent variable) ခေါ်တဲ့ X တန်ဖိုးတစ်ခုပေးထားရင် ဘယ်လို အကောင်းဆုံး ခန့်မှန်းမလဲ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်မလဲဆိုတာကို ရှာဖွေဖို့ပါ။ Y ကို တစ်ခါတလေ တုံ့ပြန်မှုအချက်အလက် (response variable) လို့လည်း ခေါ်ပြီး X ကိုတော့ ခန့်မှန်းမှုအချက်အလက် (predictor variable) လို့လည်း ခေါ်ပါတယ်။
Regression Model
Regression ကို နားလည်ဖို့အတွက် အခြေခံယူဆချက်တွေ ရှိပါတယ်။
•Linearity: Y ရဲ့ ပျမ်းမျှတန်ဖိုးတွေက X တန်ဖိုးအသီးသီးအတွက် ဖြောင့်တန်းတဲ့ ဆ Line တစ်ခုပေါ်မှာ ရှိတယ် (µY|X = β₀ + β₁X) လို့ ယူဆပါတယ်။
•Independence: Y တန်ဖိုးတွေက အချင်းချင်း လွတ်လပ်ပါတယ်။
•Normality: Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု (subpopulations) က X တန်ဖိုးတစ်ခုစီအတွက် Normal Distribution ဖြစ်တယ်လို့ ယူဆပါတယ်။
•Equal Variances (Homoscedasticity): Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု Variance (ပြန့်ကျဲမှု) က X တန်ဖိုးအားလုံးအတွက် တူညီတယ် (σ²Y|X = σ²) လို့ ယူဆပါတယ်။
•Regression ရဲ့ Model Equation ကတော့
y = β₀ + β₁x + ε ဖြစ်ပါတယ်။
◦y က Y ရဲ့ တန်ဖိုးတစ်ခု
◦x က X ရဲ့ တန်ဖိုးတစ်ခု
◦β₀ (Beta zero) က Intercept ဖြစ်ပါတယ်။ ဒါက X က သုည (0) ဖြစ်တဲ့အခါ Y ရဲ့ ခန့်မှန်းတန်ဖိုး (Line က Y ဝင်ရိုးနဲ့ ဆုံတဲ့နေရာ) ပါ။
◦β₁ (Beta one) က Slope ဖြစ်ပါတယ်။ ဒါက X တစ်ယူနစ်တိုးတိုင်း Y ဘယ်လောက်တိုးမယ်/လျှော့မယ်ဆိုတာကို ပြတဲ့ Regression Line ရဲ့ တိမ်းစောင်းမှုပါ။
◦ε (epsilon) က Error Term လို့ ခေါ်ပြီး Model ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုတွေကို ကိုယ်စားပြုပါတယ်။
Sample Regression Equation
လူဦးရေ (Population) Regression Equation ကတော့ တကယ့် β₀ နဲ့ β₁ တန်ဖိုးတွေနဲ့ ဖြစ်ပြီး ဒါကို ကျွန်တော်တို့ မသိနိုင်ပါဘူး။ ဒါကြောင့် နမူနာ (Sample) ကနေရတဲ့ အချက်အလက်တွေကိုသုံးပြီး ဒီတန်ဖိုးတွေကို ခန့်မှန်းပါတယ်။ အဲ့ဒါကို နမူနာ Regression Equation လို့ ခေါ်ပြီး
ŷ = b₀ + b₁x လို့ ရေးပါတယ် (ŷ က estimated Y လို့ ခေါ်ပါတယ်)။
ဒီ b₀ နဲ့ b₁ ကို ရှာတဲ့ နည်းလမ်းက Least Squares Method လို့ ခေါ်ပါတယ်။ ဒီနည်းလမ်းကတော့ တကယ့် Y တန်ဖိုးတွေ (yᵢ) နဲ့ Regression Equation ကနေ ခန့်မှန်းရတဲ့ Y တန်ဖိုးတွေ (ŷᵢ) ကြားက ကွာခြားချက် (yᵢ – ŷᵢ) ကို ပေါင်းထားတဲ့ Sum of Squared Differences (∑(yᵢ – ŷᵢ)²) ကို အနည်းဆုံးဖြစ်အောင် လုပ်တဲ့ Line ကို ရှာဖွေတာ ဖြစ်ပါတယ်။ ဒါကြောင့် Regression Line ကို sometimes the Least-Squares Line လို့လည်း ခေါ်ပါတယ်။
Regression Equation ကို အကဲဖြတ်ခြင်း (Evaluating the Regression Equation)
Regression Equation ကို ရပြီဆိုရင် ဒီ Equation က အချက်အလက်တွေကို ဘယ်လောက် ကောင်းကောင်း ကိုယ်စားပြုနိုင်လဲ၊ Y ရဲ့ ပြန့်ကျဲမှု (Total Variation) ကို X ကနေ ဘယ်လောက် ရှင်းပြပေးနိုင်လဲဆိုတာကို အကဲဖြတ်ဖို့ လိုပါတယ်။
Y တန်ဖိုးတွေရဲ့ Total Variation ကို Total Sum of Squares (SST) (∑(yᵢ – ȳ)²) နဲ့ တိုင်းတာပါတယ်။
ဒီ SST ကို အပိုင်းနှစ်ပိုင်း ခွဲလို့ရပါတယ်။
1.Explained Variation (SSR): Regression Line ကနေ ရှင်းပြပေးနိုင်တဲ့ ပြန့်ကျဲမှုပါ (∑(ŷᵢ – ȳ)²)။ ဒါကို Sum of Squares Due to Regression (SSR) လို့ ခေါ်ပါတယ်။
2.Unexplained Variation (SSE): Regression Line ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုပါ (∑(yᵢ – ŷᵢ)²)။ ဒါကို Sum of Squares About Regression ဒါမှမဟုတ် Error Sum of Squares (SSE) လို့ ခေါ်ပါတယ်။
ဒီသုံးခုရဲ့ ဆက်နွှယ်မှုက
SST = SSR + SSE ဖြစ်ပါတယ်။
Coefficient of Determination (r²)
ဒီ r² (r square) က SSR နဲ့ SST ရဲ့ အချိုးပါ (r² = SSR / SST)။ ဒါက Y ရဲ့ Total Variation ထဲက X ကနေ ဘယ်လောက် ရာခိုင်နှုန်းကို ရှင်းပြပေးနိုင်လဲဆိုတာကို ပြသပါတယ်။ r² တန်ဖိုးက 0 နဲ့ 1 ကြားမှာ ရှိပြီး၊ 1 နဲ့ နီးလေလေ Regression Line က အချက်အလက်တွေကို ကောင်းကောင်း ကိုယ်စားပြုနိုင်လေလေ ဖြစ်ပါတယ်။ အကယ်၍ r² က 1 ဆိုရင် အချက်အလက်အားလုံးက Line ပေါ်မှာ အတိအကျ ကျနေတာကို ဆိုလိုပါတယ်။ r² က 0 ဆိုရင်တော့ Linear Relationship မရှိဘူးလို့ ဆိုလိုတာပါ။
Slope ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: β₁ = 0)
Population Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ X နဲ့ Y ကြားမှာ Linear Relationship ရှိမရှိကို စစ်ဆေးတာနဲ့ အတူတူပါပဲ။
ဒီအတွက် Test Statistic နှစ်မျိုးကို သုံးနိုင်ပါတယ်။
•F-test: Analysis of Variance (ANOVA) Table ထဲက V.R. Statistic ကို သုံးပါတယ်။ ဒါက MSR ကို MSE နဲ့ စားထားတာပါ။ Degrees of Freedom က 1 နဲ့ (n-2) ဖြစ်ပါတယ်။
•t-test: t = (b₁ – β₁₀) / s_b₁ ဆိုတဲ့ Statistic ကို သုံးပါတယ် (β₁₀ က null hypothesis မှာ β₁ တန်ဖိုး၊ များသောအားဖြင့် 0)။ Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ စိတ်ဝင်စားစရာက F Statistic ရဲ့တန်ဖိုးက t Statistic ရဲ့တန်ဖိုးကိုထားတာနဲ့ အတူတူပါပဲ (F = t²)။ ဒါကြောင့် ဒီ Test နှစ်ခုက တူညီတဲ့ ကောက်ချက်ကို ပေးပါတယ်။
ဒီ Test ရဲ့ p-value က ကျွန်တော်တို့ရဲ့ နမူနာရလဒ်ဟာ β₁ = 0 ဖြစ်နေခဲ့ရင်တောင် မတော်တဆ ဖြစ်နိုင်ခြေ ဘယ်လောက်ရှိလဲဆိုတာကို ပြောပြပါတယ်။ p-value က သတ်မှတ်ထားတဲ့ α (Significance Level) ထက် ငယ်ရင် H₀ ကို ပယ်ချပြီး Linear Relationship ရှိတယ်လို့ ကောက်ချက်ချပါတယ်။
Regression Equation ကို အသုံးပြုခြင်း (Using the Regression Equation)
Regression Equation (ŷ = b₀ + b₁x) ကို အသုံးပြုပြီး X တန်ဖိုးတစ်ခုအတွက် Y တန်ဖိုးကို ခန့်မှန်းနိုင်ပါတယ်။ ဒီ ŷ တန်ဖိုးကို နှစ်မျိုးအဓိပ္ပာယ်ဖွင့်နိုင်ပါတယ်။
1.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y တန်ဖိုးတွေရဲ့ Population Mean ကို ခန့်မှန်းတာ (Estimate)။ ဒီလို ခန့်မှန်းတဲ့အခါ Confidence Interval ကို တွက်ချက်ပါတယ်။
2.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y ရဲ့ အဖြစ်နိုင်ဆုံး တန်ဖိုးတစ်ခု (Prediction)။ ဒီလို ခန့်မှန်းတဲ့အခါ Prediction Interval ကို တွက်ချက်ပါတယ်။
Prediction Interval က Confidence Interval ထက် အမြဲ ပိုကျယ်ပါတယ်။
Correlation
Correlation ကတော့ Variables နှစ်ခုလုံးက Random ဖြစ်တယ်လို့ ယူဆပါတယ်။ Regression လို တစ်ခုကနေ နောက်တစ်ခုကို ခန့်မှန်းတာမျိုးမဟုတ်ဘဲ၊ Variables နှစ်ခုကြားက ဆ Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာမှု (strength) နဲ့ ဦးတည်ချက် (direction) ကို တိုင်းတာတာဖြစ်ပါတယ်။
Population Correlation Coefficient (ρ)
ρ (rho) သင်္ကေတနဲ့ ပြပြီး Population Correlation Coefficient ကို ကိုယ်စားပြုပါတယ်။
•တန်ဖိုးက -1 နဲ့ +1 ကြားမှာ ရှိပါတယ်။
•+1 ဆိုရင် Perfect Direct Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုကလည်း အချိုးကျတိုးမယ်)။
•-1 ဆိုရင် Perfect Inverse Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုက အချိုးကျ လျှော့မယ်)။
•0 ဆိုရင်တော့ Linear Correlation မရှိဘူးလို့ ဆိုလိုပါတယ်။ တခြားဆက်နွှယ်မှုပုံစံ (ဥပမာ – Curvilinear) ရှိချင် ရှိနိုင်ပါတယ်။
•ρ ရဲ့ sign က Regression Slope (β₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။
နမူနာ Correlation Coefficient (r)
နမူနာ (Sample) ကနေ တွက်ချက်ရတဲ့ Correlation Coefficient ကို r သင်္ကေတနဲ့ ပြပါတယ်။ ဒါက Population ρ ရဲ့ ခန့်မှန်းတန်ဖိုးပါ။ r ကို တွက်ချက်တဲ့ formula ကလည်း Source မှာ ပေးထားပါတယ်။ စိတ်ဝင်စားစရာက Regression မှာ တွက်ခဲ့တဲ့ Coefficient of Determination (r²) က Correlation Coefficient (r) ကို (square) လုပ်ထားတာနဲ့ တူညီပါတယ်။ r ရဲ့ sign က Regression Slope (b₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။
Correlation ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: ρ = 0)
Population Correlation (ρ) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ Regression Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာနဲ့ တူညီပါတယ်။ ဒီအတွက် t-test statistic ကို သုံးပါတယ်။
t = r * √(n-2) / √(1-r²) ဖြစ်ပြီး Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ ဒီ t Statistic ဟာ Regression Slope အတွက် သုံးတဲ့ t Statistic နဲ့ တူညီတာကို Source မှာ ရှင်းပြထားပါတယ်။
အကယ်၍ ρ တန်ဖိုးက 0 မဟုတ်ဘဲ တခြား သတ်မှတ်ထားတဲ့ တန်ဖိုးတစ်ခုနဲ့ တူညီမတူညီ စစ်ဆေးချင်ရင်တော့ Fisher’s z Transformation ကို သုံးပြီး Standard Normal Distribution နဲ့ နှိုင်းယှဉ်စစ်ဆေးနိုင်ပါတယ်။
ဒီလို Regression နဲ့ Correlation နည်းလမ်းတွေက ကျန်းမာရေးနယ်ပယ်မှာ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုတွေကို လေ့လာရာမှာ အခြေခံကျတဲ့ ကိရိယာတွေ ဖြစ်ပါတယ်။
ဒါတွေကတော့ အခန်း ၉ ရဲ့ အဓိကအကြောင်းအရာတွေပါပဲ။ နားလည်မှုလွယ်ကူစေဖို့ အရေးကြီးတဲ့ အပိုင်းတွေကို Bold ထားပါတယ်။ အထောက်အကူဖြစ်မယ်လို့ မျှော်လင့်ပါတယ်။