Simple Linear Regression နှင့် Correlation

အခန်း ၉ ဖြစ်တဲ့ “Simple Linear Regression နှင့် Correlation” အကြောင်းကို အသေးစိတ် တင်ပြပေးပါမယ်။ဒီအခန်းက ဘာတွေအကြောင်းလဲဆိုတော့ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုကို ဘယ်လို လေ့လာမယ်၊ တိုင်းတာမလဲဆိုတဲ့ အခြေခံနည်းလမ်းနှစ်ခုကို မိတ်ဆက်ပေးတာ ဖြစ်ပါတယ်။
Regression က အချက်အလက်တစ်ခု (Y) ကို နောက်တစ်ခု (X) ကို အခြေခံပြီး ခန့်မှန်းတာ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်တာအတွက် အသုံးဝင်ပြီး၊ Correlation ကတော့ အချက်အလက်နှစ်ခုကြားက Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာပုံနဲ့ ဘယ်လိုဦးတည်နေလဲ (ဥပမာ – တစ်ခုတိုးရင် နောက်တစ်ခုတိုးသလား၊ လျှော့သလား) ဆိုတာကို တိုင်းတာတာ ဖြစ်ပါတယ်။

Simple Linear Regression

ဒီ Regression မှာ အဓိကရည်ရွယ်ချက်ကတော့ မှီခိုနေတဲ့အချက်အလက် (dependent variable) ခေါ်တဲ့ Y တန်ဖိုးကို လွတ်လပ်တဲ့အချက်အလက် (independent variable) ခေါ်တဲ့ X တန်ဖိုးတစ်ခုပေးထားရင် ဘယ်လို အကောင်းဆုံး ခန့်မှန်းမလဲ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်မလဲဆိုတာကို ရှာဖွေဖို့ပါ။ Y ကို တစ်ခါတလေ တုံ့ပြန်မှုအချက်အလက် (response variable) လို့လည်း ခေါ်ပြီး X ကိုတော့ ခန့်မှန်းမှုအချက်အလက် (predictor variable) လို့လည်း ခေါ်ပါတယ်။

Regression Model
Regression ကို နားလည်ဖို့အတွက် အခြေခံယူဆချက်တွေ ရှိပါတယ်။

•Linearity: Y ရဲ့ ပျမ်းမျှတန်ဖိုးတွေက X တန်ဖိုးအသီးသီးအတွက် ဖြောင့်တန်းတဲ့ ဆ Line တစ်ခုပေါ်မှာ ရှိတယ် (µY|X = β₀ + β₁X) လို့ ယူဆပါတယ်။
•Independence: Y တန်ဖိုးတွေက အချင်းချင်း လွတ်လပ်ပါတယ်။
•Normality: Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု (subpopulations) က X တန်ဖိုးတစ်ခုစီအတွက် Normal Distribution ဖြစ်တယ်လို့ ယူဆပါတယ်။
•Equal Variances (Homoscedasticity): Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု Variance (ပြန့်ကျဲမှု) က X တန်ဖိုးအားလုံးအတွက် တူညီတယ် (σ²Y|X = σ²) လို့ ယူဆပါတယ်။
•Regression ရဲ့ Model Equation ကတော့
y = β₀ + β₁x + ε ဖြစ်ပါတယ်။
◦y က Y ရဲ့ တန်ဖိုးတစ်ခု
◦x က X ရဲ့ တန်ဖိုးတစ်ခု
◦β₀ (Beta zero) က Intercept ဖြစ်ပါတယ်။ ဒါက X က သုည (0) ဖြစ်တဲ့အခါ Y ရဲ့ ခန့်မှန်းတန်ဖိုး (Line က Y ဝင်ရိုးနဲ့ ဆုံတဲ့နေရာ) ပါ။
◦β₁ (Beta one) က Slope ဖြစ်ပါတယ်။ ဒါက X တစ်ယူနစ်တိုးတိုင်း Y ဘယ်လောက်တိုးမယ်/လျှော့မယ်ဆိုတာကို ပြတဲ့ Regression Line ရဲ့ တိမ်းစောင်းမှုပါ။
◦ε (epsilon) က Error Term လို့ ခေါ်ပြီး Model ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုတွေကို ကိုယ်စားပြုပါတယ်။

Sample Regression Equation

လူဦးရေ (Population) Regression Equation ကတော့ တကယ့် β₀ နဲ့ β₁ တန်ဖိုးတွေနဲ့ ဖြစ်ပြီး ဒါကို ကျွန်တော်တို့ မသိနိုင်ပါဘူး။ ဒါကြောင့် နမူနာ (Sample) ကနေရတဲ့ အချက်အလက်တွေကိုသုံးပြီး ဒီတန်ဖိုးတွေကို ခန့်မှန်းပါတယ်။ အဲ့ဒါကို နမူနာ Regression Equation လို့ ခေါ်ပြီး
ŷ = b₀ + b₁x လို့ ရေးပါတယ် (ŷ က estimated Y လို့ ခေါ်ပါတယ်)။
ဒီ b₀ နဲ့ b₁ ကို ရှာတဲ့ နည်းလမ်းက Least Squares Method လို့ ခေါ်ပါတယ်။ ဒီနည်းလမ်းကတော့ တကယ့် Y တန်ဖိုးတွေ (yᵢ) နဲ့ Regression Equation ကနေ ခန့်မှန်းရတဲ့ Y တန်ဖိုးတွေ (ŷᵢ) ကြားက ကွာခြားချက် (yᵢ – ŷᵢ) ကို ပေါင်းထားတဲ့ Sum of Squared Differences (∑(yᵢ – ŷᵢ)²) ကို အနည်းဆုံးဖြစ်အောင် လုပ်တဲ့ Line ကို ရှာဖွေတာ ဖြစ်ပါတယ်။ ဒါကြောင့် Regression Line ကို sometimes the Least-Squares Line လို့လည်း ခေါ်ပါတယ်။

Regression Equation ကို အကဲဖြတ်ခြင်း (Evaluating the Regression Equation)

Regression Equation ကို ရပြီဆိုရင် ဒီ Equation က အချက်အလက်တွေကို ဘယ်လောက် ကောင်းကောင်း ကိုယ်စားပြုနိုင်လဲ၊ Y ရဲ့ ပြန့်ကျဲမှု (Total Variation) ကို X ကနေ ဘယ်လောက် ရှင်းပြပေးနိုင်လဲဆိုတာကို အကဲဖြတ်ဖို့ လိုပါတယ်။
Y တန်ဖိုးတွေရဲ့ Total Variation ကို Total Sum of Squares (SST) (∑(yᵢ – ȳ)²) နဲ့ တိုင်းတာပါတယ်။

ဒီ SST ကို အပိုင်းနှစ်ပိုင်း ခွဲလို့ရပါတယ်။
1.Explained Variation (SSR): Regression Line ကနေ ရှင်းပြပေးနိုင်တဲ့ ပြန့်ကျဲမှုပါ (∑(ŷᵢ – ȳ)²)။ ဒါကို Sum of Squares Due to Regression (SSR) လို့ ခေါ်ပါတယ်။
2.Unexplained Variation (SSE): Regression Line ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုပါ (∑(yᵢ – ŷᵢ)²)။ ဒါကို Sum of Squares About Regression ဒါမှမဟုတ် Error Sum of Squares (SSE) လို့ ခေါ်ပါတယ်။

ဒီသုံးခုရဲ့ ဆက်နွှယ်မှုက
SST = SSR + SSE ဖြစ်ပါတယ်။

Coefficient of Determination (r²)
ဒီ r² (r square) က SSR နဲ့ SST ရဲ့ အချိုးပါ (r² = SSR / SST)။ ဒါက Y ရဲ့ Total Variation ထဲက X ကနေ ဘယ်လောက် ရာခိုင်နှုန်းကို ရှင်းပြပေးနိုင်လဲဆိုတာကို ပြသပါတယ်။ r² တန်ဖိုးက 0 နဲ့ 1 ကြားမှာ ရှိပြီး၊ 1 နဲ့ နီးလေလေ Regression Line က အချက်အလက်တွေကို ကောင်းကောင်း ကိုယ်စားပြုနိုင်လေလေ ဖြစ်ပါတယ်။ အကယ်၍ r² က 1 ဆိုရင် အချက်အလက်အားလုံးက Line ပေါ်မှာ အတိအကျ ကျနေတာကို ဆိုလိုပါတယ်။ r² က 0 ဆိုရင်တော့ Linear Relationship မရှိဘူးလို့ ဆိုလိုတာပါ။
Slope ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: β₁ = 0)
Population Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ X နဲ့ Y ကြားမှာ Linear Relationship ရှိမရှိကို စစ်ဆေးတာနဲ့ အတူတူပါပဲ။

ဒီအတွက် Test Statistic နှစ်မျိုးကို သုံးနိုင်ပါတယ်။
•F-test: Analysis of Variance (ANOVA) Table ထဲက V.R. Statistic ကို သုံးပါတယ်။ ဒါက MSR ကို MSE နဲ့ စားထားတာပါ။ Degrees of Freedom က 1 နဲ့ (n-2) ဖြစ်ပါတယ်။
•t-test: t = (b₁ – β₁₀) / s_b₁ ဆိုတဲ့ Statistic ကို သုံးပါတယ် (β₁₀ က null hypothesis မှာ β₁ တန်ဖိုး၊ များသောအားဖြင့် 0)။ Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ စိတ်ဝင်စားစရာက F Statistic ရဲ့တန်ဖိုးက t Statistic ရဲ့တန်ဖိုးကိုထားတာနဲ့ အတူတူပါပဲ (F = t²)။ ဒါကြောင့် ဒီ Test နှစ်ခုက တူညီတဲ့ ကောက်ချက်ကို ပေးပါတယ်။
ဒီ Test ရဲ့ p-value က ကျွန်တော်တို့ရဲ့ နမူနာရလဒ်ဟာ β₁ = 0 ဖြစ်နေခဲ့ရင်တောင် မတော်တဆ ဖြစ်နိုင်ခြေ ဘယ်လောက်ရှိလဲဆိုတာကို ပြောပြပါတယ်။ p-value က သတ်မှတ်ထားတဲ့ α (Significance Level) ထက် ငယ်ရင် H₀ ကို ပယ်ချပြီး Linear Relationship ရှိတယ်လို့ ကောက်ချက်ချပါတယ်။

Regression Equation ကို အသုံးပြုခြင်း (Using the Regression Equation)

Regression Equation (ŷ = b₀ + b₁x) ကို အသုံးပြုပြီး X တန်ဖိုးတစ်ခုအတွက် Y တန်ဖိုးကို ခန့်မှန်းနိုင်ပါတယ်။ ဒီ ŷ တန်ဖိုးကို နှစ်မျိုးအဓိပ္ပာယ်ဖွင့်နိုင်ပါတယ်။
1.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y တန်ဖိုးတွေရဲ့ Population Mean ကို ခန့်မှန်းတာ (Estimate)။ ဒီလို ခန့်မှန်းတဲ့အခါ Confidence Interval ကို တွက်ချက်ပါတယ်။
2.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y ရဲ့ အဖြစ်နိုင်ဆုံး တန်ဖိုးတစ်ခု (Prediction)။ ဒီလို ခန့်မှန်းတဲ့အခါ Prediction Interval ကို တွက်ချက်ပါတယ်။
Prediction Interval က Confidence Interval ထက် အမြဲ ပိုကျယ်ပါတယ်။

Correlation
Correlation ကတော့ Variables နှစ်ခုလုံးက Random ဖြစ်တယ်လို့ ယူဆပါတယ်။ Regression လို တစ်ခုကနေ နောက်တစ်ခုကို ခန့်မှန်းတာမျိုးမဟုတ်ဘဲ၊ Variables နှစ်ခုကြားက ဆ Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာမှု (strength) နဲ့ ဦးတည်ချက် (direction) ကို တိုင်းတာတာဖြစ်ပါတယ်။

Population Correlation Coefficient (ρ)
ρ (rho) သင်္ကေတနဲ့ ပြပြီး Population Correlation Coefficient ကို ကိုယ်စားပြုပါတယ်။
•တန်ဖိုးက -1 နဲ့ +1 ကြားမှာ ရှိပါတယ်။
•+1 ဆိုရင် Perfect Direct Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုကလည်း အချိုးကျတိုးမယ်)။
•-1 ဆိုရင် Perfect Inverse Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုက အချိုးကျ လျှော့မယ်)။
•0 ဆိုရင်တော့ Linear Correlation မရှိဘူးလို့ ဆိုလိုပါတယ်။ တခြားဆက်နွှယ်မှုပုံစံ (ဥပမာ – Curvilinear) ရှိချင် ရှိနိုင်ပါတယ်။
•ρ ရဲ့ sign က Regression Slope (β₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

နမူနာ Correlation Coefficient (r)
နမူနာ (Sample) ကနေ တွက်ချက်ရတဲ့ Correlation Coefficient ကို r သင်္ကေတနဲ့ ပြပါတယ်။ ဒါက Population ρ ရဲ့ ခန့်မှန်းတန်ဖိုးပါ။ r ကို တွက်ချက်တဲ့ formula ကလည်း Source မှာ ပေးထားပါတယ်။ စိတ်ဝင်စားစရာက Regression မှာ တွက်ခဲ့တဲ့ Coefficient of Determination (r²) က Correlation Coefficient (r) ကို (square) လုပ်ထားတာနဲ့ တူညီပါတယ်။ r ရဲ့ sign က Regression Slope (b₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

Correlation ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: ρ = 0)
Population Correlation (ρ) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ Regression Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာနဲ့ တူညီပါတယ်။ ဒီအတွက် t-test statistic ကို သုံးပါတယ်။
t = r * √(n-2) / √(1-r²) ဖြစ်ပြီး Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ ဒီ t Statistic ဟာ Regression Slope အတွက် သုံးတဲ့ t Statistic နဲ့ တူညီတာကို Source မှာ ရှင်းပြထားပါတယ်။
အကယ်၍ ρ တန်ဖိုးက 0 မဟုတ်ဘဲ တခြား သတ်မှတ်ထားတဲ့ တန်ဖိုးတစ်ခုနဲ့ တူညီမတူညီ စစ်ဆေးချင်ရင်တော့ Fisher’s z Transformation ကို သုံးပြီး Standard Normal Distribution နဲ့ နှိုင်းယှဉ်စစ်ဆေးနိုင်ပါတယ်။

ဒီလို Regression နဲ့ Correlation နည်းလမ်းတွေက ကျန်းမာရေးနယ်ပယ်မှာ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုတွေကို လေ့လာရာမှာ အခြေခံကျတဲ့ ကိရိယာတွေ ဖြစ်ပါတယ်။
ဒါတွေကတော့ အခန်း ၉ ရဲ့ အဓိကအကြောင်းအရာတွေပါပဲ။ နားလည်မှုလွယ်ကူစေဖို့ အရေးကြီးတဲ့ အပိုင်းတွေကို Bold ထားပါတယ်။ အထောက်အကူဖြစ်မယ်လို့ မျှော်လင့်ပါတယ်။

Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Simple Linear Regression နှင့် Correlation

Discover more from naywinaung

Leave a Reply Cancel reply

Related Post

Chapter 11 Regression Analysis: Some Additional TechniquesChapter 11 Regression Analysis: Some Additional Techniques

statistical inferencestatistical inference

Chapter 13 Nonparametric and DistributionChapter 13 Nonparametric and Distribution