naywinaung Chapter 9 Simple Linear Regression

Chapter 9 Simple Linear Regression

အခန်း ၉ ဖြစ်တဲ့ “Simple Linear Regression နှင့် Correlation” အကြောင်းကို အသေးစိတ် တင်ပြပေးပါမယ်။ဒီအခန်းက ဘာတွေအကြောင်းလဲဆိုတော့ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုကို ဘယ်လို လေ့လာမယ်၊ တိုင်းတာမလဲဆိုတဲ့ အခြေခံနည်းလမ်းနှစ်ခုကို မိတ်ဆက်ပေးတာ ဖြစ်ပါတယ်။ 

Regression က အချက်အလက်တစ်ခု (Y) ကို နောက်တစ်ခု (X) ကို အခြေခံပြီး ခန့်မှန်းတာ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်တာအတွက် အသုံးဝင်ပြီး၊ Correlation ကတော့ အချက်အလက်နှစ်ခုကြားက Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာပုံနဲ့ ဘယ်လိုဦးတည်နေလဲ (ဥပမာ – တစ်ခုတိုးရင် နောက်တစ်ခုတိုးသလား၊ လျှော့သလား) ဆိုတာကို တိုင်းတာတာ ဖြစ်ပါတယ်။

Simple Linear Regression

ဒီ Regression မှာ အဓိကရည်ရွယ်ချက်ကတော့ မှီခိုနေတဲ့အချက်အလက် (dependent variable) ခေါ်တဲ့ Y တန်ဖိုးကို လွတ်လပ်တဲ့အချက်အလက် (independent variable) ခေါ်တဲ့ X တန်ဖိုးတစ်ခုပေးထားရင် ဘယ်လို အကောင်းဆုံး ခန့်မှန်းမလဲ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်မလဲဆိုတာကို ရှာဖွေဖို့ပါ။ Y ကို တစ်ခါတလေ တုံ့ပြန်မှုအချက်အလက် (response variable) လို့လည်း ခေါ်ပြီး X ကိုတော့ ခန့်မှန်းမှုအချက်အလက် (predictor variable) လို့လည်း ခေါ်ပါတယ်။

Regression Model

Regression ကို နားလည်ဖို့အတွက် အခြေခံယူဆချက်တွေ ရှိပါတယ်။

•Linearity: Y ရဲ့ ပျမ်းမျှတန်ဖိုးတွေက X တန်ဖိုးအသီးသီးအတွက် ဖြောင့်တန်းတဲ့ ဆ Line တစ်ခုပေါ်မှာ ရှိတယ် (µY|X = β₀ + β₁X) လို့ ယူဆပါတယ်။

•Independence: Y တန်ဖိုးတွေက အချင်းချင်း လွတ်လပ်ပါတယ်။

•Normality: Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု (subpopulations) က X တန်ဖိုးတစ်ခုစီအတွက် Normal Distribution ဖြစ်တယ်လို့ ယူဆပါတယ်။

•Equal Variances (Homoscedasticity): Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု Variance (ပြန့်ကျဲမှု) က X တန်ဖိုးအားလုံးအတွက် တူညီတယ် (σ²Y|X = σ²) လို့ ယူဆပါတယ်။

•Regression ရဲ့ Model Equation ကတော့ 

y = β₀ + β₁x + ε ဖြစ်ပါတယ်။

◦y က Y ရဲ့ တန်ဖိုးတစ်ခု

◦x က X ရဲ့ တန်ဖိုးတစ်ခု

◦β₀ (Beta zero) က Intercept ဖြစ်ပါတယ်။ ဒါက X က သုည (0) ဖြစ်တဲ့အခါ Y ရဲ့ ခန့်မှန်းတန်ဖိုး (Line က Y ဝင်ရိုးနဲ့ ဆုံတဲ့နေရာ) ပါ။

◦β₁ (Beta one) က Slope ဖြစ်ပါတယ်။ ဒါက X တစ်ယူနစ်တိုးတိုင်း Y ဘယ်လောက်တိုးမယ်/လျှော့မယ်ဆိုတာကို ပြတဲ့ Regression Line ရဲ့ တိမ်းစောင်းမှုပါ။

◦ε (epsilon) က Error Term လို့ ခေါ်ပြီး Model ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုတွေကို ကိုယ်စားပြုပါတယ်။

Sample Regression Equation

လူဦးရေ (Population) Regression Equation ကတော့ တကယ့် β₀ နဲ့ β₁ တန်ဖိုးတွေနဲ့ ဖြစ်ပြီး ဒါကို ကျွန်တော်တို့ မသိနိုင်ပါဘူး။ ဒါကြောင့် နမူနာ (Sample) ကနေရတဲ့ အချက်အလက်တွေကိုသုံးပြီး ဒီတန်ဖိုးတွေကို ခန့်မှန်းပါတယ်။ အဲ့ဒါကို နမူနာ Regression Equation လို့ ခေါ်ပြီး 

ŷ = b₀ + b₁x လို့ ရေးပါတယ် (ŷ က estimated Y လို့ ခေါ်ပါတယ်)။

ဒီ b₀ နဲ့ b₁ ကို ရှာတဲ့ နည်းလမ်းက Least Squares Method လို့ ခေါ်ပါတယ်။ ဒီနည်းလမ်းကတော့ တကယ့် Y တန်ဖိုးတွေ (yᵢ) နဲ့ Regression Equation ကနေ ခန့်မှန်းရတဲ့ Y တန်ဖိုးတွေ (ŷᵢ) ကြားက ကွာခြားချက် (yᵢ – ŷᵢ) ကို ပေါင်းထားတဲ့ Sum of Squared Differences (∑(yᵢ – ŷᵢ)²) ကို အနည်းဆုံးဖြစ်အောင် လုပ်တဲ့ Line ကို ရှာဖွေတာ ဖြစ်ပါတယ်။ ဒါကြောင့် Regression Line ကို sometimes the Least-Squares Line လို့လည်း ခေါ်ပါတယ်။

Regression Equation ကို အကဲဖြတ်ခြင်း (Evaluating the Regression Equation)

Regression Equation ကို ရပြီဆိုရင် ဒီ Equation က အချက်အလက်တွေကို ဘယ်လောက် ကောင်းကောင်း ကိုယ်စားပြုနိုင်လဲ၊ Y ရဲ့ ပြန့်ကျဲမှု (Total Variation) ကို X ကနေ ဘယ်လောက် ရှင်းပြပေးနိုင်လဲဆိုတာကို အကဲဖြတ်ဖို့ လိုပါတယ်။

Y တန်ဖိုးတွေရဲ့ Total Variation ကို Total Sum of Squares (SST) (∑(yᵢ – ȳ)²) နဲ့ တိုင်းတာပါတယ်။

 ဒီ SST ကို အပိုင်းနှစ်ပိုင်း ခွဲလို့ရပါတယ်။

1.Explained Variation (SSR): Regression Line ကနေ ရှင်းပြပေးနိုင်တဲ့ ပြန့်ကျဲမှုပါ (∑(ŷᵢ – ȳ)²)။ ဒါကို Sum of Squares Due to Regression (SSR) လို့ ခေါ်ပါတယ်။

2.Unexplained Variation (SSE): Regression Line ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုပါ (∑(yᵢ – ŷᵢ)²)။ ဒါကို Sum of Squares About Regression ဒါမှမဟုတ် Error Sum of Squares (SSE) လို့ ခေါ်ပါတယ်။

ဒီသုံးခုရဲ့ ဆက်နွှယ်မှုက 

SST = SSR + SSE ဖြစ်ပါတယ်။

Coefficient of Determination (r²)

ဒီ r² (r square) က SSR နဲ့ SST ရဲ့ အချိုးပါ (r² = SSR / SST)။ ဒါက Y ရဲ့ Total Variation ထဲက X ကနေ ဘယ်လောက် ရာခိုင်နှုန်းကို ရှင်းပြပေးနိုင်လဲဆိုတာကို ပြသပါတယ်။ r² တန်ဖိုးက 0 နဲ့ 1 ကြားမှာ ရှိပြီး၊ 1 နဲ့ နီးလေလေ Regression Line က အချက်အလက်တွေကို ကောင်းကောင်း ကိုယ်စားပြုနိုင်လေလေ ဖြစ်ပါတယ်။ အကယ်၍ r² က 1 ဆိုရင် အချက်အလက်အားလုံးက Line ပေါ်မှာ အတိအကျ ကျနေတာကို ဆိုလိုပါတယ်။ r² က 0 ဆိုရင်တော့ Linear Relationship မရှိဘူးလို့ ဆိုလိုတာပါ။

Slope ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: β₁ = 0)

Population Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ X နဲ့ Y ကြားမှာ Linear Relationship ရှိမရှိကို စစ်ဆေးတာနဲ့ အတူတူပါပဲ။ 

ဒီအတွက် Test Statistic နှစ်မျိုးကို သုံးနိုင်ပါတယ်။

•F-test: Analysis of Variance (ANOVA) Table ထဲက V.R. Statistic ကို သုံးပါတယ်။ ဒါက MSR ကို MSE နဲ့ စားထားတာပါ။ Degrees of Freedom က 1 နဲ့ (n-2) ဖြစ်ပါတယ်။

•t-test: t = (b₁ – β₁₀) / s_b₁ ဆိုတဲ့ Statistic ကို သုံးပါတယ် (β₁₀ က null hypothesis မှာ β₁ တန်ဖိုး၊ များသောအားဖြင့် 0)။ Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ စိတ်ဝင်စားစရာက F Statistic ရဲ့တန်ဖိုးက t Statistic ရဲ့တန်ဖိုးကိုထားတာနဲ့ အတူတူပါပဲ (F = t²)။ ဒါကြောင့် ဒီ Test နှစ်ခုက တူညီတဲ့ ကောက်ချက်ကို ပေးပါတယ်။

ဒီ Test ရဲ့ p-value က ကျွန်တော်တို့ရဲ့ နမူနာရလဒ်ဟာ β₁ = 0 ဖြစ်နေခဲ့ရင်တောင် မတော်တဆ ဖြစ်နိုင်ခြေ ဘယ်လောက်ရှိလဲဆိုတာကို ပြောပြပါတယ်။ p-value က သတ်မှတ်ထားတဲ့ α (Significance Level) ထက် ငယ်ရင် H₀ ကို ပယ်ချပြီး Linear Relationship ရှိတယ်လို့ ကောက်ချက်ချပါတယ်။

Regression Equation ကို အသုံးပြုခြင်း (Using the Regression Equation)

Regression Equation (ŷ = b₀ + b₁x) ကို အသုံးပြုပြီး X တန်ဖိုးတစ်ခုအတွက် Y တန်ဖိုးကို ခန့်မှန်းနိုင်ပါတယ်။ ဒီ ŷ တန်ဖိုးကို နှစ်မျိုးအဓိပ္ပာယ်ဖွင့်နိုင်ပါတယ်။

1.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y တန်ဖိုးတွေရဲ့ Population Mean ကို ခန့်မှန်းတာ (Estimate)။ ဒီလို ခန့်မှန်းတဲ့အခါ Confidence Interval ကို တွက်ချက်ပါတယ်။

2.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y ရဲ့ အဖြစ်နိုင်ဆုံး တန်ဖိုးတစ်ခု (Prediction)။ ဒီလို ခန့်မှန်းတဲ့အခါ Prediction Interval ကို တွက်ချက်ပါတယ်။

Prediction Interval က Confidence Interval ထက် အမြဲ ပိုကျယ်ပါတယ်။

Correlation

Correlation ကတော့ Variables နှစ်ခုလုံးက Random ဖြစ်တယ်လို့ ယူဆပါတယ်။ Regression လို တစ်ခုကနေ နောက်တစ်ခုကို ခန့်မှန်းတာမျိုးမဟုတ်ဘဲ၊ Variables နှစ်ခုကြားက ဆ Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာမှု (strength) နဲ့ ဦးတည်ချက် (direction) ကို တိုင်းတာတာဖြစ်ပါတယ်။

Population Correlation Coefficient (ρ)

ρ (rho) သင်္ကေတနဲ့ ပြပြီး Population Correlation Coefficient ကို ကိုယ်စားပြုပါတယ်။

•တန်ဖိုးက -1 နဲ့ +1 ကြားမှာ ရှိပါတယ်။

•+1 ဆိုရင် Perfect Direct Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုကလည်း အချိုးကျတိုးမယ်)။

•-1 ဆိုရင် Perfect Inverse Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုက အချိုးကျ လျှော့မယ်)။

•0 ဆိုရင်တော့ Linear Correlation မရှိဘူးလို့ ဆိုလိုပါတယ်။ တခြားဆက်နွှယ်မှုပုံစံ (ဥပမာ – Curvilinear) ရှိချင် ရှိနိုင်ပါတယ်။

•ρ ရဲ့ sign က Regression Slope (β₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

နမူနာ Correlation Coefficient (r)

နမူနာ (Sample) ကနေ တွက်ချက်ရတဲ့ Correlation Coefficient ကို r သင်္ကေတနဲ့ ပြပါတယ်။ ဒါက Population ρ ရဲ့ ခန့်မှန်းတန်ဖိုးပါ။ r ကို တွက်ချက်တဲ့ formula ကလည်း Source မှာ ပေးထားပါတယ်။ စိတ်ဝင်စားစရာက Regression မှာ တွက်ခဲ့တဲ့ Coefficient of Determination (r²) က Correlation Coefficient (r) ကို (square) လုပ်ထားတာနဲ့ တူညီပါတယ်။ r ရဲ့ sign က Regression Slope (b₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

Correlation ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: ρ = 0)

Population Correlation (ρ) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ Regression Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာနဲ့ တူညီပါတယ်။ ဒီအတွက် t-test statistic ကို သုံးပါတယ်။ 

t = r * √(n-2) / √(1-r²) ဖြစ်ပြီး Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ ဒီ t Statistic ဟာ Regression Slope အတွက် သုံးတဲ့ t Statistic နဲ့ တူညီတာကို Source မှာ ရှင်းပြထားပါတယ်။

အကယ်၍ ρ တန်ဖိုးက 0 မဟုတ်ဘဲ တခြား သတ်မှတ်ထားတဲ့ တန်ဖိုးတစ်ခုနဲ့ တူညီမတူညီ စစ်ဆေးချင်ရင်တော့ Fisher’s z Transformation ကို သုံးပြီး Standard Normal Distribution နဲ့ နှိုင်းယှဉ်စစ်ဆေးနိုင်ပါတယ်။

ဒီလို Regression နဲ့ Correlation နည်းလမ်းတွေက ကျန်းမာရေးနယ်ပယ်မှာ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုတွေကို လေ့လာရာမှာ အခြေခံကျတဲ့ ကိရိယာတွေ ဖြစ်ပါတယ်။

ဒါတွေကတော့ အခန်း ၉ ရဲ့ အဓိကအကြောင်းအရာတွေပါပဲ။ နားလည်မှုလွယ်ကူစေဖို့ အရေးကြီးတဲ့ အပိုင်းတွေကို Bold ထားပါတယ်။ အထောက်အကူဖြစ်မယ်လို့ မျှော်လင့်ပါတယ်။


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Related Post

statistical inferencestatistical inference

Chapter 6 ဟာ စာရင်းအင်းဆိုင်ရာ ကောက်ချက်ချခြင်း (statistical inference) မှာ ပထမဆုံးအရေးကြီးတဲ့အပိုင်းဖြစ်တဲ့ “ခန့်မှန်းခြင်း” (estimation) ကို အဓိက ရှင်းလင်းထားပါတယ်။ ဒီခန့်မှန်းခြင်း ဆိုတာကတော့ Chapter 5 မှာ တင်ပြခဲ့တဲ့ sampling distribution သီအိုရီနဲ့ Central Limit Theorem ကို အခြေခံထားတာပါ။Chapter 6 ရဲ့

Grounded Theory ResearchGrounded Theory Research

Grounded Theory Research ဆိုတာ လူမှုဗေဒနဲ့ သုတေသနလောကမှာ အသုံးများတဲ့ Qualitative Research (အရည်အသွေးအခြေပြု သုတေသန) နည်းလမ်းတစ်ခု ဖြစ်ပါတယ်။ရိုးရိုးသုတေသနတွေက ရှိပြီးသား Theory (သီအိုရီ) တစ်ခုကို အမှန် ဟုတ်၊ မဟုတ် စမ်းသပ်တာမျိုးဖြစ်ပေမဲ့ Grounded Theory ကတော့ “အချက်အလက်တွေကနေတစ်ဆင့် သီအိုရီအသစ်တစ်ခုကို အောက်ခြေကနေ စတင်တည်ဆောက်တာ” ဖြစ်ပါတယ်။Grounded Theory

Literature ReviewLiterature Review

Literature Review Literature Review (စာတွေ့လေ့လာခြင်း) ဆိုတာ သုတေသနတစ်ခုရဲ့ “ကျောရိုး” ပါပဲ။ ဒါကို ကောင်းကောင်းမလုပ်နိုင်ရင် ကိုယ့်သုတေသနက ပေါ့ပျက်ပျက် ဖြစ်သွားတတ်ပါတယ်။ရိုးရိုးရှင်းရှင်းပြောရရင် Literature Review ဆိုတာ “ကိုယ့်အကြောင်းအရာနဲ့ ပတ်သက်ပြီး သူများတွေ ဘာလုပ်ခဲ့ပြီးပြီလဲ၊ ဘာတွေတွေ့ထားလဲ ဆိုတာကို ပြန်လည်သုံးသပ်ခြင်း” ဖြစ်ပါတယ်။ဒီနေရာမှာ အောင်မြင်တဲ့ Literature Review တစ်ခုဖြစ်ဖို့ လက်တွေ့ကျတဲ့