naywinaung Biostatistics Simple Linear Regression နှင့် Correlation

Simple Linear Regression နှင့် Correlation

အခန်း ၉ ဖြစ်တဲ့ “Simple Linear Regression နှင့် Correlation” အကြောင်းကို အသေးစိတ် တင်ပြပေးပါမယ်။ဒီအခန်းက ဘာတွေအကြောင်းလဲဆိုတော့ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုကို ဘယ်လို လေ့လာမယ်၊ တိုင်းတာမလဲဆိုတဲ့ အခြေခံနည်းလမ်းနှစ်ခုကို မိတ်ဆက်ပေးတာ ဖြစ်ပါတယ်။
Regression က အချက်အလက်တစ်ခု (Y) ကို နောက်တစ်ခု (X) ကို အခြေခံပြီး ခန့်မှန်းတာ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်တာအတွက် အသုံးဝင်ပြီး၊ Correlation ကတော့ အချက်အလက်နှစ်ခုကြားက Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာပုံနဲ့ ဘယ်လိုဦးတည်နေလဲ (ဥပမာ – တစ်ခုတိုးရင် နောက်တစ်ခုတိုးသလား၊ လျှော့သလား) ဆိုတာကို တိုင်းတာတာ ဖြစ်ပါတယ်။

Simple Linear Regression

ဒီ Regression မှာ အဓိကရည်ရွယ်ချက်ကတော့ မှီခိုနေတဲ့အချက်အလက် (dependent variable) ခေါ်တဲ့ Y တန်ဖိုးကို လွတ်လပ်တဲ့အချက်အလက် (independent variable) ခေါ်တဲ့ X တန်ဖိုးတစ်ခုပေးထားရင် ဘယ်လို အကောင်းဆုံး ခန့်မှန်းမလဲ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်မလဲဆိုတာကို ရှာဖွေဖို့ပါ။ Y ကို တစ်ခါတလေ တုံ့ပြန်မှုအချက်အလက် (response variable) လို့လည်း ခေါ်ပြီး X ကိုတော့ ခန့်မှန်းမှုအချက်အလက် (predictor variable) လို့လည်း ခေါ်ပါတယ်။

Regression Model
Regression ကို နားလည်ဖို့အတွက် အခြေခံယူဆချက်တွေ ရှိပါတယ်။

•Linearity: Y ရဲ့ ပျမ်းမျှတန်ဖိုးတွေက X တန်ဖိုးအသီးသီးအတွက် ဖြောင့်တန်းတဲ့ ဆ Line တစ်ခုပေါ်မှာ ရှိတယ် (µY|X = β₀ + β₁X) လို့ ယူဆပါတယ်။
•Independence: Y တန်ဖိုးတွေက အချင်းချင်း လွတ်လပ်ပါတယ်။
•Normality: Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု (subpopulations) က X တန်ဖိုးတစ်ခုစီအတွက် Normal Distribution ဖြစ်တယ်လို့ ယူဆပါတယ်။
•Equal Variances (Homoscedasticity): Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု Variance (ပြန့်ကျဲမှု) က X တန်ဖိုးအားလုံးအတွက် တူညီတယ် (σ²Y|X = σ²) လို့ ယူဆပါတယ်။
•Regression ရဲ့ Model Equation ကတော့
y = β₀ + β₁x + ε ဖြစ်ပါတယ်။
◦y က Y ရဲ့ တန်ဖိုးတစ်ခု
◦x က X ရဲ့ တန်ဖိုးတစ်ခု
◦β₀ (Beta zero) က Intercept ဖြစ်ပါတယ်။ ဒါက X က သုည (0) ဖြစ်တဲ့အခါ Y ရဲ့ ခန့်မှန်းတန်ဖိုး (Line က Y ဝင်ရိုးနဲ့ ဆုံတဲ့နေရာ) ပါ။
◦β₁ (Beta one) က Slope ဖြစ်ပါတယ်။ ဒါက X တစ်ယူနစ်တိုးတိုင်း Y ဘယ်လောက်တိုးမယ်/လျှော့မယ်ဆိုတာကို ပြတဲ့ Regression Line ရဲ့ တိမ်းစောင်းမှုပါ။
◦ε (epsilon) က Error Term လို့ ခေါ်ပြီး Model ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုတွေကို ကိုယ်စားပြုပါတယ်။

Sample Regression Equation

လူဦးရေ (Population) Regression Equation ကတော့ တကယ့် β₀ နဲ့ β₁ တန်ဖိုးတွေနဲ့ ဖြစ်ပြီး ဒါကို ကျွန်တော်တို့ မသိနိုင်ပါဘူး။ ဒါကြောင့် နမူနာ (Sample) ကနေရတဲ့ အချက်အလက်တွေကိုသုံးပြီး ဒီတန်ဖိုးတွေကို ခန့်မှန်းပါတယ်။ အဲ့ဒါကို နမူနာ Regression Equation လို့ ခေါ်ပြီး
ŷ = b₀ + b₁x လို့ ရေးပါတယ် (ŷ က estimated Y လို့ ခေါ်ပါတယ်)။
ဒီ b₀ နဲ့ b₁ ကို ရှာတဲ့ နည်းလမ်းက Least Squares Method လို့ ခေါ်ပါတယ်။ ဒီနည်းလမ်းကတော့ တကယ့် Y တန်ဖိုးတွေ (yᵢ) နဲ့ Regression Equation ကနေ ခန့်မှန်းရတဲ့ Y တန်ဖိုးတွေ (ŷᵢ) ကြားက ကွာခြားချက် (yᵢ – ŷᵢ) ကို ပေါင်းထားတဲ့ Sum of Squared Differences (∑(yᵢ – ŷᵢ)²) ကို အနည်းဆုံးဖြစ်အောင် လုပ်တဲ့ Line ကို ရှာဖွေတာ ဖြစ်ပါတယ်။ ဒါကြောင့် Regression Line ကို sometimes the Least-Squares Line လို့လည်း ခေါ်ပါတယ်။

Regression Equation ကို အကဲဖြတ်ခြင်း (Evaluating the Regression Equation)

Regression Equation ကို ရပြီဆိုရင် ဒီ Equation က အချက်အလက်တွေကို ဘယ်လောက် ကောင်းကောင်း ကိုယ်စားပြုနိုင်လဲ၊ Y ရဲ့ ပြန့်ကျဲမှု (Total Variation) ကို X ကနေ ဘယ်လောက် ရှင်းပြပေးနိုင်လဲဆိုတာကို အကဲဖြတ်ဖို့ လိုပါတယ်။
Y တန်ဖိုးတွေရဲ့ Total Variation ကို Total Sum of Squares (SST) (∑(yᵢ – ȳ)²) နဲ့ တိုင်းတာပါတယ်။

ဒီ SST ကို အပိုင်းနှစ်ပိုင်း ခွဲလို့ရပါတယ်။
1.Explained Variation (SSR): Regression Line ကနေ ရှင်းပြပေးနိုင်တဲ့ ပြန့်ကျဲမှုပါ (∑(ŷᵢ – ȳ)²)။ ဒါကို Sum of Squares Due to Regression (SSR) လို့ ခေါ်ပါတယ်။
2.Unexplained Variation (SSE): Regression Line ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုပါ (∑(yᵢ – ŷᵢ)²)။ ဒါကို Sum of Squares About Regression ဒါမှမဟုတ် Error Sum of Squares (SSE) လို့ ခေါ်ပါတယ်။

ဒီသုံးခုရဲ့ ဆက်နွှယ်မှုက
SST = SSR + SSE ဖြစ်ပါတယ်။

Coefficient of Determination (r²)
ဒီ r² (r square) က SSR နဲ့ SST ရဲ့ အချိုးပါ (r² = SSR / SST)။ ဒါက Y ရဲ့ Total Variation ထဲက X ကနေ ဘယ်လောက် ရာခိုင်နှုန်းကို ရှင်းပြပေးနိုင်လဲဆိုတာကို ပြသပါတယ်။ r² တန်ဖိုးက 0 နဲ့ 1 ကြားမှာ ရှိပြီး၊ 1 နဲ့ နီးလေလေ Regression Line က အချက်အလက်တွေကို ကောင်းကောင်း ကိုယ်စားပြုနိုင်လေလေ ဖြစ်ပါတယ်။ အကယ်၍ r² က 1 ဆိုရင် အချက်အလက်အားလုံးက Line ပေါ်မှာ အတိအကျ ကျနေတာကို ဆိုလိုပါတယ်။ r² က 0 ဆိုရင်တော့ Linear Relationship မရှိဘူးလို့ ဆိုလိုတာပါ။
Slope ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: β₁ = 0)
Population Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ X နဲ့ Y ကြားမှာ Linear Relationship ရှိမရှိကို စစ်ဆေးတာနဲ့ အတူတူပါပဲ။

ဒီအတွက် Test Statistic နှစ်မျိုးကို သုံးနိုင်ပါတယ်။
•F-test: Analysis of Variance (ANOVA) Table ထဲက V.R. Statistic ကို သုံးပါတယ်။ ဒါက MSR ကို MSE နဲ့ စားထားတာပါ။ Degrees of Freedom က 1 နဲ့ (n-2) ဖြစ်ပါတယ်။
•t-test: t = (b₁ – β₁₀) / s_b₁ ဆိုတဲ့ Statistic ကို သုံးပါတယ် (β₁₀ က null hypothesis မှာ β₁ တန်ဖိုး၊ များသောအားဖြင့် 0)။ Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ စိတ်ဝင်စားစရာက F Statistic ရဲ့တန်ဖိုးက t Statistic ရဲ့တန်ဖိုးကိုထားတာနဲ့ အတူတူပါပဲ (F = t²)။ ဒါကြောင့် ဒီ Test နှစ်ခုက တူညီတဲ့ ကောက်ချက်ကို ပေးပါတယ်။
ဒီ Test ရဲ့ p-value က ကျွန်တော်တို့ရဲ့ နမူနာရလဒ်ဟာ β₁ = 0 ဖြစ်နေခဲ့ရင်တောင် မတော်တဆ ဖြစ်နိုင်ခြေ ဘယ်လောက်ရှိလဲဆိုတာကို ပြောပြပါတယ်။ p-value က သတ်မှတ်ထားတဲ့ α (Significance Level) ထက် ငယ်ရင် H₀ ကို ပယ်ချပြီး Linear Relationship ရှိတယ်လို့ ကောက်ချက်ချပါတယ်။

Regression Equation ကို အသုံးပြုခြင်း (Using the Regression Equation)

Regression Equation (ŷ = b₀ + b₁x) ကို အသုံးပြုပြီး X တန်ဖိုးတစ်ခုအတွက် Y တန်ဖိုးကို ခန့်မှန်းနိုင်ပါတယ်။ ဒီ ŷ တန်ဖိုးကို နှစ်မျိုးအဓိပ္ပာယ်ဖွင့်နိုင်ပါတယ်။
1.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y တန်ဖိုးတွေရဲ့ Population Mean ကို ခန့်မှန်းတာ (Estimate)။ ဒီလို ခန့်မှန်းတဲ့အခါ Confidence Interval ကို တွက်ချက်ပါတယ်။
2.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y ရဲ့ အဖြစ်နိုင်ဆုံး တန်ဖိုးတစ်ခု (Prediction)။ ဒီလို ခန့်မှန်းတဲ့အခါ Prediction Interval ကို တွက်ချက်ပါတယ်။
Prediction Interval က Confidence Interval ထက် အမြဲ ပိုကျယ်ပါတယ်။

Correlation
Correlation ကတော့ Variables နှစ်ခုလုံးက Random ဖြစ်တယ်လို့ ယူဆပါတယ်။ Regression လို တစ်ခုကနေ နောက်တစ်ခုကို ခန့်မှန်းတာမျိုးမဟုတ်ဘဲ၊ Variables နှစ်ခုကြားက ဆ Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာမှု (strength) နဲ့ ဦးတည်ချက် (direction) ကို တိုင်းတာတာဖြစ်ပါတယ်။

Population Correlation Coefficient (ρ)
ρ (rho) သင်္ကေတနဲ့ ပြပြီး Population Correlation Coefficient ကို ကိုယ်စားပြုပါတယ်။
•တန်ဖိုးက -1 နဲ့ +1 ကြားမှာ ရှိပါတယ်။
•+1 ဆိုရင် Perfect Direct Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုကလည်း အချိုးကျတိုးမယ်)။
•-1 ဆိုရင် Perfect Inverse Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုက အချိုးကျ လျှော့မယ်)။
•0 ဆိုရင်တော့ Linear Correlation မရှိဘူးလို့ ဆိုလိုပါတယ်။ တခြားဆက်နွှယ်မှုပုံစံ (ဥပမာ – Curvilinear) ရှိချင် ရှိနိုင်ပါတယ်။
•ρ ရဲ့ sign က Regression Slope (β₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

နမူနာ Correlation Coefficient (r)
နမူနာ (Sample) ကနေ တွက်ချက်ရတဲ့ Correlation Coefficient ကို r သင်္ကေတနဲ့ ပြပါတယ်။ ဒါက Population ρ ရဲ့ ခန့်မှန်းတန်ဖိုးပါ။ r ကို တွက်ချက်တဲ့ formula ကလည်း Source မှာ ပေးထားပါတယ်။ စိတ်ဝင်စားစရာက Regression မှာ တွက်ခဲ့တဲ့ Coefficient of Determination (r²) က Correlation Coefficient (r) ကို (square) လုပ်ထားတာနဲ့ တူညီပါတယ်။ r ရဲ့ sign က Regression Slope (b₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

Correlation ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: ρ = 0)
Population Correlation (ρ) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ Regression Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာနဲ့ တူညီပါတယ်။ ဒီအတွက် t-test statistic ကို သုံးပါတယ်။
t = r * √(n-2) / √(1-r²) ဖြစ်ပြီး Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ ဒီ t Statistic ဟာ Regression Slope အတွက် သုံးတဲ့ t Statistic နဲ့ တူညီတာကို Source မှာ ရှင်းပြထားပါတယ်။
အကယ်၍ ρ တန်ဖိုးက 0 မဟုတ်ဘဲ တခြား သတ်မှတ်ထားတဲ့ တန်ဖိုးတစ်ခုနဲ့ တူညီမတူညီ စစ်ဆေးချင်ရင်တော့ Fisher’s z Transformation ကို သုံးပြီး Standard Normal Distribution နဲ့ နှိုင်းယှဉ်စစ်ဆေးနိုင်ပါတယ်။

ဒီလို Regression နဲ့ Correlation နည်းလမ်းတွေက ကျန်းမာရေးနယ်ပယ်မှာ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုတွေကို လေ့လာရာမှာ အခြေခံကျတဲ့ ကိရိယာတွေ ဖြစ်ပါတယ်။
ဒါတွေကတော့ အခန်း ၉ ရဲ့ အဓိကအကြောင်းအရာတွေပါပဲ။ နားလည်မှုလွယ်ကူစေဖို့ အရေးကြီးတဲ့ အပိုင်းတွေကို Bold ထားပါတယ်။ အထောက်အကူဖြစ်မယ်လို့ မျှော်လင့်ပါတယ်။


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

Hypothesis TestingHypothesis Testing

အခန်း ၇ – ယူဆချက် စမ်းသပ်ခြင်း (Hypothesis Testing)ဒီအခန်းမှာတော့ “ယူဆချက် စမ်းသပ်ခြင်း” ဆိုတဲ့အကြောင်းကို အဓိကထားပြီး ဆွေးနွေးသွားမှာပါ။ စာရင်းအင်းနဲ့ပတ်သက်တဲ့ ကောက်ချက်ချခြင်းနဲ့ပတ်သက်လာတဲ့အခါ၊ အရေးကြီးတဲ့နယ်ပယ်နှစ်ခုရှိပါတယ်။ တစ်ခုက ခန့်မှန်းခြင်း (Estimation) ဖြစ်ပြီး၊ တစ်ခုက ယူဆချက် စမ်းသပ်ခြင်း (Hypothesis Testing) ဖြစ်ပါတယ်။ယူဆချက် စမ်းသပ်ခြင်း ဆိုတာကတော့ လူဦးရေ (population) တစ်ခုအကြောင်းကောင်းကောင်းနားလည်ဖို့အတွက်၊

ANOVAANOVA

Analysis of Variance (ANOVA) ဆိုတာ ဘာလဲ၊ ဘာလို့သုံးတာလဲပြောရမယ်ဆိုရင် Analysis of Variance လို့ခေါ်တဲ့ ANOVA ဟာ ကိန်းဂဏန်းအချက်အလက်တွေကို ခွဲခြမ်းစိတ်ဖြာတဲ့ နည်းလမ်းတစ်ခုပါ။ ဒီအခန်းရဲ့ ရည်ရွယ်ချက်ကတော့ linear models လို့ခေါ်တဲ့ နည်းလမ်းတွေထဲက ပထမဆုံး နည်းလမ်းအကြောင်းကို မိတ်ဆက်ပေးဖို့ပါပဲ။ANOVA ရဲ့ အဓိက အိုင်ဒီယာ ကတော့ ဒေတာတစ်ခုလုံးမှာ

Chapter 12 The Chi-Square DistributionChapter 12 The Chi-Square Distribution

အခန်း ၁၂ ဖြစ်တဲ့ “ခိုင်စကွဲယား ဖြန့်ဝေမှု (The Chi-Square Distribution) နဲ့ ကြိမ်နှုန်းဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာခြင်း (Analysis of Frequencies)” အကြောင်းကို ဆွေးနွေးပေးပါမယ်။ ဒီအခန်းဟာ ကျွန်တော်တို့ အရင်က လေ့လာခဲ့တဲ့ ကိန်းဂဏာန်း တိုင်းတာမှုတွေ ဒါမှမဟုတ် ဆက်နွယ်မှုတွေနဲ့ မတူဘဲ အရေအတွက် (counts) ဒါမှမဟုတ် ကြိမ်နှုန်း (frequencies)