naywinaung Chapter 9 Simple Linear Regression

Chapter 9 Simple Linear Regression

အခန်း ၉ ဖြစ်တဲ့ “Simple Linear Regression နှင့် Correlation” အကြောင်းကို အသေးစိတ် တင်ပြပေးပါမယ်။ဒီအခန်းက ဘာတွေအကြောင်းလဲဆိုတော့ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုကို ဘယ်လို လေ့လာမယ်၊ တိုင်းတာမလဲဆိုတဲ့ အခြေခံနည်းလမ်းနှစ်ခုကို မိတ်ဆက်ပေးတာ ဖြစ်ပါတယ်။ 

Regression က အချက်အလက်တစ်ခု (Y) ကို နောက်တစ်ခု (X) ကို အခြေခံပြီး ခန့်မှန်းတာ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်တာအတွက် အသုံးဝင်ပြီး၊ Correlation ကတော့ အချက်အလက်နှစ်ခုကြားက Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာပုံနဲ့ ဘယ်လိုဦးတည်နေလဲ (ဥပမာ – တစ်ခုတိုးရင် နောက်တစ်ခုတိုးသလား၊ လျှော့သလား) ဆိုတာကို တိုင်းတာတာ ဖြစ်ပါတယ်။

Simple Linear Regression

ဒီ Regression မှာ အဓိကရည်ရွယ်ချက်ကတော့ မှီခိုနေတဲ့အချက်အလက် (dependent variable) ခေါ်တဲ့ Y တန်ဖိုးကို လွတ်လပ်တဲ့အချက်အလက် (independent variable) ခေါ်တဲ့ X တန်ဖိုးတစ်ခုပေးထားရင် ဘယ်လို အကောင်းဆုံး ခန့်မှန်းမလဲ၊ ဒါမှမဟုတ် တန်ဖိုးတွက်ချက်မလဲဆိုတာကို ရှာဖွေဖို့ပါ။ Y ကို တစ်ခါတလေ တုံ့ပြန်မှုအချက်အလက် (response variable) လို့လည်း ခေါ်ပြီး X ကိုတော့ ခန့်မှန်းမှုအချက်အလက် (predictor variable) လို့လည်း ခေါ်ပါတယ်။

Regression Model

Regression ကို နားလည်ဖို့အတွက် အခြေခံယူဆချက်တွေ ရှိပါတယ်။

•Linearity: Y ရဲ့ ပျမ်းမျှတန်ဖိုးတွေက X တန်ဖိုးအသီးသီးအတွက် ဖြောင့်တန်းတဲ့ ဆ Line တစ်ခုပေါ်မှာ ရှိတယ် (µY|X = β₀ + β₁X) လို့ ယူဆပါတယ်။

•Independence: Y တန်ဖိုးတွေက အချင်းချင်း လွတ်လပ်ပါတယ်။

•Normality: Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု (subpopulations) က X တန်ဖိုးတစ်ခုစီအတွက် Normal Distribution ဖြစ်တယ်လို့ ယူဆပါတယ်။

•Equal Variances (Homoscedasticity): Y တန်ဖိုးတွေရဲ့ ဖြန့်ဝေမှု Variance (ပြန့်ကျဲမှု) က X တန်ဖိုးအားလုံးအတွက် တူညီတယ် (σ²Y|X = σ²) လို့ ယူဆပါတယ်။

•Regression ရဲ့ Model Equation ကတော့ 

y = β₀ + β₁x + ε ဖြစ်ပါတယ်။

◦y က Y ရဲ့ တန်ဖိုးတစ်ခု

◦x က X ရဲ့ တန်ဖိုးတစ်ခု

◦β₀ (Beta zero) က Intercept ဖြစ်ပါတယ်။ ဒါက X က သုည (0) ဖြစ်တဲ့အခါ Y ရဲ့ ခန့်မှန်းတန်ဖိုး (Line က Y ဝင်ရိုးနဲ့ ဆုံတဲ့နေရာ) ပါ။

◦β₁ (Beta one) က Slope ဖြစ်ပါတယ်။ ဒါက X တစ်ယူနစ်တိုးတိုင်း Y ဘယ်လောက်တိုးမယ်/လျှော့မယ်ဆိုတာကို ပြတဲ့ Regression Line ရဲ့ တိမ်းစောင်းမှုပါ။

◦ε (epsilon) က Error Term လို့ ခေါ်ပြီး Model ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုတွေကို ကိုယ်စားပြုပါတယ်။

Sample Regression Equation

လူဦးရေ (Population) Regression Equation ကတော့ တကယ့် β₀ နဲ့ β₁ တန်ဖိုးတွေနဲ့ ဖြစ်ပြီး ဒါကို ကျွန်တော်တို့ မသိနိုင်ပါဘူး။ ဒါကြောင့် နမူနာ (Sample) ကနေရတဲ့ အချက်အလက်တွေကိုသုံးပြီး ဒီတန်ဖိုးတွေကို ခန့်မှန်းပါတယ်။ အဲ့ဒါကို နမူနာ Regression Equation လို့ ခေါ်ပြီး 

ŷ = b₀ + b₁x လို့ ရေးပါတယ် (ŷ က estimated Y လို့ ခေါ်ပါတယ်)။

ဒီ b₀ နဲ့ b₁ ကို ရှာတဲ့ နည်းလမ်းက Least Squares Method လို့ ခေါ်ပါတယ်။ ဒီနည်းလမ်းကတော့ တကယ့် Y တန်ဖိုးတွေ (yᵢ) နဲ့ Regression Equation ကနေ ခန့်မှန်းရတဲ့ Y တန်ဖိုးတွေ (ŷᵢ) ကြားက ကွာခြားချက် (yᵢ – ŷᵢ) ကို ပေါင်းထားတဲ့ Sum of Squared Differences (∑(yᵢ – ŷᵢ)²) ကို အနည်းဆုံးဖြစ်အောင် လုပ်တဲ့ Line ကို ရှာဖွေတာ ဖြစ်ပါတယ်။ ဒါကြောင့် Regression Line ကို sometimes the Least-Squares Line လို့လည်း ခေါ်ပါတယ်။

Regression Equation ကို အကဲဖြတ်ခြင်း (Evaluating the Regression Equation)

Regression Equation ကို ရပြီဆိုရင် ဒီ Equation က အချက်အလက်တွေကို ဘယ်လောက် ကောင်းကောင်း ကိုယ်စားပြုနိုင်လဲ၊ Y ရဲ့ ပြန့်ကျဲမှု (Total Variation) ကို X ကနေ ဘယ်လောက် ရှင်းပြပေးနိုင်လဲဆိုတာကို အကဲဖြတ်ဖို့ လိုပါတယ်။

Y တန်ဖိုးတွေရဲ့ Total Variation ကို Total Sum of Squares (SST) (∑(yᵢ – ȳ)²) နဲ့ တိုင်းတာပါတယ်။

 ဒီ SST ကို အပိုင်းနှစ်ပိုင်း ခွဲလို့ရပါတယ်။

1.Explained Variation (SSR): Regression Line ကနေ ရှင်းပြပေးနိုင်တဲ့ ပြန့်ကျဲမှုပါ (∑(ŷᵢ – ȳ)²)။ ဒါကို Sum of Squares Due to Regression (SSR) လို့ ခေါ်ပါတယ်။

2.Unexplained Variation (SSE): Regression Line ကနေ ရှင်းပြမပေးနိုင်တဲ့ ကျန်နေတဲ့ ပြန့်ကျဲမှုပါ (∑(yᵢ – ŷᵢ)²)။ ဒါကို Sum of Squares About Regression ဒါမှမဟုတ် Error Sum of Squares (SSE) လို့ ခေါ်ပါတယ်။

ဒီသုံးခုရဲ့ ဆက်နွှယ်မှုက 

SST = SSR + SSE ဖြစ်ပါတယ်။

Coefficient of Determination (r²)

ဒီ r² (r square) က SSR နဲ့ SST ရဲ့ အချိုးပါ (r² = SSR / SST)။ ဒါက Y ရဲ့ Total Variation ထဲက X ကနေ ဘယ်လောက် ရာခိုင်နှုန်းကို ရှင်းပြပေးနိုင်လဲဆိုတာကို ပြသပါတယ်။ r² တန်ဖိုးက 0 နဲ့ 1 ကြားမှာ ရှိပြီး၊ 1 နဲ့ နီးလေလေ Regression Line က အချက်အလက်တွေကို ကောင်းကောင်း ကိုယ်စားပြုနိုင်လေလေ ဖြစ်ပါတယ်။ အကယ်၍ r² က 1 ဆိုရင် အချက်အလက်အားလုံးက Line ပေါ်မှာ အတိအကျ ကျနေတာကို ဆိုလိုပါတယ်။ r² က 0 ဆိုရင်တော့ Linear Relationship မရှိဘူးလို့ ဆိုလိုတာပါ။

Slope ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: β₁ = 0)

Population Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ X နဲ့ Y ကြားမှာ Linear Relationship ရှိမရှိကို စစ်ဆေးတာနဲ့ အတူတူပါပဲ။ 

ဒီအတွက် Test Statistic နှစ်မျိုးကို သုံးနိုင်ပါတယ်။

•F-test: Analysis of Variance (ANOVA) Table ထဲက V.R. Statistic ကို သုံးပါတယ်။ ဒါက MSR ကို MSE နဲ့ စားထားတာပါ။ Degrees of Freedom က 1 နဲ့ (n-2) ဖြစ်ပါတယ်။

•t-test: t = (b₁ – β₁₀) / s_b₁ ဆိုတဲ့ Statistic ကို သုံးပါတယ် (β₁₀ က null hypothesis မှာ β₁ တန်ဖိုး၊ များသောအားဖြင့် 0)။ Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ စိတ်ဝင်စားစရာက F Statistic ရဲ့တန်ဖိုးက t Statistic ရဲ့တန်ဖိုးကိုထားတာနဲ့ အတူတူပါပဲ (F = t²)။ ဒါကြောင့် ဒီ Test နှစ်ခုက တူညီတဲ့ ကောက်ချက်ကို ပေးပါတယ်။

ဒီ Test ရဲ့ p-value က ကျွန်တော်တို့ရဲ့ နမူနာရလဒ်ဟာ β₁ = 0 ဖြစ်နေခဲ့ရင်တောင် မတော်တဆ ဖြစ်နိုင်ခြေ ဘယ်လောက်ရှိလဲဆိုတာကို ပြောပြပါတယ်။ p-value က သတ်မှတ်ထားတဲ့ α (Significance Level) ထက် ငယ်ရင် H₀ ကို ပယ်ချပြီး Linear Relationship ရှိတယ်လို့ ကောက်ချက်ချပါတယ်။

Regression Equation ကို အသုံးပြုခြင်း (Using the Regression Equation)

Regression Equation (ŷ = b₀ + b₁x) ကို အသုံးပြုပြီး X တန်ဖိုးတစ်ခုအတွက် Y တန်ဖိုးကို ခန့်မှန်းနိုင်ပါတယ်။ ဒီ ŷ တန်ဖိုးကို နှစ်မျိုးအဓိပ္ပာယ်ဖွင့်နိုင်ပါတယ်။

1.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y တန်ဖိုးတွေရဲ့ Population Mean ကို ခန့်မှန်းတာ (Estimate)။ ဒီလို ခန့်မှန်းတဲ့အခါ Confidence Interval ကို တွက်ချက်ပါတယ်။

2.X တန်ဖိုးတစ်ခုပေးထားတဲ့ Y ရဲ့ အဖြစ်နိုင်ဆုံး တန်ဖိုးတစ်ခု (Prediction)။ ဒီလို ခန့်မှန်းတဲ့အခါ Prediction Interval ကို တွက်ချက်ပါတယ်။

Prediction Interval က Confidence Interval ထက် အမြဲ ပိုကျယ်ပါတယ်။

Correlation

Correlation ကတော့ Variables နှစ်ခုလုံးက Random ဖြစ်တယ်လို့ ယူဆပါတယ်။ Regression လို တစ်ခုကနေ နောက်တစ်ခုကို ခန့်မှန်းတာမျိုးမဟုတ်ဘဲ၊ Variables နှစ်ခုကြားက ဆ Linear ဆက်နွှယ်မှုရဲ့ ခိုင်မာမှု (strength) နဲ့ ဦးတည်ချက် (direction) ကို တိုင်းတာတာဖြစ်ပါတယ်။

Population Correlation Coefficient (ρ)

ρ (rho) သင်္ကေတနဲ့ ပြပြီး Population Correlation Coefficient ကို ကိုယ်စားပြုပါတယ်။

•တန်ဖိုးက -1 နဲ့ +1 ကြားမှာ ရှိပါတယ်။

•+1 ဆိုရင် Perfect Direct Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုကလည်း အချိုးကျတိုးမယ်)။

•-1 ဆိုရင် Perfect Inverse Linear Correlation (တစ်ခုတိုးရင် နောက်တစ်ခုက အချိုးကျ လျှော့မယ်)။

•0 ဆိုရင်တော့ Linear Correlation မရှိဘူးလို့ ဆိုလိုပါတယ်။ တခြားဆက်နွှယ်မှုပုံစံ (ဥပမာ – Curvilinear) ရှိချင် ရှိနိုင်ပါတယ်။

•ρ ရဲ့ sign က Regression Slope (β₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

နမူနာ Correlation Coefficient (r)

နမူနာ (Sample) ကနေ တွက်ချက်ရတဲ့ Correlation Coefficient ကို r သင်္ကေတနဲ့ ပြပါတယ်။ ဒါက Population ρ ရဲ့ ခန့်မှန်းတန်ဖိုးပါ။ r ကို တွက်ချက်တဲ့ formula ကလည်း Source မှာ ပေးထားပါတယ်။ စိတ်ဝင်စားစရာက Regression မှာ တွက်ခဲ့တဲ့ Coefficient of Determination (r²) က Correlation Coefficient (r) ကို (square) လုပ်ထားတာနဲ့ တူညီပါတယ်။ r ရဲ့ sign က Regression Slope (b₁) ရဲ့ sign နဲ့ အတူတူပါပဲ။

Correlation ရဲ့ အရေးပါမှုကို စစ်ဆေးခြင်း (Testing H₀: ρ = 0)

Population Correlation (ρ) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာဟာ Regression Slope (β₁) က သုည (0) ဟုတ်မဟုတ် စစ်ဆေးတာနဲ့ တူညီပါတယ်။ ဒီအတွက် t-test statistic ကို သုံးပါတယ်။ 

t = r * √(n-2) / √(1-r²) ဖြစ်ပြီး Degrees of Freedom က (n-2) ဖြစ်ပါတယ်။ ဒီ t Statistic ဟာ Regression Slope အတွက် သုံးတဲ့ t Statistic နဲ့ တူညီတာကို Source မှာ ရှင်းပြထားပါတယ်။

အကယ်၍ ρ တန်ဖိုးက 0 မဟုတ်ဘဲ တခြား သတ်မှတ်ထားတဲ့ တန်ဖိုးတစ်ခုနဲ့ တူညီမတူညီ စစ်ဆေးချင်ရင်တော့ Fisher’s z Transformation ကို သုံးပြီး Standard Normal Distribution နဲ့ နှိုင်းယှဉ်စစ်ဆေးနိုင်ပါတယ်။

ဒီလို Regression နဲ့ Correlation နည်းလမ်းတွေက ကျန်းမာရေးနယ်ပယ်မှာ အချက်အလက်နှစ်ခုကြားက ဆက်နွှယ်မှုတွေကို လေ့လာရာမှာ အခြေခံကျတဲ့ ကိရိယာတွေ ဖြစ်ပါတယ်။

ဒါတွေကတော့ အခန်း ၉ ရဲ့ အဓိကအကြောင်းအရာတွေပါပဲ။ နားလည်မှုလွယ်ကူစေဖို့ အရေးကြီးတဲ့ အပိုင်းတွေကို Bold ထားပါတယ်။ အထောက်အကူဖြစ်မယ်လို့ မျှော်လင့်ပါတယ်။

Related Post

data visualization မှာ အဖြစ်များတဲ့ အမှား (၇) ခုdata visualization မှာ အဖြစ်များတဲ့ အမှား (၇) ခု

data visualization မှာ အဖြစ်များတဲ့ အမှား (၇) ခု ရှိပါတယ်လို့ ဆိုထားပါတယ်။ အဲဒါတွေကတော့ – ၁။  ရှုပ်ပွနေတဲ့ visualization တွေ မဖန်တီးမိအောင် ရှောင်ပါ။ တင်ပြချင်တဲ့ အချက်အလက်တွေ များတဲ့အခါ visualization တစ်ခုတည်းမှာ အားလုံးထည့်ချင်တတ်ကြတယ်။ ဒါပေမဲ့ စာသားဘောက်စ်တွေ၊ ဂရပ်ဖစ် layer တွေလို မြင်သာတဲ့ အစိတ်အပိုင်းတွေ

ဒေတာအမျိုးအစားများဒေတာအမျိုးအစားများ

ဒစ်ဂျစ်တယ်ကမ္ဘာထဲက ဒေတာအမျိုးအစားတွေအကြောင်း မြန်မာရနံ့ လေးစွက်ပြီး ပွားကြည့်ရအောင်။ ကိန်းပြည့်(integer) ဆိုတာ ဘုန်းကြီးကျောင်းက ပုတီးစေ့တွေလိုပါပဲ၊ တစ်လုံးခြင်း ရေတွက်ကြပါတယ်။ ၁၊ ၄၂၊ ၁၀၀၀ လို ကိန်းတွေပေါ့။ ကွဲအက်တာမရှိ၊ ပိုင်းဖြတ်လို့မရဘူး။ ရွှေတိဂုံဘုရားမှာ ဖယောင်းတိုင်ဘယ်နတိုင် မီးထွန်းမလဲ ရေတွက်တဲ့အခါ ဒီလိုကိန်းပြည့်တွေကို သုံးရပါတယ်။ ပြီးတော့ ဒဿမကိန်း (float) ဆိုတာကတော့ ဧရာဝတီမြစ်ရေလို စီးလျက်ရှိတယ်။

EHEALTH ArchitectureEHEALTH Architecture

#eHealth#Architecture     အရင်အပတ်တွေက eHealth Model တွေအကြောင်းကို အကြမ်းဖျဉ်းရေးခဲ့ပါတယ်။ ကျန်တဲ့ model တွေကို ဆက်မရေးတော့ပါဘူး။ အားလုံးပဲ မိမိတို့ စိတ်ဝင်စားရင် ရှာဖတ်နိုင်ပါတယ်။ ဒါမှမဟုတ် ကျွန်တော့်ထံ email ပို့ပြီး ဆက်သွယ်နိုင်ပါတယ်။အခု ဆက်ပြီးရေးသားချင်တာက eHealth Architecture တွေပဲဖြစ်ပါတယ်။ Architecture တွေအကြောင်းကို မပြောခင် ဘာကြောင့် Architecture တွေက အရေးကြီးသလဲ