naywinaung blog,research,Research Methodology QQ Plot ဆိုတာ ဘာလဲ?

QQ Plot ဆိုတာ ဘာလဲ?

QQ plot ဆိုတာ ဒေတာ (အထူးသဖြင့် regression လုပ်ပြီးထွက်လာတဲ့ residual တွေ) က ပုံမှန်ဖြန့်ကျက်မှု (Normal Distribution) ရှိလား၊ မရှိဘူးလားဆိုတာကို မျက်စိနဲ့မြင်အောင် စစ်ဆေးတဲ့ နည်းလမ်းတစ်ခုဖြစ်ပါတယ်။

ဘာလို့ ဒီကောင်ကို သုံးတာလဲ?

linear regression လုပ်တယ်ဆိုတာ အိမ်တစ်လုံးရဲ့ အကျယ်အဝန်းကိုကြည့်ပြီး ဈေးနှုန်းခန့်မှန်းတာမျိုးပေါ့။ အဲဒီမှာ သင်္ချာနည်းကျ ယူဆချက်တစ်ခုက “ငါ့ရဲ့ ခန့်မှန်းချက် မှားသွားတဲ့ ပမာဏ (error) တွေက ပုံမှန်ပဲ ဖြစ်ရမယ်” ဆိုတာပါပဲ။

ဒီယူဆချက် မှန်မမှန် စစ်ဖို့ နည်းလမ်း ၃ မျိုးရှိပါတယ်။

1. Histogram ဆွဲကြည့်တာ
ဒါက အကြမ်းဖျဉ်း အနေနဲ့ ကြည့်လို့ရပါတယ်။ ဥပမာ ခေါင်းလောင်းပုံပဲ ဖြစ်နေလား၊ ချိုင့်တွေပါနေလားဆိုတာ မြင်ရုံပါပဲ။

2. Shapiro-Wilk လို စာရင်းအင်းစစ်ဆေးမှု လုပ်နိုင်ပါတယ်
ဒါက သိပ်တိကျပါတယ်။ တစ်ခါတလေ ဒေတာက ပုံမှန်နဲ့နီးစပ်ပေမယ့် နမူနာအရေအတွက် များသွားရင် ဒီစစ်ဆေးမှုက “ဒါ ပုံမှန်မဟုတ်ဘူး” လို့ ပြောတတ်ပါတယ်။

3. QQ Plot ဆွဲကြည့်တာ
ဒါက အကောင်းဆုံးပါပဲ။ မျက်စိနဲ့မြင်ရပါတယ်။ ဘယ်လောက် ပုံမှန်နဲ့ ကွာနေလဲ၊ ဘယ်လို ကွာနေလဲ (ညာဘက်စောင်းနေလား၊ အမြီးပိုင်းတွေ ထူနေလား) ဆိုတာ တစ်ချက်ကြည့်တာနဲ့ သိရပါတယ်။

QQ Plot ကို ဘယ်လိုဖတ်မလဲ?

ဒီ plot က ဒေတာအမှတ်တွေကို မျဉ်းဖြောင့်တစ်ကြောင်းနဲ့ တွဲဆွဲထားပါတယ်။

အခြေခံဖတ်နည်းက အရမ်းရိုးရှင်းပါတယ်

· အမှတ်တွေ မျဉ်းပေါ်မှာ ကျနေလား?
အဲ့ဒါဆို ဒေတာ‌က ပုံမှန်ဖြန့်ကျက်မှု ရှိပါတယ်။

· အမှတ်တွေက မျဉ်းအပေါ်ကို ကောက်တက်နေလား?
ဥပမာ – ဂရပ်ရဲ့ ညာဘက်အခြမ်းမှာ အမှတ်တွေက မျဉ်းအပေါ်ကို ရုတ်တရက်တက်သွားတာမျိုးပေါ့
  ဒါဆို ဒေတာက ညာဘက်စောင်း (Right-Skewed) နေတာပါ။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းကြီးတဲ့ တန်ဖိုးတွေ (outliers) ရှိနေပါတယ်။ ဥပမာ လူအများစုရဲ့ ၀င်ငွေက ၁ သိန်းလောက်ပဲ ရှိပေမယ့် လူတစ်ယောက်က သိန်း ၁၀၀ ရနေတာမျိုး‌‌။

· အမှတ်တွေက မျဉ်းအောက်ကို ကောက်ဆင်းနေလား?
ဂရပ်ရဲ့ ဘယ်ဘက်အခြမ်းမှာ အောက်ကို စိုက်ဆင်းသွားတာမျိုး
  ဒါဆို ဒေတာက ဘယ်ဘက်စောင်း (Left-Skewed) နေပါတယ်။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းသေးတဲ့ တန်ဖိုးတွေ ရှိနေပါတယ်။

· အမှတ်တွေက S လိုကွေးနေလား?
အလယ်ပိုင်းက မျဉ်းအတိုင်းပဲ နောက်ဆုံးထိပ်နှစ်ဖက်မှ ခွာထွက်သွားတာမျိုး
  ဒါဆို ဒေတာမှာ အမြီးပိုင်းထူ (Heavy Tails) တယ်လို့ ခေါ်ပါတယ်။ ဆိုလိုတာက ပုံမှန်ဖြန့်ကျက်မှုထက် အစွန်းအဖျားတန်ဖိုးတွေ (သေးလွန်း/ကြီးလွန်းတဲ့ဟာတွေ) ပိုများနေပါတယ်။

QQ Plot ဆိုတာ regression လုပ်ပြီးတိုင်း မဖြစ်မနေ ကြည့်သင့်တဲ့ အရာဖြစ်ပါတယ်။ Histogram ထက် QQ Plot က အသေးစိတ် ပြောပြနိုင်ပါတယ်။ “ငါ့ဒေတာက ဘယ်လို ပုံစံမျိုးနဲ့ ပုံမှန်မဟုတ်တာလဲ” ဆိုတာ ဒီပုံကနေ တန်းသိနိုင်ပါတယ်။ဒါကြောင့် regression လုပ်ပြီး residual အကြွင်းတွေကို စစ်တဲ့အခါ QQ Plot ကို သေချာကြည့်ဖို့ မမေ့ဖို့လိုပါတယ်။ မျဉ်းဖြောင့်အတိုင်း ကျနေရင် ပြီးပြည့်စုံပါတယ်။ မကျဘူးဆိုရင်လည်း ဘာပြဿနာရှိလဲဆိုတာ ဒီပုံကနေ ပြောပြပါလိမ့်မယ်။

ပုံ ၁ ကို သုံးသပ်ပြပါမယ်။
“Left Skewed”၊ “Normal” နဲ့ “Right Skewed” ဆိုတဲ့ ဖြန့်ကျက်မှု သုံးမျိုးကို ယှဉ်ပြထားပါတယ်။

ဒီပုံကနေ ရနိုင်တဲ့ အချက်တွေက –

· Normal ကော်လံ

ပုံမှန်ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားတာဖြစ်ပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းဖြောင့် (45-degree line) အတိုင်း ကျနေမှာဖြစ်လို့ ဒေတာက ပုံမှန်ဖြန့်ကျက်မှုနဲ့ ကိုက်ညီတယ်လို့ ဆိုနိုင်ပါတယ်။ Regression analysis အတွက် လိုချင်တဲ့ပုံစံပါ။

· Left Skewed

ဘယ်ဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အောက်ဘက်ကို ကွေးကျသွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဆိုလိုချင်တာက ဒေတာရဲ့ ဘယ်ဘက်အမြီးပိုင်း (သေးငယ်တဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။

· Right Skewed

ညာဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အပေါ်ဘက်ကို ကွေးတက်သွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဒေတာရဲ့ ညာဘက်အမြီးပိုင်း (ကြီးမားတဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။

ဒီပုံက QQ Plot ပေါ်မှာ စောင်းနေတဲ့ဒေတာ (Skewed Data) ရဲ့ ပုံသဏ္ဍာန်ကို နားလည်အောင် ရည်ရွယ်တဲ့ ပုံဖြစ်ပါတယ်။

ပုံ ၂ ကို သုံးသပ်ပြချင်ပါတယ်

ဒုတိယပုံမှာတော့ “Multimodal”၊ “Normal with Outlier” နဲ့ “Uniform” ဆိုတဲ့ ဖြန့်ကျက်မှုပုံစံတွေကို ယှဉ်ပြထားပါတယ်။

· Multimodal

ဒါက ဒေတာမှာ အုပ်စုများစွာ (ဥပမာ – အထွတ်စွန်း ၂ ခု သို့ ၃ ခု) ရှိနေတဲ့ ဖြန့်ကျက်မှုမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်အတိုင်းမဟုတ်ဘဲ အဆင့်ဆင့် ကွေးနေတဲ့ပုံစံ ဒါမှမဟုတ် အုပ်စုလိုက် ကွဲထွက်နေတဲ့ပုံစံမျိုး ပြနိုင်ပါတယ်။

· Normal with Outlier

ဒါက ပုံမှန်ဖြန့်ကျက်မှုနီးစပ်ပေမယ့် အစွန်းအဖျားမှာ ကျန်တဲ့ဒေတာနဲ့ လုံးဝမလိုက်တဲ့ တန်ဖိုးတစ်ခုပါနေတာမျိုးပါ။ QQ Plot မှာ ကျန်တဲ့အမှတ်တွေက မျဉ်းအတိုင်းနီးစပ်နေပေမယ့် ထိပ်ဆုံးမှာ မျဉ်းကနေ သိသိသာသာ ခွာထွက်နေတဲ့ အစက်တစ်ခု အနေနဲ့ ပေါ်နေမှာပါ။ ဒါက outlier ကို ညွှန်ပြတာဖြစ်ပါတယ်။

· Uniform

တူညီဖြန့်ကျက်မှုဆိုတာ ဒေတာတန်ဖိုးတွေက အကွာအဝေးတစ်ခုအတွင်း ညီညီညာညာ ပျံ့နှံ့နေတာမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်ထက် S ပုံစံ ကွေးနေတတ်ပါတယ်။ အလယ်ပိုင်းမှာ ပြောင်ပြီး ထိပ်နှစ်ဖက်မှာ ပြားနေတဲ့ပုံစံမျိုး ဖြစ်နိုင်ပါတယ်။

ဒုတိယပုံကတော့ ပုံမှန်ဖြန့်ကျက်မှုမဟုတ်တဲ့ အခြားဖြန့်ကျက်မှုပုံစံတွေနဲ့ QQ Plot ပေါ်က သူတို့ရဲ့သွင်ပြင်လက္ခဏာတွေကို ပြသတာဖြစ်ပါတယ်။

ဒီပုံနှစ်ပုံဟာ စာရင်းအင်းပညာရပ်မှာ QQ Plot ကို ဘယ်လိုဖတ်ရမလဲဆိုတာကို အမြင်အာရုံနဲ့ သုံးသပ်ဖို့ အကောင်းဆုံး နမူနာပုံတွေပါ။

· ပထမပုံက ဒေတာစောင်းခြင်း (Skewness) ကို စစ်ဆေးနည်းဖြစ်ပြီး
· ဒုတိယပုံကတော့ အခြားဖြန့်ကျက်မှုပုံစံများ (Multimodal, Outlier, Uniform) ကို စစ်ဆေးနည်းဖြစ်ပါတယ်။

Regression analysis လုပ်တဲ့အခါမှာ ဒီပုံတွေကို မှတ်ထားပြီး ကိုယ့် residual တွေရဲ့ QQ Plot ကို ကြည့်ရင် ဘယ်လိုပြဿနာမျိုး ရှိနေလဲဆိုတာ အလွယ်တကူ သိနိုင်မှာပါ။

နပေတိုး


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

Research ParadigmResearch Paradigm

(Research Paradigm) တွေထဲက အဓိက အရေးကြီးတဲ့ ၆ ခု၁. Constructivist (တည်ဆောက်ဝါဒ)ဒါက လူတွေရဲ့ အတွေ့အကြုံ၊ အမြင်၊ ယုံကြည်ချက်တွေကနေ “အမှန်” ဆိုတာ ဖြစ်လာတယ်လို့ ယုံကြည်တဲ့ အယူအဆပါ။ တစ်ယောက်နဲ့တစ်ယောက် အတွေ့အကြုံ မတူတော့ အမှန်တရားလည်း မတူနိုင်ဘူး။ ဥပမာ – ကျောင်းထဲမှာ ဆရာတစ်ယောက်က ကလေးတွေကို ဘာသာရပ်တစ်ခု သင်ပေးတယ်ဆိုပါစို့။

Epidemic curve နဲ့ “flattening the curve” Epidemic curve နဲ့ “flattening the curve” 

Epidemic Curve (ကပ်ရောဂါ မျဉ်းကွေး) ဆိုတာ ကူးစက်ရောဂါတစ်ခု စတင်ဖြစ်ပွားချိန်ကစပြီး အချိန်နဲ့အမျှ ဖျားနာသူ ဘယ်လောက်ရှိတယ်ဆိုတာကို ပြသထားတဲ့ ဇယား (statistical chart) တစ်ခုပါ။ ဒီဇယားကို epi curve ဒါမှမဟုတ် epidemiological curve လို့လည်း ခေါ်ကြပါတယ်။ ဒီမျဉ်းကွေးဟာ ရောဂါပျံ့နှံ့မှုပုံစံကို မြင်သာအောင် ပြသပေးပြီး၊ ရောဂါကူးစက်ပုံကို ခွဲခြားသိရှိနိုင်ဖို့ ကူညီပေးနိုင်ပါတယ်။

Chi square testChi square test

Chi-square test (χ² test) သို့မဟုတ် ကျန်းမာရေးဆိုင်ရာ သုတေသနတွေရဲ့ ပင်မတိုင်းတာမှုကျန်းမာရေး (healthcare) နယ်ပယ်မှာ Chi-square test (χ² test) က အရမ်း အသုံးများပါတယ်။ အထူးသဖြင့် ဆေးပညာ သုတေသန၊ ဆေးခန်း ဒေတာ၊ ရောဂါ ကာကွယ်ရေး၊ ဆေးဝါး စမ်းသပ်မှု စတဲ့ နေရာတွေ မှာ အများဆုံး