naywinaung blog,research,Research Methodology QQ Plot ဆိုတာ ဘာလဲ?

QQ Plot ဆိုတာ ဘာလဲ?

QQ plot ဆိုတာ ဒေတာ (အထူးသဖြင့် regression လုပ်ပြီးထွက်လာတဲ့ residual တွေ) က ပုံမှန်ဖြန့်ကျက်မှု (Normal Distribution) ရှိလား၊ မရှိဘူးလားဆိုတာကို မျက်စိနဲ့မြင်အောင် စစ်ဆေးတဲ့ နည်းလမ်းတစ်ခုဖြစ်ပါတယ်။

ဘာလို့ ဒီကောင်ကို သုံးတာလဲ?

linear regression လုပ်တယ်ဆိုတာ အိမ်တစ်လုံးရဲ့ အကျယ်အဝန်းကိုကြည့်ပြီး ဈေးနှုန်းခန့်မှန်းတာမျိုးပေါ့။ အဲဒီမှာ သင်္ချာနည်းကျ ယူဆချက်တစ်ခုက “ငါ့ရဲ့ ခန့်မှန်းချက် မှားသွားတဲ့ ပမာဏ (error) တွေက ပုံမှန်ပဲ ဖြစ်ရမယ်” ဆိုတာပါပဲ။

ဒီယူဆချက် မှန်မမှန် စစ်ဖို့ နည်းလမ်း ၃ မျိုးရှိပါတယ်။

1. Histogram ဆွဲကြည့်တာ
ဒါက အကြမ်းဖျဉ်း အနေနဲ့ ကြည့်လို့ရပါတယ်။ ဥပမာ ခေါင်းလောင်းပုံပဲ ဖြစ်နေလား၊ ချိုင့်တွေပါနေလားဆိုတာ မြင်ရုံပါပဲ။

2. Shapiro-Wilk လို စာရင်းအင်းစစ်ဆေးမှု လုပ်နိုင်ပါတယ်
ဒါက သိပ်တိကျပါတယ်။ တစ်ခါတလေ ဒေတာက ပုံမှန်နဲ့နီးစပ်ပေမယ့် နမူနာအရေအတွက် များသွားရင် ဒီစစ်ဆေးမှုက “ဒါ ပုံမှန်မဟုတ်ဘူး” လို့ ပြောတတ်ပါတယ်။

3. QQ Plot ဆွဲကြည့်တာ
ဒါက အကောင်းဆုံးပါပဲ။ မျက်စိနဲ့မြင်ရပါတယ်။ ဘယ်လောက် ပုံမှန်နဲ့ ကွာနေလဲ၊ ဘယ်လို ကွာနေလဲ (ညာဘက်စောင်းနေလား၊ အမြီးပိုင်းတွေ ထူနေလား) ဆိုတာ တစ်ချက်ကြည့်တာနဲ့ သိရပါတယ်။

QQ Plot ကို ဘယ်လိုဖတ်မလဲ?

ဒီ plot က ဒေတာအမှတ်တွေကို မျဉ်းဖြောင့်တစ်ကြောင်းနဲ့ တွဲဆွဲထားပါတယ်။

အခြေခံဖတ်နည်းက အရမ်းရိုးရှင်းပါတယ်

· အမှတ်တွေ မျဉ်းပေါ်မှာ ကျနေလား?
အဲ့ဒါဆို ဒေတာ‌က ပုံမှန်ဖြန့်ကျက်မှု ရှိပါတယ်။

· အမှတ်တွေက မျဉ်းအပေါ်ကို ကောက်တက်နေလား?
ဥပမာ – ဂရပ်ရဲ့ ညာဘက်အခြမ်းမှာ အမှတ်တွေက မျဉ်းအပေါ်ကို ရုတ်တရက်တက်သွားတာမျိုးပေါ့
  ဒါဆို ဒေတာက ညာဘက်စောင်း (Right-Skewed) နေတာပါ။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းကြီးတဲ့ တန်ဖိုးတွေ (outliers) ရှိနေပါတယ်။ ဥပမာ လူအများစုရဲ့ ၀င်ငွေက ၁ သိန်းလောက်ပဲ ရှိပေမယ့် လူတစ်ယောက်က သိန်း ၁၀၀ ရနေတာမျိုး‌‌။

· အမှတ်တွေက မျဉ်းအောက်ကို ကောက်ဆင်းနေလား?
ဂရပ်ရဲ့ ဘယ်ဘက်အခြမ်းမှာ အောက်ကို စိုက်ဆင်းသွားတာမျိုး
  ဒါဆို ဒေတာက ဘယ်ဘက်စောင်း (Left-Skewed) နေပါတယ်။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းသေးတဲ့ တန်ဖိုးတွေ ရှိနေပါတယ်။

· အမှတ်တွေက S လိုကွေးနေလား?
အလယ်ပိုင်းက မျဉ်းအတိုင်းပဲ နောက်ဆုံးထိပ်နှစ်ဖက်မှ ခွာထွက်သွားတာမျိုး
  ဒါဆို ဒေတာမှာ အမြီးပိုင်းထူ (Heavy Tails) တယ်လို့ ခေါ်ပါတယ်။ ဆိုလိုတာက ပုံမှန်ဖြန့်ကျက်မှုထက် အစွန်းအဖျားတန်ဖိုးတွေ (သေးလွန်း/ကြီးလွန်းတဲ့ဟာတွေ) ပိုများနေပါတယ်။

QQ Plot ဆိုတာ regression လုပ်ပြီးတိုင်း မဖြစ်မနေ ကြည့်သင့်တဲ့ အရာဖြစ်ပါတယ်။ Histogram ထက် QQ Plot က အသေးစိတ် ပြောပြနိုင်ပါတယ်။ “ငါ့ဒေတာက ဘယ်လို ပုံစံမျိုးနဲ့ ပုံမှန်မဟုတ်တာလဲ” ဆိုတာ ဒီပုံကနေ တန်းသိနိုင်ပါတယ်။ဒါကြောင့် regression လုပ်ပြီး residual အကြွင်းတွေကို စစ်တဲ့အခါ QQ Plot ကို သေချာကြည့်ဖို့ မမေ့ဖို့လိုပါတယ်။ မျဉ်းဖြောင့်အတိုင်း ကျနေရင် ပြီးပြည့်စုံပါတယ်။ မကျဘူးဆိုရင်လည်း ဘာပြဿနာရှိလဲဆိုတာ ဒီပုံကနေ ပြောပြပါလိမ့်မယ်။

ပုံ ၁ ကို သုံးသပ်ပြပါမယ်။
“Left Skewed”၊ “Normal” နဲ့ “Right Skewed” ဆိုတဲ့ ဖြန့်ကျက်မှု သုံးမျိုးကို ယှဉ်ပြထားပါတယ်။

ဒီပုံကနေ ရနိုင်တဲ့ အချက်တွေက –

· Normal ကော်လံ

ပုံမှန်ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားတာဖြစ်ပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းဖြောင့် (45-degree line) အတိုင်း ကျနေမှာဖြစ်လို့ ဒေတာက ပုံမှန်ဖြန့်ကျက်မှုနဲ့ ကိုက်ညီတယ်လို့ ဆိုနိုင်ပါတယ်။ Regression analysis အတွက် လိုချင်တဲ့ပုံစံပါ။

· Left Skewed

ဘယ်ဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အောက်ဘက်ကို ကွေးကျသွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဆိုလိုချင်တာက ဒေတာရဲ့ ဘယ်ဘက်အမြီးပိုင်း (သေးငယ်တဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။

· Right Skewed

ညာဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အပေါ်ဘက်ကို ကွေးတက်သွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဒေတာရဲ့ ညာဘက်အမြီးပိုင်း (ကြီးမားတဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။

ဒီပုံက QQ Plot ပေါ်မှာ စောင်းနေတဲ့ဒေတာ (Skewed Data) ရဲ့ ပုံသဏ္ဍာန်ကို နားလည်အောင် ရည်ရွယ်တဲ့ ပုံဖြစ်ပါတယ်။

ပုံ ၂ ကို သုံးသပ်ပြချင်ပါတယ်

ဒုတိယပုံမှာတော့ “Multimodal”၊ “Normal with Outlier” နဲ့ “Uniform” ဆိုတဲ့ ဖြန့်ကျက်မှုပုံစံတွေကို ယှဉ်ပြထားပါတယ်။

· Multimodal

ဒါက ဒေတာမှာ အုပ်စုများစွာ (ဥပမာ – အထွတ်စွန်း ၂ ခု သို့ ၃ ခု) ရှိနေတဲ့ ဖြန့်ကျက်မှုမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်အတိုင်းမဟုတ်ဘဲ အဆင့်ဆင့် ကွေးနေတဲ့ပုံစံ ဒါမှမဟုတ် အုပ်စုလိုက် ကွဲထွက်နေတဲ့ပုံစံမျိုး ပြနိုင်ပါတယ်။

· Normal with Outlier

ဒါက ပုံမှန်ဖြန့်ကျက်မှုနီးစပ်ပေမယ့် အစွန်းအဖျားမှာ ကျန်တဲ့ဒေတာနဲ့ လုံးဝမလိုက်တဲ့ တန်ဖိုးတစ်ခုပါနေတာမျိုးပါ။ QQ Plot မှာ ကျန်တဲ့အမှတ်တွေက မျဉ်းအတိုင်းနီးစပ်နေပေမယ့် ထိပ်ဆုံးမှာ မျဉ်းကနေ သိသိသာသာ ခွာထွက်နေတဲ့ အစက်တစ်ခု အနေနဲ့ ပေါ်နေမှာပါ။ ဒါက outlier ကို ညွှန်ပြတာဖြစ်ပါတယ်။

· Uniform

တူညီဖြန့်ကျက်မှုဆိုတာ ဒေတာတန်ဖိုးတွေက အကွာအဝေးတစ်ခုအတွင်း ညီညီညာညာ ပျံ့နှံ့နေတာမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်ထက် S ပုံစံ ကွေးနေတတ်ပါတယ်။ အလယ်ပိုင်းမှာ ပြောင်ပြီး ထိပ်နှစ်ဖက်မှာ ပြားနေတဲ့ပုံစံမျိုး ဖြစ်နိုင်ပါတယ်။

ဒုတိယပုံကတော့ ပုံမှန်ဖြန့်ကျက်မှုမဟုတ်တဲ့ အခြားဖြန့်ကျက်မှုပုံစံတွေနဲ့ QQ Plot ပေါ်က သူတို့ရဲ့သွင်ပြင်လက္ခဏာတွေကို ပြသတာဖြစ်ပါတယ်။

ဒီပုံနှစ်ပုံဟာ စာရင်းအင်းပညာရပ်မှာ QQ Plot ကို ဘယ်လိုဖတ်ရမလဲဆိုတာကို အမြင်အာရုံနဲ့ သုံးသပ်ဖို့ အကောင်းဆုံး နမူနာပုံတွေပါ။

· ပထမပုံက ဒေတာစောင်းခြင်း (Skewness) ကို စစ်ဆေးနည်းဖြစ်ပြီး
· ဒုတိယပုံကတော့ အခြားဖြန့်ကျက်မှုပုံစံများ (Multimodal, Outlier, Uniform) ကို စစ်ဆေးနည်းဖြစ်ပါတယ်။

Regression analysis လုပ်တဲ့အခါမှာ ဒီပုံတွေကို မှတ်ထားပြီး ကိုယ့် residual တွေရဲ့ QQ Plot ကို ကြည့်ရင် ဘယ်လိုပြဿနာမျိုး ရှိနေလဲဆိုတာ အလွယ်တကူ သိနိုင်မှာပါ။

နပေတိုး


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

eHealth   (Five Cs Model)eHealth   (Five Cs Model)

eHealthFive Cs Modelဖွံဖြိုးဆဲနိုင်ငံတော်တော်များများမှာ ehealth ကိုစတင်အကောင်အထည်ဖော်ကြတဲ့အခါFive Cs Model ဟာ အလွန်ရေပန်းစားပါတယ်။5Cs ဆိုတာကတော့၁။ Contextဖွံ့ဖြိုးဆဲနိုင်ငံများအနေနှင့် သတင်းအချက်အလက်နှင့်ဆက်သွယ်ရေးဆိုင်ရာနည်းပညာ အတွက် အခြေခံအဆောက်အဉီများ ပြည့်စုံလုံလောက်မှုမရှိကြပါဘူး။ ဒီလိုအခြေအနေမျိုးမှာ မိမိတို့တည်ဆောက်ချင်တဲ့ ehealth အတွက် အသင့်တော်ဆုံးသော နည်းပညာရပ်ဝန်းကို ရွေးချယ်ရပါလိမ့်မယ်။ ကျေးလက်ဒေသများကို များများနှင့်မြန်မြန်ထိရောက်မဲ့ အသင့်တော်ဆုံးသော ဆက်သွယ်ရေးဆိုင်ရာနည်းပညာကို ရွေးချယ်ရပါမယ်။ ထို့အတူ ကုန်ကျစာရိတ်အလွန်ကြီးမားတဲ့ နည်းပညာဆိုင်ရာ

Convergence Model of EpidemiologyConvergence Model of Epidemiology

Convergence Model of Epidemiology ဆိုတာ ဘာလဲ? Convergence Model ဆိုတာ ရောဂါတစ်ခုဖြစ်ဖို့ အကြောင်းအမျိုးမျိုးတွေ (ဥပမာ၊ မျိုးရိုးဗီဇ၊ ပတ်ဝန်းကျင်၊ နေ့စဉ်ဘဝပုံစံ) တွေ တစ်ပြိုင်နက် ပေါင်းစပ်ပြီး “ဆုံတွေ့” လာတဲ့ အခါ ရောဂါဖြစ်ပေါ်လာတယ်လို့ ရှင်းပြတဲ့ မော်ဒယ်ပါ။  ဒါကို ဥပမာအနေနဲ့ ပြောရရင်၊ ရောဂါတစ်ခုဖြစ်ဖို့ တစ်ခုတည်းတစ်ချက်တည်းက မလုံလောက်ပါဘူး။အကြောင်းအချက်တွေ

Outbreak InvestigationOutbreak Investigation

Outbreak Investigation ဆိုတာက ရောဂါတစ်ခု ရုတ်တရက် ပျံ့နှံ့လာတဲ့အခါ ဘာကြောင့်ဖြစ်တာလဲ၊ ဘယ်လိုဖြစ်တာလဲ၊ ဘယ်လိုထိန်းချုပ်ရမလဲဆိုတာကို စုံစမ်းဖော်ထုတ်တဲ့ လုပ်ငန်းစဉ်တစ်ခုပါပဲ။  Outbreak Investigation ရဲ့ အဓိကအဆင့်များ ဥပမာ၊ ကျေးရွာတစ်ခုမှာ ဝမ်းလျှောရောဂါဖြစ်နေတယ်ဆိုပါစို့။ 1. Outbreak ဖြစ်နေကြောင်း အတည်ပြုပါ (Confirm the Outbreak) ပထမဆုံး၊ ဒါက တကယ် outbreak ဟုတ်မဟုတ်