QQ plot ဆိုတာ ဒေတာ (အထူးသဖြင့် regression လုပ်ပြီးထွက်လာတဲ့ residual တွေ) က ပုံမှန်ဖြန့်ကျက်မှု (Normal Distribution) ရှိလား၊ မရှိဘူးလားဆိုတာကို မျက်စိနဲ့မြင်အောင် စစ်ဆေးတဲ့ နည်းလမ်းတစ်ခုဖြစ်ပါတယ်။
ဘာလို့ ဒီကောင်ကို သုံးတာလဲ?
linear regression လုပ်တယ်ဆိုတာ အိမ်တစ်လုံးရဲ့ အကျယ်အဝန်းကိုကြည့်ပြီး ဈေးနှုန်းခန့်မှန်းတာမျိုးပေါ့။ အဲဒီမှာ သင်္ချာနည်းကျ ယူဆချက်တစ်ခုက “ငါ့ရဲ့ ခန့်မှန်းချက် မှားသွားတဲ့ ပမာဏ (error) တွေက ပုံမှန်ပဲ ဖြစ်ရမယ်” ဆိုတာပါပဲ။
ဒီယူဆချက် မှန်မမှန် စစ်ဖို့ နည်းလမ်း ၃ မျိုးရှိပါတယ်။
1. Histogram ဆွဲကြည့်တာ
ဒါက အကြမ်းဖျဉ်း အနေနဲ့ ကြည့်လို့ရပါတယ်။ ဥပမာ ခေါင်းလောင်းပုံပဲ ဖြစ်နေလား၊ ချိုင့်တွေပါနေလားဆိုတာ မြင်ရုံပါပဲ။
2. Shapiro-Wilk လို စာရင်းအင်းစစ်ဆေးမှု လုပ်နိုင်ပါတယ်
ဒါက သိပ်တိကျပါတယ်။ တစ်ခါတလေ ဒေတာက ပုံမှန်နဲ့နီးစပ်ပေမယ့် နမူနာအရေအတွက် များသွားရင် ဒီစစ်ဆေးမှုက “ဒါ ပုံမှန်မဟုတ်ဘူး” လို့ ပြောတတ်ပါတယ်။
3. QQ Plot ဆွဲကြည့်တာ
ဒါက အကောင်းဆုံးပါပဲ။ မျက်စိနဲ့မြင်ရပါတယ်။ ဘယ်လောက် ပုံမှန်နဲ့ ကွာနေလဲ၊ ဘယ်လို ကွာနေလဲ (ညာဘက်စောင်းနေလား၊ အမြီးပိုင်းတွေ ထူနေလား) ဆိုတာ တစ်ချက်ကြည့်တာနဲ့ သိရပါတယ်။
QQ Plot ကို ဘယ်လိုဖတ်မလဲ?
ဒီ plot က ဒေတာအမှတ်တွေကို မျဉ်းဖြောင့်တစ်ကြောင်းနဲ့ တွဲဆွဲထားပါတယ်။
အခြေခံဖတ်နည်းက အရမ်းရိုးရှင်းပါတယ်
· အမှတ်တွေ မျဉ်းပေါ်မှာ ကျနေလား?
အဲ့ဒါဆို ဒေတာက ပုံမှန်ဖြန့်ကျက်မှု ရှိပါတယ်။
· အမှတ်တွေက မျဉ်းအပေါ်ကို ကောက်တက်နေလား?
ဥပမာ – ဂရပ်ရဲ့ ညာဘက်အခြမ်းမှာ အမှတ်တွေက မျဉ်းအပေါ်ကို ရုတ်တရက်တက်သွားတာမျိုးပေါ့
ဒါဆို ဒေတာက ညာဘက်စောင်း (Right-Skewed) နေတာပါ။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းကြီးတဲ့ တန်ဖိုးတွေ (outliers) ရှိနေပါတယ်။ ဥပမာ လူအများစုရဲ့ ၀င်ငွေက ၁ သိန်းလောက်ပဲ ရှိပေမယ့် လူတစ်ယောက်က သိန်း ၁၀၀ ရနေတာမျိုး။
· အမှတ်တွေက မျဉ်းအောက်ကို ကောက်ဆင်းနေလား?
ဂရပ်ရဲ့ ဘယ်ဘက်အခြမ်းမှာ အောက်ကို စိုက်ဆင်းသွားတာမျိုး
ဒါဆို ဒေတာက ဘယ်ဘက်စောင်း (Left-Skewed) နေပါတယ်။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းသေးတဲ့ တန်ဖိုးတွေ ရှိနေပါတယ်။
· အမှတ်တွေက S လိုကွေးနေလား?
အလယ်ပိုင်းက မျဉ်းအတိုင်းပဲ နောက်ဆုံးထိပ်နှစ်ဖက်မှ ခွာထွက်သွားတာမျိုး
ဒါဆို ဒေတာမှာ အမြီးပိုင်းထူ (Heavy Tails) တယ်လို့ ခေါ်ပါတယ်။ ဆိုလိုတာက ပုံမှန်ဖြန့်ကျက်မှုထက် အစွန်းအဖျားတန်ဖိုးတွေ (သေးလွန်း/ကြီးလွန်းတဲ့ဟာတွေ) ပိုများနေပါတယ်။
QQ Plot ဆိုတာ regression လုပ်ပြီးတိုင်း မဖြစ်မနေ ကြည့်သင့်တဲ့ အရာဖြစ်ပါတယ်။ Histogram ထက် QQ Plot က အသေးစိတ် ပြောပြနိုင်ပါတယ်။ “ငါ့ဒေတာက ဘယ်လို ပုံစံမျိုးနဲ့ ပုံမှန်မဟုတ်တာလဲ” ဆိုတာ ဒီပုံကနေ တန်းသိနိုင်ပါတယ်။ဒါကြောင့် regression လုပ်ပြီး residual အကြွင်းတွေကို စစ်တဲ့အခါ QQ Plot ကို သေချာကြည့်ဖို့ မမေ့ဖို့လိုပါတယ်။ မျဉ်းဖြောင့်အတိုင်း ကျနေရင် ပြီးပြည့်စုံပါတယ်။ မကျဘူးဆိုရင်လည်း ဘာပြဿနာရှိလဲဆိုတာ ဒီပုံကနေ ပြောပြပါလိမ့်မယ်။
ပုံ ၁ ကို သုံးသပ်ပြပါမယ်။
“Left Skewed”၊ “Normal” နဲ့ “Right Skewed” ဆိုတဲ့ ဖြန့်ကျက်မှု သုံးမျိုးကို ယှဉ်ပြထားပါတယ်။
ဒီပုံကနေ ရနိုင်တဲ့ အချက်တွေက –
· Normal ကော်လံ
ပုံမှန်ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားတာဖြစ်ပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းဖြောင့် (45-degree line) အတိုင်း ကျနေမှာဖြစ်လို့ ဒေတာက ပုံမှန်ဖြန့်ကျက်မှုနဲ့ ကိုက်ညီတယ်လို့ ဆိုနိုင်ပါတယ်။ Regression analysis အတွက် လိုချင်တဲ့ပုံစံပါ။
· Left Skewed
ဘယ်ဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အောက်ဘက်ကို ကွေးကျသွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဆိုလိုချင်တာက ဒေတာရဲ့ ဘယ်ဘက်အမြီးပိုင်း (သေးငယ်တဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။
· Right Skewed
ညာဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အပေါ်ဘက်ကို ကွေးတက်သွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဒေတာရဲ့ ညာဘက်အမြီးပိုင်း (ကြီးမားတဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။
ဒီပုံက QQ Plot ပေါ်မှာ စောင်းနေတဲ့ဒေတာ (Skewed Data) ရဲ့ ပုံသဏ္ဍာန်ကို နားလည်အောင် ရည်ရွယ်တဲ့ ပုံဖြစ်ပါတယ်။
ပုံ ၂ ကို သုံးသပ်ပြချင်ပါတယ်
ဒုတိယပုံမှာတော့ “Multimodal”၊ “Normal with Outlier” နဲ့ “Uniform” ဆိုတဲ့ ဖြန့်ကျက်မှုပုံစံတွေကို ယှဉ်ပြထားပါတယ်။
· Multimodal
ဒါက ဒေတာမှာ အုပ်စုများစွာ (ဥပမာ – အထွတ်စွန်း ၂ ခု သို့ ၃ ခု) ရှိနေတဲ့ ဖြန့်ကျက်မှုမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်အတိုင်းမဟုတ်ဘဲ အဆင့်ဆင့် ကွေးနေတဲ့ပုံစံ ဒါမှမဟုတ် အုပ်စုလိုက် ကွဲထွက်နေတဲ့ပုံစံမျိုး ပြနိုင်ပါတယ်။
· Normal with Outlier
ဒါက ပုံမှန်ဖြန့်ကျက်မှုနီးစပ်ပေမယ့် အစွန်းအဖျားမှာ ကျန်တဲ့ဒေတာနဲ့ လုံးဝမလိုက်တဲ့ တန်ဖိုးတစ်ခုပါနေတာမျိုးပါ။ QQ Plot မှာ ကျန်တဲ့အမှတ်တွေက မျဉ်းအတိုင်းနီးစပ်နေပေမယ့် ထိပ်ဆုံးမှာ မျဉ်းကနေ သိသိသာသာ ခွာထွက်နေတဲ့ အစက်တစ်ခု အနေနဲ့ ပေါ်နေမှာပါ။ ဒါက outlier ကို ညွှန်ပြတာဖြစ်ပါတယ်။
· Uniform
တူညီဖြန့်ကျက်မှုဆိုတာ ဒေတာတန်ဖိုးတွေက အကွာအဝေးတစ်ခုအတွင်း ညီညီညာညာ ပျံ့နှံ့နေတာမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်ထက် S ပုံစံ ကွေးနေတတ်ပါတယ်။ အလယ်ပိုင်းမှာ ပြောင်ပြီး ထိပ်နှစ်ဖက်မှာ ပြားနေတဲ့ပုံစံမျိုး ဖြစ်နိုင်ပါတယ်။
ဒုတိယပုံကတော့ ပုံမှန်ဖြန့်ကျက်မှုမဟုတ်တဲ့ အခြားဖြန့်ကျက်မှုပုံစံတွေနဲ့ QQ Plot ပေါ်က သူတို့ရဲ့သွင်ပြင်လက္ခဏာတွေကို ပြသတာဖြစ်ပါတယ်။
ဒီပုံနှစ်ပုံဟာ စာရင်းအင်းပညာရပ်မှာ QQ Plot ကို ဘယ်လိုဖတ်ရမလဲဆိုတာကို အမြင်အာရုံနဲ့ သုံးသပ်ဖို့ အကောင်းဆုံး နမူနာပုံတွေပါ။
· ပထမပုံက ဒေတာစောင်းခြင်း (Skewness) ကို စစ်ဆေးနည်းဖြစ်ပြီး
· ဒုတိယပုံကတော့ အခြားဖြန့်ကျက်မှုပုံစံများ (Multimodal, Outlier, Uniform) ကို စစ်ဆေးနည်းဖြစ်ပါတယ်။
Regression analysis လုပ်တဲ့အခါမှာ ဒီပုံတွေကို မှတ်ထားပြီး ကိုယ့် residual တွေရဲ့ QQ Plot ကို ကြည့်ရင် ဘယ်လိုပြဿနာမျိုး ရှိနေလဲဆိုတာ အလွယ်တကူ သိနိုင်မှာပါ။
နပေတိုး


Discover more from naywinaung
Subscribe to get the latest posts sent to your email.