naywinaung blog,research,Research Methodology QQ Plot ဆိုတာ ဘာလဲ?

QQ Plot ဆိုတာ ဘာလဲ?

QQ plot ဆိုတာ ဒေတာ (အထူးသဖြင့် regression လုပ်ပြီးထွက်လာတဲ့ residual တွေ) က ပုံမှန်ဖြန့်ကျက်မှု (Normal Distribution) ရှိလား၊ မရှိဘူးလားဆိုတာကို မျက်စိနဲ့မြင်အောင် စစ်ဆေးတဲ့ နည်းလမ်းတစ်ခုဖြစ်ပါတယ်။

ဘာလို့ ဒီကောင်ကို သုံးတာလဲ?

linear regression လုပ်တယ်ဆိုတာ အိမ်တစ်လုံးရဲ့ အကျယ်အဝန်းကိုကြည့်ပြီး ဈေးနှုန်းခန့်မှန်းတာမျိုးပေါ့။ အဲဒီမှာ သင်္ချာနည်းကျ ယူဆချက်တစ်ခုက “ငါ့ရဲ့ ခန့်မှန်းချက် မှားသွားတဲ့ ပမာဏ (error) တွေက ပုံမှန်ပဲ ဖြစ်ရမယ်” ဆိုတာပါပဲ။

ဒီယူဆချက် မှန်မမှန် စစ်ဖို့ နည်းလမ်း ၃ မျိုးရှိပါတယ်။

1. Histogram ဆွဲကြည့်တာ
ဒါက အကြမ်းဖျဉ်း အနေနဲ့ ကြည့်လို့ရပါတယ်။ ဥပမာ ခေါင်းလောင်းပုံပဲ ဖြစ်နေလား၊ ချိုင့်တွေပါနေလားဆိုတာ မြင်ရုံပါပဲ။

2. Shapiro-Wilk လို စာရင်းအင်းစစ်ဆေးမှု လုပ်နိုင်ပါတယ်
ဒါက သိပ်တိကျပါတယ်။ တစ်ခါတလေ ဒေတာက ပုံမှန်နဲ့နီးစပ်ပေမယ့် နမူနာအရေအတွက် များသွားရင် ဒီစစ်ဆေးမှုက “ဒါ ပုံမှန်မဟုတ်ဘူး” လို့ ပြောတတ်ပါတယ်။

3. QQ Plot ဆွဲကြည့်တာ
ဒါက အကောင်းဆုံးပါပဲ။ မျက်စိနဲ့မြင်ရပါတယ်။ ဘယ်လောက် ပုံမှန်နဲ့ ကွာနေလဲ၊ ဘယ်လို ကွာနေလဲ (ညာဘက်စောင်းနေလား၊ အမြီးပိုင်းတွေ ထူနေလား) ဆိုတာ တစ်ချက်ကြည့်တာနဲ့ သိရပါတယ်။

QQ Plot ကို ဘယ်လိုဖတ်မလဲ?

ဒီ plot က ဒေတာအမှတ်တွေကို မျဉ်းဖြောင့်တစ်ကြောင်းနဲ့ တွဲဆွဲထားပါတယ်။

အခြေခံဖတ်နည်းက အရမ်းရိုးရှင်းပါတယ်

· အမှတ်တွေ မျဉ်းပေါ်မှာ ကျနေလား?
အဲ့ဒါဆို ဒေတာ‌က ပုံမှန်ဖြန့်ကျက်မှု ရှိပါတယ်။

· အမှတ်တွေက မျဉ်းအပေါ်ကို ကောက်တက်နေလား?
ဥပမာ – ဂရပ်ရဲ့ ညာဘက်အခြမ်းမှာ အမှတ်တွေက မျဉ်းအပေါ်ကို ရုတ်တရက်တက်သွားတာမျိုးပေါ့
  ဒါဆို ဒေတာက ညာဘက်စောင်း (Right-Skewed) နေတာပါ။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းကြီးတဲ့ တန်ဖိုးတွေ (outliers) ရှိနေပါတယ်။ ဥပမာ လူအများစုရဲ့ ၀င်ငွေက ၁ သိန်းလောက်ပဲ ရှိပေမယ့် လူတစ်ယောက်က သိန်း ၁၀၀ ရနေတာမျိုး‌‌။

· အမှတ်တွေက မျဉ်းအောက်ကို ကောက်ဆင်းနေလား?
ဂရပ်ရဲ့ ဘယ်ဘက်အခြမ်းမှာ အောက်ကို စိုက်ဆင်းသွားတာမျိုး
  ဒါဆို ဒေတာက ဘယ်ဘက်စောင်း (Left-Skewed) နေပါတယ်။ ဆိုလိုချင်တာက ပုံမှန်ထက် အရမ်းသေးတဲ့ တန်ဖိုးတွေ ရှိနေပါတယ်။

· အမှတ်တွေက S လိုကွေးနေလား?
အလယ်ပိုင်းက မျဉ်းအတိုင်းပဲ နောက်ဆုံးထိပ်နှစ်ဖက်မှ ခွာထွက်သွားတာမျိုး
  ဒါဆို ဒေတာမှာ အမြီးပိုင်းထူ (Heavy Tails) တယ်လို့ ခေါ်ပါတယ်။ ဆိုလိုတာက ပုံမှန်ဖြန့်ကျက်မှုထက် အစွန်းအဖျားတန်ဖိုးတွေ (သေးလွန်း/ကြီးလွန်းတဲ့ဟာတွေ) ပိုများနေပါတယ်။

QQ Plot ဆိုတာ regression လုပ်ပြီးတိုင်း မဖြစ်မနေ ကြည့်သင့်တဲ့ အရာဖြစ်ပါတယ်။ Histogram ထက် QQ Plot က အသေးစိတ် ပြောပြနိုင်ပါတယ်။ “ငါ့ဒေတာက ဘယ်လို ပုံစံမျိုးနဲ့ ပုံမှန်မဟုတ်တာလဲ” ဆိုတာ ဒီပုံကနေ တန်းသိနိုင်ပါတယ်။ဒါကြောင့် regression လုပ်ပြီး residual အကြွင်းတွေကို စစ်တဲ့အခါ QQ Plot ကို သေချာကြည့်ဖို့ မမေ့ဖို့လိုပါတယ်။ မျဉ်းဖြောင့်အတိုင်း ကျနေရင် ပြီးပြည့်စုံပါတယ်။ မကျဘူးဆိုရင်လည်း ဘာပြဿနာရှိလဲဆိုတာ ဒီပုံကနေ ပြောပြပါလိမ့်မယ်။

ပုံ ၁ ကို သုံးသပ်ပြပါမယ်။
“Left Skewed”၊ “Normal” နဲ့ “Right Skewed” ဆိုတဲ့ ဖြန့်ကျက်မှု သုံးမျိုးကို ယှဉ်ပြထားပါတယ်။

ဒီပုံကနေ ရနိုင်တဲ့ အချက်တွေက –

· Normal ကော်လံ

ပုံမှန်ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားတာဖြစ်ပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းဖြောင့် (45-degree line) အတိုင်း ကျနေမှာဖြစ်လို့ ဒေတာက ပုံမှန်ဖြန့်ကျက်မှုနဲ့ ကိုက်ညီတယ်လို့ ဆိုနိုင်ပါတယ်။ Regression analysis အတွက် လိုချင်တဲ့ပုံစံပါ။

· Left Skewed

ဘယ်ဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အောက်ဘက်ကို ကွေးကျသွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဆိုလိုချင်တာက ဒေတာရဲ့ ဘယ်ဘက်အမြီးပိုင်း (သေးငယ်တဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။

· Right Skewed

ညာဘက်စောင်း ဖြန့်ကျက်မှုအတွက် QQ Plot ကို ပြထားပါတယ်။ ဒီမှာ အမှတ်တွေဟာ မျဉ်းရဲ့ အပေါ်ဘက်ကို ကွေးတက်သွားတဲ့ပုံစံမျိုး ဖြစ်နေမှာပါ။ ဒေတာရဲ့ ညာဘက်အမြီးပိုင်း (ကြီးမားတဲ့တန်ဖိုးတွေ) မှာ သာမန်ထက် ပိုပြီး အစွန်းထွက်တန်ဖိုးတွေ ရှိနေတယ်လို့ ဆိုလိုပါတယ်။

ဒီပုံက QQ Plot ပေါ်မှာ စောင်းနေတဲ့ဒေတာ (Skewed Data) ရဲ့ ပုံသဏ္ဍာန်ကို နားလည်အောင် ရည်ရွယ်တဲ့ ပုံဖြစ်ပါတယ်။

ပုံ ၂ ကို သုံးသပ်ပြချင်ပါတယ်

ဒုတိယပုံမှာတော့ “Multimodal”၊ “Normal with Outlier” နဲ့ “Uniform” ဆိုတဲ့ ဖြန့်ကျက်မှုပုံစံတွေကို ယှဉ်ပြထားပါတယ်။

· Multimodal

ဒါက ဒေတာမှာ အုပ်စုများစွာ (ဥပမာ – အထွတ်စွန်း ၂ ခု သို့ ၃ ခု) ရှိနေတဲ့ ဖြန့်ကျက်မှုမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်အတိုင်းမဟုတ်ဘဲ အဆင့်ဆင့် ကွေးနေတဲ့ပုံစံ ဒါမှမဟုတ် အုပ်စုလိုက် ကွဲထွက်နေတဲ့ပုံစံမျိုး ပြနိုင်ပါတယ်။

· Normal with Outlier

ဒါက ပုံမှန်ဖြန့်ကျက်မှုနီးစပ်ပေမယ့် အစွန်းအဖျားမှာ ကျန်တဲ့ဒေတာနဲ့ လုံးဝမလိုက်တဲ့ တန်ဖိုးတစ်ခုပါနေတာမျိုးပါ။ QQ Plot မှာ ကျန်တဲ့အမှတ်တွေက မျဉ်းအတိုင်းနီးစပ်နေပေမယ့် ထိပ်ဆုံးမှာ မျဉ်းကနေ သိသိသာသာ ခွာထွက်နေတဲ့ အစက်တစ်ခု အနေနဲ့ ပေါ်နေမှာပါ။ ဒါက outlier ကို ညွှန်ပြတာဖြစ်ပါတယ်။

· Uniform

တူညီဖြန့်ကျက်မှုဆိုတာ ဒေတာတန်ဖိုးတွေက အကွာအဝေးတစ်ခုအတွင်း ညီညီညာညာ ပျံ့နှံ့နေတာမျိုးပါ။ QQ Plot မှာ ဒီလိုဒေတာမျိုးက မျဉ်းဖြောင့်ထက် S ပုံစံ ကွေးနေတတ်ပါတယ်။ အလယ်ပိုင်းမှာ ပြောင်ပြီး ထိပ်နှစ်ဖက်မှာ ပြားနေတဲ့ပုံစံမျိုး ဖြစ်နိုင်ပါတယ်။

ဒုတိယပုံကတော့ ပုံမှန်ဖြန့်ကျက်မှုမဟုတ်တဲ့ အခြားဖြန့်ကျက်မှုပုံစံတွေနဲ့ QQ Plot ပေါ်က သူတို့ရဲ့သွင်ပြင်လက္ခဏာတွေကို ပြသတာဖြစ်ပါတယ်။

ဒီပုံနှစ်ပုံဟာ စာရင်းအင်းပညာရပ်မှာ QQ Plot ကို ဘယ်လိုဖတ်ရမလဲဆိုတာကို အမြင်အာရုံနဲ့ သုံးသပ်ဖို့ အကောင်းဆုံး နမူနာပုံတွေပါ။

· ပထမပုံက ဒေတာစောင်းခြင်း (Skewness) ကို စစ်ဆေးနည်းဖြစ်ပြီး
· ဒုတိယပုံကတော့ အခြားဖြန့်ကျက်မှုပုံစံများ (Multimodal, Outlier, Uniform) ကို စစ်ဆေးနည်းဖြစ်ပါတယ်။

Regression analysis လုပ်တဲ့အခါမှာ ဒီပုံတွေကို မှတ်ထားပြီး ကိုယ့် residual တွေရဲ့ QQ Plot ကို ကြည့်ရင် ဘယ်လိုပြဿနာမျိုး ရှိနေလဲဆိုတာ အလွယ်တကူ သိနိုင်မှာပါ။

နပေတိုး


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

Purposive SamplingPurposive Sampling

Purposive Sampling ဆိုတာက သုတေသနရဲ့ ရည်ရွယ်ချက်နဲ့ ကိုက်ညီတဲ့ လူတွေကို ရွေးချယ်ပြီး Data တွေ စုဆောင်းတဲ့ နည်းလမ်းပဲဖြစ်ပါတယ်။ ပြောရရင် ကိုယ်လေ့လာချင်တဲ့ အကြောင်းအရာကို နားလည်တဲ့သူတွေ၊ အတွေ့အကြုံရှိတဲ့သူတွေကိုပဲ ရွေးထုတ်ပြီး  သုတေသနပြုတာပေါ့။ Purposive Sampling ကို ဘယ်လိုလုပ်မလဲဆိုတော့… ၁။ ပထမဦးဆုံး သုတေသနရည်ရွယ်ချက်ကို အတိအကျ သတ်မှတ်ရပါမယ်။ ဘာကို လေ့လာချင်တာလဲ၊

Thesis Title တစ်ခုကို ဘယ်လိုရွေးချယ်သင့်လဲThesis Title တစ်ခုကို ဘယ်လိုရွေးချယ်သင့်လဲ

Thesis Title ဆိုတာ သုတေသနရဲ့ အနှစ်ချုပ်ကို ဖော်ပြတဲ့ အရေးကြီးဆုံး အစိတ်အပိုင်းတစ်ခုဖြစ်ပါတယ်။ Title ကောင်းတစ်ခုက လူတွေကို ဖတ်ချင်စိတ်ဖြစ်အောင် ဆွဲဆောင်နိုင်သလို Title ညံ့တစ်ခုက လူတွေကို စိတ်ပျက်သွားစေနိုင်ပါတယ်။ ဒါကြောင့် Thesis Title ကို သေချာရွေးချယ်ဖို့ လိုပါတယ်။ ဒါဆို Thesis Title ကို ဘယ်လိုရွေးချယ်ရမလဲ။ ၁။သုတေသနရဲ့ အဓိကအကြောင်းအရာကို

DMAICDMAIC

#DMAIC#Processမည်သည့် ကုန်ထုတ်လုပ်မှုနှင့် ဝန်ဆောင်မှုမျိုးမဆို စဉ်ဆက်မပြတ် တိုးတက်နေဖို့ လိုအပ်ပါတယ်။ ဒီလို ဖွံ့ဖြိုးတိုးတက်မှုမျိုးကို ရရှိစေဖို့ဆိုရင် Input, process, output မှန်ကန်နေဖို့လိုအပ်ပါတယ်။ တကယ်လို့ လုပ်ငန်းစဉ်ထဲမှာ ချို့ယွင်းချက်တွေရှိနေခဲ့ရင် ဖွံ့ဖြိုးတိုးတက်မှုတွေက တုံ့နှေးသွားလေ့ရှိပါတယ်။ ဒါကြောင့် DMAIC Model ကို အသုံးပြုကြလေ့ရှိပါတယ်။ ဒါကြောင့် ဗဟုသုတအနေနှင့် DMAIC မော်ဒယ် (DMAIC Model) အကြောင်းကို