Chapter 13 Nonparametric and Distribution

အခန်း ၁၃ ဖြစ်တဲ့ “Nonparametric and Distribution-Free စာရင်းအင်းပညာ” အကြောင်းကို ဆွေးနွေးပေးပါမယ် ။
Nonparametric and Distribution-Free စာရင်းအင်းပညာ
နိဒါန်း
စာရင်းအင်းပညာမှာ ကောက်ချက်ဆွဲခြင်း (inferential statistics) ကို လုပ်တဲ့အခါ အခန်း ၇ ကစပြီး သင်ယူခဲ့ရတဲ့ t-test, F-test လို နည်းလမ်းတွေဟာ “Parametric” နည်းလမ်းတွေ လို့ ခေါ်ပါတယ် ။ ဒီနည်းလမ်းတွေက သုံးမယ့် အချက်အလက်တွေဟာ တိကျတဲ့ ဖြန့်ဝေပုံ (ဥပမာ – ပုံမှန်ဖြန့်ဝေပုံ – normal distribution) ကနေ လာတာဖြစ်ရမယ် လို့ ယူဆချက် (assumptions) တွေ ရှိပါတယ် ။ ဒါ့အပြင် အုပ်စုတွေရဲ့ variances တွေ တူညီရမယ်ဆိုတဲ့ ယူဆချက်မျိုးလည်း ရှိတတ်ပါတယ်။
တကယ်လက်တွေ့မှာ ကျွန်တော်တို့ရတဲ့ အချက်အလက်တွေဟာ ဒီလိုယူဆချက်တွေနဲ့ ကိုက်ညီချင်မှ ကိုက်ညီပါလိမ့်မယ် ။ အထူးသဖြင့် ကျန်းမာရေးသိပ္ပံနယ်ပယ်လို နေရာမျိုးမှာ လူနာအရေအတွက် နည်းတာ၊ အချက်အလက်တွေရဲ့ ဖြန့်ဝေပုံက ပုံမှန်မဖြစ်တာ တွေ ဖြစ်တတ်ပါတယ် ။ ဒီလိုအခြေအနေတွေမှာ parametric နည်းလမ်းတွေကို အတင်းအကျ သုံးမယ်ဆိုရင် ရတဲ့ရလဒ်တွေဟာ မှားယွင်းတဲ့ ကောက်ချက်ကို ဦးတည်စေနိုင်ပါတယ် ။
ဒီလိုပြဿနာကို ဖြေရှင်းဖို့အတွက် Nonparametric သို့မဟုတ် (Distribution-Free) နည်းလမ်းတွေ ပေါ်လာတာ ဖြစ်ပါတယ် ။ ဒီနည်းလမ်းတွေက အချက်အလက်တွေရဲ့ ဖြန့်ဝေပုံအပေါ် မူတည်တဲ့ ယူဆချက်တွေ နည်းပါးပါတယ် ။

Nonparametricနည်းလမ်းများရဲ့ အားသာချက်နဲ့ အားနည်းချက်
•အားသာချက်: အဓိကအားသာချက်ကတော့ အချက်အလက်တွေရဲ့ ဖြန့်ဝေပုံ (ဥပမာ- ပုံမှန်ဖြစ်ရမယ်) လို ယူဆချက်တွေ သိပ်မလိုအပ်တာ ဒါမှမဟုတ် လုံးဝ မလိုအပ်တာပါပဲ ။ ဒါကြောင့် အချက်အလက်နည်းတဲ့အခါ ဒါမှမဟုတ် outliers တွေရှိတဲ့အခါ ပိုပြီး အသုံးဝင်ပါတယ် ။
•အားနည်းချက်: အားနည်းချက်ကတော့ parametricနည်းလမ်းတွေရဲ့ ယူဆချက်တွေ ပြည့်မီတဲ့အခါ Nonparametricနည်းလမ်းတွေက parametricနည်းလမ်းတွေထက် ပါဝါ (power) နည်းပါတယ် ။ ပါဝါဆိုတာ null hypothesis ကို မှန်မှန်ကန်ကန် ပယ်ချနိုင်တဲ့ အခွင့်အလမ်းကို ဆိုလိုပါတယ်။ ဒါကြောင့် ယူဆချက်တွေ ပြည့်မီတယ်ဆိုရင် parametricနည်းလမ်းကို သုံးတာက ပိုပြီးကောင်းမွန်တဲ့ ရွေးချယ်မှု ဖြစ်ပါတယ် ။

ဒီအခန်း ၁၃ မှာ Nonparametricနည်းလမ်း အမျိုးမျိုးကို သင်ယူရမှာ ဖြစ်ပါတယ် ။
အချို့နည်းလမ်းတွေက t-test လို parametricနည်းလမ်းတွေရဲ့ အစားထိုး (alternatives) အဖြစ် သုံးနိုင်သလို ၊ အချို့ကတော့ parametricနည်းလမ်းတွေနဲ့ မတူတဲ့ မေးခွန်းတွေကို ဖြေဖို့အတွက် အသုံးပြုပါတယ် ။
အခြေခံ Nonparametricစမ်းသပ်ချက်များ
၁။ ဆိုင်းစမ်းသပ်ချက် (The Sign Test):
◦ဒီစမ်းသပ်ချက်က အလွန်ရိုးရှင်းပါတယ် ။
◦အတွဲလိုက် အချက်အလက်တွေ (paired data) ဒါမှမဟုတ် တစ်ခုတည်းသော နမူနာ (single sample) ကို အသုံးပြုပြီး အချက်အလက်တွေရဲ့ မီဒီယံ (median) အကြောင်း H0ကို စမ်းသပ်နိုင်ပါတယ် ။
◦လုပ်ပုံလုပ်နည်းက အချက်အလက်တွေရဲ့ ခြားနားချက် (differences) တွေရဲ့ လက္ခဏာ (sign – အပေါင်း သို့မဟုတ် အနုတ်) ကိုပဲ ကြည့်တာ ဖြစ်ပါတယ် ။ ခြားနားချက် သုည ဖြစ်နေတာတွေကို ပုံမှန်အားဖြင့် ဖယ်လိုက်ပါတယ် ။
◦စမ်းသပ်ချက်ရဲ့ ကိန်းဂဏာန်း (test statistic) က အနည်းဆုံး ထပ်ဖြစ်နေတဲ့ လက္ခဏာအရေအတွက် ဖြစ်ပါတယ် ။
◦H0 မှန်တယ်ဆိုရင် အပေါင်းလက္ခဏာနဲ့ အနုတ်လက္ခဏာတွေ ထပ်ဖြစ်ဖို့ အခွင့်အလမ်း တူညီတယ် (p=0.5) လို့ ယူဆပြီး binomial distribution ကို အသုံးပြုပြီး p-value ကို တွက်ပါတယ် ။
◦တွဲလိုက် t-test (paired t-test) ရဲ့ Nonparametric အစားထိုးတစ်ခုအဖြစ် သုံးနိုင်ပါတယ် ။

၂။ ဝီလ်ကို့စ်ဆွန် လက်မှတ်ထိုး-အဆင့် စမ်းသပ်ချက် (The Wilcoxon Signed-Rank Test):
◦ဒါက ဆိုင်းစမ်းသပ်ချက်ထက် နည်းနည်း ပိုပါဝါရှိပါတယ် ။
◦အတွဲလိုက် အချက်အလက်တွေ ဒါမှမဟုတ် တစ်ခုတည်းသော နမူနာကို အသုံးပြုပြီး မီဒီယံ (သို့မဟုတ် ခြားနားချက်တွေရဲ့ ပျမ်းမျှ) အကြောင်း စမ်းသပ်နိုင်ပါတယ် ။
◦ဒီစမ်းသပ်ချက်က ခြားနားချက်တွေရဲ့ လက္ခဏာ (sign) သာမက ခြားနားချက်တွေရဲ့ ပမာဏ (magnitude) ကိုပါ ထည့်သွင်းစဉ်းစားပါတယ် ။
◦လုပ်ပုံလုပ်နည်းက ခြားနားချက်တွေကို သုညကနေ ဘယ်လောက်ဝေးလဲဆိုတဲ့အပေါ် မူတည်ပြီး အဆင့် (rank) သတ်မှတ်ပါတယ် ။ ပြီးမှ အဲဒီအဆင့်တွေကို သက်ဆိုင်ရာ ခြားနားချက်ရဲ့ လက္ခဏာ (အပေါင်း သို့မဟုတ် အနုတ်) ပေးပါတယ် ။
◦စမ်းသပ်ချက်ရဲ့ ကိန်းဂဏာန်း (T) က အပေါင်းအဆင့်တွေရဲ့ ပေါင်းလဒ် သို့မဟုတ် အနုတ်အဆင့်တွေရဲ့ ပေါင်းလဒ်ထဲက ပိုနည်းတာ ဖြစ်ပါတယ် ။
◦တွဲလိုက် t-test ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၃။ မုဒ်ရဲ့ မီဒီယံ စမ်းသပ်ချက် (Mood’s Median Test):
◦ဒီစမ်းသပ်ချက်ကို အမှီအခိုကင်းတဲ့ နမူနာနှစ်ခု (two independent samples) ရဲ့ မီဒီယံတွေ တူညီမှုရှိမရှိ စမ်းသပ်ဖို့ သုံးပါတယ် ။
◦နမူနာနှစ်ခုလုံးက အချက်အလက်တွေကို ပေါင်းပြီး တစ်ခုတည်းသော မီဒီယံကို တွက်ပါတယ် ။
◦ပြီးမှ နမူနာတစ်ခုချင်းစီက အချက်အလက်တွေဟာ ဒီပေါင်းထားတဲ့ မီဒီယံထက် ကြီးသလား၊ ငယ်သလားဆိုပြီး အုပ်စုခွဲပါတယ် ။
◦ဒီလို အုပ်စုခွဲထားတဲ့ အချက်အလက်အရေအတွက်တွေကို 2×2 ကန့်သတ်ချက်ဇယား (contingency table) မှာ ထည့်သွင်းပြီး chi-square test အသုံးပြုပြီး စမ်းသပ်ပါတယ်5။
◦အမှီအခိုကင်းတဲ့ t-test ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၄။ မန်း-ဝှစ်တနီ စမ်းသပ်ချက် (The Mann-Whitney Test) / ဝီလ်ကို့စ်ဆွန် အဆင့် ပေါင်းလဒ် စမ်းသပ်ချက် (Wilcoxon Rank Sum Test):
◦ဒါကလည်း အမှီအခိုကင်းတဲ့ နမူနာနှစ်ခု ကို နှိုင်းယှဉ်ဖို့ သုံးတဲ့ အရေးကြီးတဲ့ Nonparametricစမ်းသပ်ချက် ဖြစ်ပါတယ် ။
◦ဒီစမ်းသပ်ချက်က နမူနာနှစ်ခုလုံးက အချက်အလက်တွေကို ပေါင်းပြီး အငယ်ဆုံးကနေ အကြီးဆုံးအထိ အဆင့် (rank) သတ်မှတ်ပါတယ် ။
◦ပြီးမှ နမူနာတစ်ခုခုရဲ့ အဆင့်တွေရဲ့ ပေါင်းလဒ်ကို တွက်ပြီး ဒီပေါင်းလဒ်ဟာ သုညပုစ္ဆာ (နမူနာနှစ်ခုဟာ တူညီတဲ့ ဖြန့်ဝေပုံကနေ လာတယ်) အရ မျှော်မှန်းထားတဲ့ ပေါင်းလဒ်နဲ့ ဘယ်လောက် ကွာခြားလဲဆိုတာကို ကြည့်ပါတယ် ။
◦မန်း-ဝှစ်တနီ statistic (U) နဲ့ ဝီလ်ကို့စ်ဆွန် statistic (W) တွေဟာ သင်္ချာနည်းအရ ဆက်စပ်နေပြီး အတူတူပဲ ဖြစ်ပါတယ် ။ မန်း-ဝှစ်တနီ-ဝီလ်ကို့စ်ဆွန်စမ်းသပ်ချက်လို့လည်း ခေါ်ကြပါတယ် ။
◦အမှီအခိုကင်းတဲ့ t-test ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၅။ ကိုလ်မိုဂိုရော့ဗ်–စမီရ်နော့ဗ် ကိုက်ညီမှု-ကောင်းခြင်း စမ်းသပ်ချက် (The Kolmogorov–Smirnov Goodness-of-Fit Test):
◦ဒီစမ်းသပ်ချက်က နမူနာတစ်ခုရဲ့ ဖြန့်ဝေပုံဟာ တိကျတဲ့ သီအိုရီပိုင်းဆိုင်ရာ ဖြန့်ဝေပုံတစ်ခု (ဥပမာ – ပုံမှန်ဖြန့်ဝေပုံ) နဲ့ ဘယ်လောက် ကိုက်ညီမှုရှိလဲဆိုတာကို စမ်းသပ်ဖို့ သုံးပါတယ် ။
◦ဒါဟာ chi-square goodness-of-fit test ရဲ့ အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။
◦စမ်းသပ်ချက်ရဲ့ ကိန်းဂဏာန်း (D) က နမူနာရဲ့ စုစုပေါင်း ဖြန့်ဝေမှုဖ (sample cumulative distribution function, Fs(x)) နဲ့ သီအိုရီပိုင်းဆိုင်ရာ စုစုပေါင်း ဖြန့်ဝေမှု (theoretical cumulative distribution function, FT(x)) တို့ကြား အကြီးဆုံး ဒေါင်လိုက်အကွာအဝေး (greatest vertical distance) ကို တိုင်းတာတာ ဖြစ်ပါတယ် ။

၆။ ခရပ်စကယ်-ဝါးလစ် စမ်းသပ်ချက် (The Kruskal–Wallis Test):
◦ဒါက မန်း-ဝှစ်တနီ စမ်းသပ်ချက်ကို အုပ်စုသုံးစု သို့မဟုတ် သုံးစုထက် ပိုများတဲ့ အမှီအခိုကင်းတဲ့ အုပ်စုတွေရဲ့ မီဒီယံတွေကို နှိုင်းယှဉ်ဖို့အတွက် တိုးချဲ့ထားတာ ဖြစ်ပါတယ် ။
◦အုပ်စုအားလုံးက အချက်အလက်တွေကို ပေါင်းပြီး အဆင့် သတ်မှတ်ပါတယ် ။
◦ပြီးမှ အုပ်စုတစ်ခုချင်းစီရဲ့ ပျမ်းမျှအဆင့် (average rank) တွေကို နှိုင်းယှဉ်ပြီး ဒီပျမ်းမျှအဆင့်တွေကြား ခြားနားချက်ဟာ သုညပုစ္ဆာ (အုပ်စုအားလုံးရဲ့ မီဒီယံတွေ တူညီတယ်) အရ မမျှော်လင့်ထားလောက်အောင် ကြီးမားသလားဆိုတာကို စမ်းသပ်ပါတယ် ။
◦One-way ANOVA ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ်။

၇။ ဖရိုက်ဒ်မန်း နှစ်လမ်းသွား အဆင့်ဖြင့် ဗွေရန် ခွဲခြမ်းစိတ်ဖြာခြင်း (Friedman Two-Way Analysis of Variance by Ranks):
◦ဒီစမ်းသပ်ချက်က randomized complete block design ဒါမှမဟုတ် repeated measures design မှာလို အတွဲလိုက် အချက်အလက် (paired data) သုံးခု သို့မဟုတ် သုံးခုထက်ပိုတဲ့ အုပ်စုတွေကို နှိုင်းယှဉ်ဖို့ သုံးပါတယ် ။
◦လုပ်ပုံလုပ်နည်းက block တစ်ခုစီ (ဥပမာ- လူနာတစ်ဦးစီ) အတွင်းက အချက်အလက်တွေကိုပဲ အဆင့် သတ်မှတ်ပါတယ် ။
◦ပြီးမှ ကိန်းဂဏာန်းတစ်ခုကို တွက်ချက်ပြီး ဒီကိန်းဂဏာန်းဟာ သုညပုစ္ဆာ (Treatment တွေအားလုံး အကျိုးသက်ရောက်မှု တူညီတယ်) အရ မမျှော်လင့်ထားလောက်အောင် ကြီးမားသလားဆိုတာကို ကြည့်ပါတယ် ။
◦Parametric two-way ANOVA for blocks ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၈။ စပီးယားမန်း အဆင့် ကော်ရယ်ရေးရှင်း ကိန်းဂဏာန်း (Spearman’s Rank Correlation Coefficient):
◦ဒီကိန်းဂဏာန်းက အချက်အလက် နှစ်ခုကြားက ဆက်စပ်မှု (correlation) ကို တိုင်းတာတာ ဖြစ်ပါတယ် ။
◦ဒါပေမယ့် ပုံမှန် Pearson correlation လို အချက်အလက် တန်ဖိုးအစစ်တွေကို မသုံးဘဲ အချက်အလက်တွေရဲ့ အဆင့် (ranks) တွေကို အခြေခံပြီး တွက်ချက်တာ ဖြစ်ပါတယ် ။
◦အချက်အလက် နှစ်ခုကြားက ဆက်စပ်မှု ပုံစံဟာ ဖြောင့်တန်းတဲ့ပုံစံ (linear relationship) ဖြစ်စရာ မလိုပါဘူး ။ တစ်ခုတိုးရင် နောက်တစ်ခု တိုးဖို့ပဲ ဒါမှမဟုတ် နည်းဖို့ပဲ ဆိုတဲ့ (monotonic relationship) ဆက်စပ်မှုကို တိုင်းတာပါတယ် ။
◦Pearson correlation ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။
◦ရလဒ် rs က -1 ကနေ +1 အထိ ရှိနိုင်ပြီး ၊ 0 က ဆက်စပ်မှု မရှိတာ၊ +1 က ပြီးပြည့်စုံတဲ့ အပေါင်း ဆက်စပ်မှု၊ -1 က ပြီးပြည့်စုံတဲ့ အနုတ် ဆက်စပ်မှုကို ပြပါတယ် ။

၉။ သိုင်းလ်ရဲ့ ခန့်မှန်းကိန်း (Theil’s Estimator):
◦ဒါကတော့ ရိုးရှင်းတဲ့ လိုင်းဖြောင့် ဆုတ်ယုတ်မှု (simple linear regression)9 မှာလို မျဉ်းဖြောင့်ရဲ့ (slope) နဲ့ y-intercept ကို ခန့်မှန်းဖို့ သုံးတဲ့ Nonparametricနည်းလမ်း ဖြစ်ပါတယ် ။
◦ပုံမှန် regression မှာလို error term တွေရဲ့ ဖြန့်ဝေပုံအပေါ် မူတည်တဲ့ ယူဆချက်တွေ မလိုအပ်ပါဘူး ။
◦slope ကို ခန့်မှန်းတဲ့အခါ အချက်အလက် နှစ်ခုချင်းစီကနေ တွက်ချက်ရတဲ့ slopes တွေရဲ့ မီဒီယံကို အသုံးပြုပါတယ် ။

ဒီလို Nonparametricနည်းလမ်း အမျိုးမျိုးဟာ ကျွန်တော်တို့ရရှိတဲ့ အချက်အလက်တွေဟာ parametricနည်းလမ်းတွေအတွက် လိုအပ်တဲ့ ယူဆချက်တွေနဲ့ ကိုက်ညီမှု မရှိတဲ့အခါ အချက်အလက်တွေကို မှန်မှန်ကန်ကန် ခွဲခြမ်းစိတ်ဖြာပြီး ကောက်ချက်ဆွဲဖို့အတွက် အလွန်အရေးကြီးတဲ့ ကိရိယာတွေ ဖြစ်ပါတယ် ။ ဘယ်စမ်းသပ်ချက်ကို သုံးမလဲဆိုတာကတော့ ကျွန်တော်တို့ရဲ့ သုတေသနမေးခွန်း အမျိုးအစား (ဥပမာ- အုပ်စုနှစ်ခုလား၊ သုံးခုလား၊ အမှီအခိုကင်းသလား၊ တွဲလိုက်လား) နဲ့ အချက်အလက်ရဲ့ တိုင်းတာမှုအဆင့် (ဥပမာ- ကိန်းဂဏာန်းလား၊ အဆင့်လား) ပေါ် မူတည်ပါတယ်။

Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Chapter 13 Nonparametric and Distribution

Discover more from naywinaung

Leave a Reply Cancel reply

Related Post

Chapter 5 SOME IMPORTANT SAMPLING DISTRIBUTIONSChapter 5 SOME IMPORTANT SAMPLING DISTRIBUTIONS

statistical inferencestatistical inference

Chapter 4: Probability DistributionsChapter 4: Probability Distributions