naywinaung Biostatistics Chapter 13 Nonparametric and Distribution

Chapter 13 Nonparametric and Distribution

အခန်း ၁၃ ဖြစ်တဲ့ “Nonparametric and Distribution-Free စာရင်းအင်းပညာ” အကြောင်းကို ဆွေးနွေးပေးပါမယ် ။
Nonparametric and Distribution-Free စာရင်းအင်းပညာ
နိဒါန်း
စာရင်းအင်းပညာမှာ ကောက်ချက်ဆွဲခြင်း (inferential statistics) ကို လုပ်တဲ့အခါ အခန်း ၇ ကစပြီး သင်ယူခဲ့ရတဲ့ t-test, F-test လို နည်းလမ်းတွေဟာ “Parametric” နည်းလမ်းတွေ လို့ ခေါ်ပါတယ် ။ ဒီနည်းလမ်းတွေက သုံးမယ့် အချက်အလက်တွေဟာ တိကျတဲ့ ဖြန့်ဝေပုံ (ဥပမာ – ပုံမှန်ဖြန့်ဝေပုံ – normal distribution) ကနေ လာတာဖြစ်ရမယ် လို့ ယူဆချက် (assumptions) တွေ ရှိပါတယ် ။ ဒါ့အပြင် အုပ်စုတွေရဲ့ variances တွေ တူညီရမယ်ဆိုတဲ့ ယူဆချက်မျိုးလည်း ရှိတတ်ပါတယ်။
တကယ်လက်တွေ့မှာ ကျွန်တော်တို့ရတဲ့ အချက်အလက်တွေဟာ ဒီလိုယူဆချက်တွေနဲ့ ကိုက်ညီချင်မှ ကိုက်ညီပါလိမ့်မယ် ။ အထူးသဖြင့် ကျန်းမာရေးသိပ္ပံနယ်ပယ်လို နေရာမျိုးမှာ လူနာအရေအတွက် နည်းတာ၊ အချက်အလက်တွေရဲ့ ဖြန့်ဝေပုံက ပုံမှန်မဖြစ်တာ တွေ ဖြစ်တတ်ပါတယ် ။ ဒီလိုအခြေအနေတွေမှာ parametric နည်းလမ်းတွေကို အတင်းအကျ သုံးမယ်ဆိုရင် ရတဲ့ရလဒ်တွေဟာ မှားယွင်းတဲ့ ကောက်ချက်ကို ဦးတည်စေနိုင်ပါတယ် ။
ဒီလိုပြဿနာကို ဖြေရှင်းဖို့အတွက် Nonparametric သို့မဟုတ် (Distribution-Free) နည်းလမ်းတွေ ပေါ်လာတာ ဖြစ်ပါတယ် ။ ဒီနည်းလမ်းတွေက အချက်အလက်တွေရဲ့ ဖြန့်ဝေပုံအပေါ် မူတည်တဲ့ ယူဆချက်တွေ နည်းပါးပါတယ် ။

Nonparametricနည်းလမ်းများရဲ့ အားသာချက်နဲ့ အားနည်းချက်
•အားသာချက်: အဓိကအားသာချက်ကတော့ အချက်အလက်တွေရဲ့ ဖြန့်ဝေပုံ (ဥပမာ- ပုံမှန်ဖြစ်ရမယ်) လို ယူဆချက်တွေ သိပ်မလိုအပ်တာ ဒါမှမဟုတ် လုံးဝ မလိုအပ်တာပါပဲ ။ ဒါကြောင့် အချက်အလက်နည်းတဲ့အခါ ဒါမှမဟုတ် outliers တွေရှိတဲ့အခါ ပိုပြီး အသုံးဝင်ပါတယ် ။
•အားနည်းချက်: အားနည်းချက်ကတော့ parametricနည်းလမ်းတွေရဲ့ ယူဆချက်တွေ ပြည့်မီတဲ့အခါ Nonparametricနည်းလမ်းတွေက parametricနည်းလမ်းတွေထက် ပါဝါ (power) နည်းပါတယ် ။ ပါဝါဆိုတာ null hypothesis ကို မှန်မှန်ကန်ကန် ပယ်ချနိုင်တဲ့ အခွင့်အလမ်းကို ဆိုလိုပါတယ်။ ဒါကြောင့် ယူဆချက်တွေ ပြည့်မီတယ်ဆိုရင် parametricနည်းလမ်းကို သုံးတာက ပိုပြီးကောင်းမွန်တဲ့ ရွေးချယ်မှု ဖြစ်ပါတယ် ။

ဒီအခန်း ၁၃ မှာ Nonparametricနည်းလမ်း အမျိုးမျိုးကို သင်ယူရမှာ ဖြစ်ပါတယ် ။
အချို့နည်းလမ်းတွေက t-test လို parametricနည်းလမ်းတွေရဲ့ အစားထိုး (alternatives) အဖြစ် သုံးနိုင်သလို ၊ အချို့ကတော့ parametricနည်းလမ်းတွေနဲ့ မတူတဲ့ မေးခွန်းတွေကို ဖြေဖို့အတွက် အသုံးပြုပါတယ် ။
အခြေခံ Nonparametricစမ်းသပ်ချက်များ
၁။ ဆိုင်းစမ်းသပ်ချက် (The Sign Test):
◦ဒီစမ်းသပ်ချက်က အလွန်ရိုးရှင်းပါတယ် ။
◦အတွဲလိုက် အချက်အလက်တွေ (paired data) ဒါမှမဟုတ် တစ်ခုတည်းသော နမူနာ (single sample) ကို အသုံးပြုပြီး အချက်အလက်တွေရဲ့ မီဒီယံ (median) အကြောင်း H0ကို စမ်းသပ်နိုင်ပါတယ် ။
◦လုပ်ပုံလုပ်နည်းက အချက်အလက်တွေရဲ့ ခြားနားချက် (differences) တွေရဲ့ လက္ခဏာ (sign – အပေါင်း သို့မဟုတ် အနုတ်) ကိုပဲ ကြည့်တာ ဖြစ်ပါတယ် ။ ခြားနားချက် သုည ဖြစ်နေတာတွေကို ပုံမှန်အားဖြင့် ဖယ်လိုက်ပါတယ် ။
◦စမ်းသပ်ချက်ရဲ့ ကိန်းဂဏာန်း (test statistic) က အနည်းဆုံး ထပ်ဖြစ်နေတဲ့ လက္ခဏာအရေအတွက် ဖြစ်ပါတယ် ။
◦H0 မှန်တယ်ဆိုရင် အပေါင်းလက္ခဏာနဲ့ အနုတ်လက္ခဏာတွေ ထပ်ဖြစ်ဖို့ အခွင့်အလမ်း တူညီတယ် (p=0.5) လို့ ယူဆပြီး binomial distribution ကို အသုံးပြုပြီး p-value ကို တွက်ပါတယ် ။
◦တွဲလိုက် t-test (paired t-test) ရဲ့ Nonparametric အစားထိုးတစ်ခုအဖြစ် သုံးနိုင်ပါတယ် ။

၂။ ဝီလ်ကို့စ်ဆွန် လက်မှတ်ထိုး-အဆင့် စမ်းသပ်ချက် (The Wilcoxon Signed-Rank Test):
◦ဒါက ဆိုင်းစမ်းသပ်ချက်ထက် နည်းနည်း ပိုပါဝါရှိပါတယ် ။
◦အတွဲလိုက် အချက်အလက်တွေ ဒါမှမဟုတ် တစ်ခုတည်းသော နမူနာကို အသုံးပြုပြီး မီဒီယံ (သို့မဟုတ် ခြားနားချက်တွေရဲ့ ပျမ်းမျှ) အကြောင်း စမ်းသပ်နိုင်ပါတယ် ။
◦ဒီစမ်းသပ်ချက်က ခြားနားချက်တွေရဲ့ လက္ခဏာ (sign) သာမက ခြားနားချက်တွေရဲ့ ပမာဏ (magnitude) ကိုပါ ထည့်သွင်းစဉ်းစားပါတယ် ။
◦လုပ်ပုံလုပ်နည်းက ခြားနားချက်တွေကို သုညကနေ ဘယ်လောက်ဝေးလဲဆိုတဲ့အပေါ် မူတည်ပြီး အဆင့် (rank) သတ်မှတ်ပါတယ် ။ ပြီးမှ အဲဒီအဆင့်တွေကို သက်ဆိုင်ရာ ခြားနားချက်ရဲ့ လက္ခဏာ (အပေါင်း သို့မဟုတ် အနုတ်) ပေးပါတယ် ။
◦စမ်းသပ်ချက်ရဲ့ ကိန်းဂဏာန်း (T) က အပေါင်းအဆင့်တွေရဲ့ ပေါင်းလဒ် သို့မဟုတ် အနုတ်အဆင့်တွေရဲ့ ပေါင်းလဒ်ထဲက ပိုနည်းတာ ဖြစ်ပါတယ် ။
◦တွဲလိုက် t-test ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၃။ မုဒ်ရဲ့ မီဒီယံ စမ်းသပ်ချက် (Mood’s Median Test):
◦ဒီစမ်းသပ်ချက်ကို အမှီအခိုကင်းတဲ့ နမူနာနှစ်ခု (two independent samples) ရဲ့ မီဒီယံတွေ တူညီမှုရှိမရှိ စမ်းသပ်ဖို့ သုံးပါတယ် ။
◦နမူနာနှစ်ခုလုံးက အချက်အလက်တွေကို ပေါင်းပြီး တစ်ခုတည်းသော မီဒီယံကို တွက်ပါတယ် ။
◦ပြီးမှ နမူနာတစ်ခုချင်းစီက အချက်အလက်တွေဟာ ဒီပေါင်းထားတဲ့ မီဒီယံထက် ကြီးသလား၊ ငယ်သလားဆိုပြီး အုပ်စုခွဲပါတယ် ။
◦ဒီလို အုပ်စုခွဲထားတဲ့ အချက်အလက်အရေအတွက်တွေကို 2×2 ကန့်သတ်ချက်ဇယား (contingency table) မှာ ထည့်သွင်းပြီး chi-square test အသုံးပြုပြီး စမ်းသပ်ပါတယ်5။
◦အမှီအခိုကင်းတဲ့ t-test ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၄။ မန်း-ဝှစ်တနီ စမ်းသပ်ချက် (The Mann-Whitney Test) / ဝီလ်ကို့စ်ဆွန် အဆင့် ပေါင်းလဒ် စမ်းသပ်ချက် (Wilcoxon Rank Sum Test):
◦ဒါကလည်း အမှီအခိုကင်းတဲ့ နမူနာနှစ်ခု ကို နှိုင်းယှဉ်ဖို့ သုံးတဲ့ အရေးကြီးတဲ့ Nonparametricစမ်းသပ်ချက် ဖြစ်ပါတယ် ။
◦ဒီစမ်းသပ်ချက်က နမူနာနှစ်ခုလုံးက အချက်အလက်တွေကို ပေါင်းပြီး အငယ်ဆုံးကနေ အကြီးဆုံးအထိ အဆင့် (rank) သတ်မှတ်ပါတယ် ။
◦ပြီးမှ နမူနာတစ်ခုခုရဲ့ အဆင့်တွေရဲ့ ပေါင်းလဒ်ကို တွက်ပြီး ဒီပေါင်းလဒ်ဟာ သုညပုစ္ဆာ (နမူနာနှစ်ခုဟာ တူညီတဲ့ ဖြန့်ဝေပုံကနေ လာတယ်) အရ မျှော်မှန်းထားတဲ့ ပေါင်းလဒ်နဲ့ ဘယ်လောက် ကွာခြားလဲဆိုတာကို ကြည့်ပါတယ် ။
◦မန်း-ဝှစ်တနီ statistic (U) နဲ့ ဝီလ်ကို့စ်ဆွန် statistic (W) တွေဟာ သင်္ချာနည်းအရ ဆက်စပ်နေပြီး အတူတူပဲ ဖြစ်ပါတယ် ။ မန်း-ဝှစ်တနီ-ဝီလ်ကို့စ်ဆွန်စမ်းသပ်ချက်လို့လည်း ခေါ်ကြပါတယ် ။
◦အမှီအခိုကင်းတဲ့ t-test ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၅။ ကိုလ်မိုဂိုရော့ဗ်–စမီရ်နော့ဗ် ကိုက်ညီမှု-ကောင်းခြင်း စမ်းသပ်ချက် (The Kolmogorov–Smirnov Goodness-of-Fit Test):
◦ဒီစမ်းသပ်ချက်က နမူနာတစ်ခုရဲ့ ဖြန့်ဝေပုံဟာ တိကျတဲ့ သီအိုရီပိုင်းဆိုင်ရာ ဖြန့်ဝေပုံတစ်ခု (ဥပမာ – ပုံမှန်ဖြန့်ဝေပုံ) နဲ့ ဘယ်လောက် ကိုက်ညီမှုရှိလဲဆိုတာကို စမ်းသပ်ဖို့ သုံးပါတယ် ။
◦ဒါဟာ chi-square goodness-of-fit test ရဲ့ အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။
◦စမ်းသပ်ချက်ရဲ့ ကိန်းဂဏာန်း (D) က နမူနာရဲ့ စုစုပေါင်း ဖြန့်ဝေမှုဖ (sample cumulative distribution function, Fs(x)) နဲ့ သီအိုရီပိုင်းဆိုင်ရာ စုစုပေါင်း ဖြန့်ဝေမှု (theoretical cumulative distribution function, FT(x)) တို့ကြား အကြီးဆုံး ဒေါင်လိုက်အကွာအဝေး (greatest vertical distance) ကို တိုင်းတာတာ ဖြစ်ပါတယ် ။

၆။ ခရပ်စကယ်-ဝါးလစ် စမ်းသပ်ချက် (The Kruskal–Wallis Test):
◦ဒါက မန်း-ဝှစ်တနီ စမ်းသပ်ချက်ကို အုပ်စုသုံးစု သို့မဟုတ် သုံးစုထက် ပိုများတဲ့ အမှီအခိုကင်းတဲ့ အုပ်စုတွေရဲ့ မီဒီယံတွေကို နှိုင်းယှဉ်ဖို့အတွက် တိုးချဲ့ထားတာ ဖြစ်ပါတယ် ။
◦အုပ်စုအားလုံးက အချက်အလက်တွေကို ပေါင်းပြီး အဆင့် သတ်မှတ်ပါတယ် ။
◦ပြီးမှ အုပ်စုတစ်ခုချင်းစီရဲ့ ပျမ်းမျှအဆင့် (average rank) တွေကို နှိုင်းယှဉ်ပြီး ဒီပျမ်းမျှအဆင့်တွေကြား ခြားနားချက်ဟာ သုညပုစ္ဆာ (အုပ်စုအားလုံးရဲ့ မီဒီယံတွေ တူညီတယ်) အရ မမျှော်လင့်ထားလောက်အောင် ကြီးမားသလားဆိုတာကို စမ်းသပ်ပါတယ် ။
◦One-way ANOVA ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ်။

၇။ ဖရိုက်ဒ်မန်း နှစ်လမ်းသွား အဆင့်ဖြင့် ဗွေရန် ခွဲခြမ်းစိတ်ဖြာခြင်း (Friedman Two-Way Analysis of Variance by Ranks):
◦ဒီစမ်းသပ်ချက်က randomized complete block design ဒါမှမဟုတ် repeated measures design မှာလို အတွဲလိုက် အချက်အလက် (paired data) သုံးခု သို့မဟုတ် သုံးခုထက်ပိုတဲ့ အုပ်စုတွေကို နှိုင်းယှဉ်ဖို့ သုံးပါတယ် ။
◦လုပ်ပုံလုပ်နည်းက block တစ်ခုစီ (ဥပမာ- လူနာတစ်ဦးစီ) အတွင်းက အချက်အလက်တွေကိုပဲ အဆင့် သတ်မှတ်ပါတယ် ။
◦ပြီးမှ ကိန်းဂဏာန်းတစ်ခုကို တွက်ချက်ပြီး ဒီကိန်းဂဏာန်းဟာ သုညပုစ္ဆာ (Treatment တွေအားလုံး အကျိုးသက်ရောက်မှု တူညီတယ်) အရ မမျှော်လင့်ထားလောက်အောင် ကြီးမားသလားဆိုတာကို ကြည့်ပါတယ် ။
◦Parametric two-way ANOVA for blocks ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။

၈။ စပီးယားမန်း အဆင့် ကော်ရယ်ရေးရှင်း ကိန်းဂဏာန်း (Spearman’s Rank Correlation Coefficient):
◦ဒီကိန်းဂဏာန်းက အချက်အလက် နှစ်ခုကြားက ဆက်စပ်မှု (correlation) ကို တိုင်းတာတာ ဖြစ်ပါတယ် ။
◦ဒါပေမယ့် ပုံမှန် Pearson correlation လို အချက်အလက် တန်ဖိုးအစစ်တွေကို မသုံးဘဲ အချက်အလက်တွေရဲ့ အဆင့် (ranks) တွေကို အခြေခံပြီး တွက်ချက်တာ ဖြစ်ပါတယ် ။
◦အချက်အလက် နှစ်ခုကြားက ဆက်စပ်မှု ပုံစံဟာ ဖြောင့်တန်းတဲ့ပုံစံ (linear relationship) ဖြစ်စရာ မလိုပါဘူး ။ တစ်ခုတိုးရင် နောက်တစ်ခု တိုးဖို့ပဲ ဒါမှမဟုတ် နည်းဖို့ပဲ ဆိုတဲ့ (monotonic relationship) ဆက်စပ်မှုကို တိုင်းတာပါတယ် ။
◦Pearson correlation ရဲ့ Nonparametric အစားထိုးတစ်ခု ဖြစ်ပါတယ် ။
◦ရလဒ် rs က -1 ကနေ +1 အထိ ရှိနိုင်ပြီး ၊ 0 က ဆက်စပ်မှု မရှိတာ၊ +1 က ပြီးပြည့်စုံတဲ့ အပေါင်း ဆက်စပ်မှု၊ -1 က ပြီးပြည့်စုံတဲ့ အနုတ် ဆက်စပ်မှုကို ပြပါတယ် ။

၉။ သိုင်းလ်ရဲ့ ခန့်မှန်းကိန်း (Theil’s Estimator):
◦ဒါကတော့ ရိုးရှင်းတဲ့ လိုင်းဖြောင့် ဆုတ်ယုတ်မှု (simple linear regression)9 မှာလို မျဉ်းဖြောင့်ရဲ့ (slope) နဲ့ y-intercept ကို ခန့်မှန်းဖို့ သုံးတဲ့ Nonparametricနည်းလမ်း ဖြစ်ပါတယ် ။
◦ပုံမှန် regression မှာလို error term တွေရဲ့ ဖြန့်ဝေပုံအပေါ် မူတည်တဲ့ ယူဆချက်တွေ မလိုအပ်ပါဘူး ။
◦slope ကို ခန့်မှန်းတဲ့အခါ အချက်အလက် နှစ်ခုချင်းစီကနေ တွက်ချက်ရတဲ့ slopes တွေရဲ့ မီဒီယံကို အသုံးပြုပါတယ် ။

ဒီလို Nonparametricနည်းလမ်း အမျိုးမျိုးဟာ ကျွန်တော်တို့ရရှိတဲ့ အချက်အလက်တွေဟာ parametricနည်းလမ်းတွေအတွက် လိုအပ်တဲ့ ယူဆချက်တွေနဲ့ ကိုက်ညီမှု မရှိတဲ့အခါ အချက်အလက်တွေကို မှန်မှန်ကန်ကန် ခွဲခြမ်းစိတ်ဖြာပြီး ကောက်ချက်ဆွဲဖို့အတွက် အလွန်အရေးကြီးတဲ့ ကိရိယာတွေ ဖြစ်ပါတယ် ။ ဘယ်စမ်းသပ်ချက်ကို သုံးမလဲဆိုတာကတော့ ကျွန်တော်တို့ရဲ့ သုတေသနမေးခွန်း အမျိုးအစား (ဥပမာ- အုပ်စုနှစ်ခုလား၊ သုံးခုလား၊ အမှီအခိုကင်းသလား၊ တွဲလိုက်လား) နဲ့ အချက်အလက်ရဲ့ တိုင်းတာမှုအဆင့် (ဥပမာ- ကိန်းဂဏာန်းလား၊ အဆင့်လား) ပေါ် မူတည်ပါတယ်။


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

Chapter 4: Probability DistributionsChapter 4: Probability Distributions

Chapter 4: Probability Distributions Chapter 4: Probability Distributions အခန်းကတော့ ကျန်းမာရေးနယ်ပယ်မှာ အသုံးများတဲ့ ဖြစ်နိုင်ခြေဖြန့်ဝေမှုများ (Probability Distributions) ကို မိတ်ဆက်ပေးထားတာပါ။ Probability distributions ဆိုတာကတော့ ကျပန်းဖြစ်နိုင်ချေရှိတဲ့ ကိန်းရှင်တစ်ခုရဲ့ ဖြစ်နိုင်ခြေတွေကို ဖော်ပြတဲ့ပုံစံပါပဲ။ဒီအခန်းမှာ အဓိကအားဖြင့် သင်ရမယ့်အရာတွေကတော့1.ကျပန်းကိန်းရှင်တွေ (Random Variables) အကြောင်း2.Discrete Probability Distributions

Chapter 5 SOME IMPORTANT SAMPLING DISTRIBUTIONSChapter 5 SOME IMPORTANT SAMPLING DISTRIBUTIONS

အခန်း (၅) တွင်ပါဝင်သော “အရေးကြီးသော နမူနာဖြန့်ဝေမှုအချို့” (SOME IMPORTANT SAMPLING DISTRIBUTIONS) သည် စာရင်းအင်းဘာသာရပ်ရှိ အရေးကြီးဆုံး အခန်းများထဲမှ တစ်ခုဖြစ်ပြီး၊ ဖော်ပြချက်ဆိုင်ရာစာရင်းအင်း (descriptive statistics) နှင့် ဖြစ်နိုင်ခြေသဘောတရား (probability) တို့မှ ကောက်ချက်ဆွဲခြင်းဆိုင်ရာစာရင်းအင်း (inferential statistics) သို့ ကူးပြောင်းရာတွင် အဓိကတံတားအဖြစ် တည်ရှိနေသည်။ ကောက်ချက်ဆွဲခြင်းဆိုသည်မှာ လူဦးရေ

Daniel chapter 2Daniel chapter 2

Daniel chapter 2ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းပညာ (Descriptive Statistics)နိဒါန်းကျွန်တော်တို့ဟာ သတင်းအချက်အလက်ခေတ်မှာ နေထိုင်ကြရပြီး၊ ကျန်းမာရေးသိပ္ပံနယ်ပယ်မှာဆိုရင် အချက်အလက် (data) ပုံစံနဲ့ ရောက်ရှိလာတဲ့ ကိန်းဂဏာန်းအချက်အလက်တွေဟာ အလွန်များပြား ရှုပ်ထွေးနိုင်ပါတယ်။ ဒီအချက်အလက်တွေထဲကနေ ဘယ်လို အဓိပ္ပာယ်ရှိတဲ့ သတင်းအချက်အလက် တွေကို ထုတ်ယူမလဲ၊ ဘယ်လို နားလည်အောင် စုစည်းဖော်ပြမလဲဆိုတာက အရေးကြီးတဲ့ အလုပ်ဖြစ်ပါတယ်။ ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းပညာ (Descriptive