P-Value
သုတေသန တွေ့ရှိချက်များကို အနက်ဖွင့်ဆိုခြင်းနဲ့ ပတ်သက်ပြီး P-Value များရဲ့ အနက်ဖွင့်ဆိုပုံ နည်းစနစ်များအကြောင်းကို နည်းနည်းရှင်းပြချင်ပါတယ်။
P-value ဆိုတာ ကိန်းဂဏန်း သုတေသန (Quantitative Research) ရဲ့ အသည်းနှလုံးလိုပါပဲ။ ဒီတန်ဖိုးကို ဘယ်လို နားလည်ပြီး သုံးသပ်ရမလဲဆိုတာဟာ သုတေသန လုပ်ငန်းရဲ့ တိကျမှန်ကန်မှုကို သတ်မှတ်ပေးပါတယ်။
၁။ P-Value ဆိုသည်မှာ ဘာလဲ၊ ဘာကို ဆိုလိုသလဲ။
P-value (Probability value) ဟာ စာရင်းအင်း နည်းလမ်းများ (statistical tests) ရဲ့ အဓိက အညွှန်းကိန်း ဖြစ်ပါတယ်။
အနက်ဖွင့်ဆိုချက်:
P-value ဟာ ကံကြမ္မာအမှား (chance error) သက်သက်ကြောင့် ဒီလိုမျိုး ဒါမှမဟုတ် ဒီထက် ပိုပြင်းထန်တဲ့ ရလဒ်ကို တွေ့ရှိနိုင်ခြေ ဖြစ်နိုင်ခြေကို ပြသတဲ့ တန်ဖိုးဖြစ်ပါတယ်။ တစ်နည်းအားဖြင့် တွေ့ရှိချက်တွေက လူဦးရေ (population) ကို ကိုယ်စားပြုတဲ့ မှန်ကန်တဲ့ တွေ့ရှိချက် ဟုတ်မဟုတ်ကို ဆုံးဖြတ်တဲ့အခါ မှားယွင်းနိုင်ခြေ ဘယ်လောက်ရှိသလဲဆိုတာကို ပြောပြပေးပါတယ်။
Null Hypothesis (H0) နှင့် ဆက်စပ်မှု:
သုတေသန စမ်းသပ်မှုတိုင်းဟာ Null Hypothesis ကို စမ်းသပ်ခြင်းအပေါ်မှာ အခြေခံထားပါတယ်။ Null Hypothesis ဆိုတာက “ကျွန်ုပ်တို့ စမ်းသပ်နေတဲ့ အုပ်စုတွေကြားမှာ ထူးခြားတဲ့ ကွဲပြားမှုမရှိဘူး” ဒါမှမဟုတ် “ပြောင်းလဲနိုင်တဲ့ အကြောင်းအရာတွေကြားမှာ ဆက်စပ်မှုမရှိဘူး” လို့ ဟောကိန်းထုတ်ထားတဲ့ အယူအဆပါ။
ဆုံးဖြတ်ချက်ချမှတ်ခြင်း:
သုတေသီများက p-value ကို ကြည့်ပြီး H0 ကို ပယ်ချမလား (reject)၊ ပယ်ချဖို့ ပျက်ကွက်မလား (fail to reject) ဆိုတာကို ဆုံးဖြတ်ပါတယ်။
P < 0.05:
p-value က 0.05 ထက် နည်းရင် (ဥပမာ 0.01)၊ တွေ့ရှိချက်ဟာ ကံကြမ္မာအမှားကြောင့် ဖြစ်နိုင်ခြေ 5% ထက် နည်းတယ်လို့ ဆိုလိုပါတယ်။ ဒါဟာ ရလဒ်က ကိန်းဂဏန်းအရ အရေးပါမှု (Statistically Significant) ရှိတယ်လို့ သတ်မှတ်ပြီး၊ ကျွန်ုပ်တို့ဟာ Null Hypothesis ကို ပယ်ချပါတယ်။
P ≥ 0.05:
p-value က 0.05 သို့မဟုတ် ဒီထက် ကြီးရင်၊ ရလဒ်ကို ကိန်းဂဏန်းအရ အရေးမပါဘူးလို့ သတ်မှတ်ပြီး H0 ကို ပယ်ချဖို့ ပျက်ကွက်ပါတယ်။
၂။ Statistical Test အမျိုးမျိုးတွင် P-Value သုံးသပ်ခြင်း
P-value တွေဟာ t-test၊ ANOVA (Analysis of Variance)၊ Regression analysis၊ Chi-square စတဲ့ စာရင်းအင်း စမ်းသပ်မှု နည်းလမ်းအမျိုးမျိုးကနေ ထွက်ပေါ်လာတာဖြစ်ပြီး၊ ဘယ်လိုပဲ တွက်ချက်ထားသည်ဖြစ်စေ၊ အထက်ပါ Null Hypothesis ကို ဆုံးဖြတ်ခြင်း သဘောတရားကိုသာ အသုံးပြုပါတယ်။
T-test:
ဥပမာ၊ အုပ်စုနှစ်ခုရဲ့ ပျမ်းမျှ (means) ကွာခြားမှုကို စမ်းသပ်တဲ့ t-test မှာ p < 0.05 ရရင်၊ အုပ်စုနှစ်ခုကြားက ကွာခြားချက်ဟာ ကံမကောင်းလို့ ဖြစ်လာတာ မဟုတ်ဘဲ တကယ်ကို ထူးခြားတဲ့ ကွာခြားချက် ရှိတယ်လို့ ကောက်ချက်ချပါတယ်။
Regression Analysis:
Regression မှာ p < 0.05 ရရင်၊ လေ့လာနေတဲ့ တွန်းအားပေးအကြောင်းအရာ (predictor) ဟာ ရလဒ် (outcome) နဲ့ သိသိသာသာ ဆက်စပ်မှုရှိတယ် လို့ ဆိုလိုပါတယ်။
၃။ P-Value ကို အနက်ဖွင့်ဆိုရာတွင် သတိပြုရမည့် အဓိက အမှားများ (Pitfalls)
P-value ကို အနက်ဖွင့်ဆိုရာမှာ သုတေသီတွေ ကျူးလွန်လေ့ရှိတဲ့ အမှားများစွာ ရှိပါတယ်။ ဒါတွေကို သတိထားဖို့ အလွန်အရေးကြီးပါတယ်။
(က) ကိန်းဂဏန်းအရ အရေးပါမှုသည် လက်တွေ့အရ အရေးပါမှု မဟုတ်ပါ (Statistical vs. Clinical Significance)။ ဒီအချက်က အတွေ့ရအများဆုံး မှားယွင်းမှုပါ။
ပြဿနာ:
p < 0.05 ဖြစ်တာနဲ့ တွေ့ရှိချက်ဟာ လက်တွေ့နယ်ပယ်မှာ အရေးပါတဲ့ အပြောင်းအလဲ ကို ဖြစ်စေတယ်လို့ မဆိုလိုပါဘူး။ စာရင်းအင်းအရ p တန်ဖိုး နည်းနေနိုင်ပေမဲ့၊ အကျိုးသက်ရောက်မှုရဲ့ အရွယ်အစား (Effect Size) က သိပ်သေးငယ်နေပြီး လက်တွေ့ကျတဲ့ အသုံးချမှုအတွက် အဓိပ္ပာယ်မဲ့နေနိုင်ပါတယ်။
ရှောင်ရန်:
သုတေသီဟာ ရလဒ်ရဲ့ အကျိုးသက်ရောက်မှု အရွယ်အစား (Effect Size) ကို ကြည့်ရှုပြီး၊ ဒီအကျိုးသက်ရောက်မှုဟာ လက်တွေ့လောကမှာ ဘယ်လောက်အထိ အရေးပါသလဲ (Clinical Significance) ဆိုတာကိုပါ သုံးသပ်သင့်ပါတယ်။
(ခ) အရေးမပါမှုသည် မရှိခြင်း၏ သက်သေ မဟုတ်ပါ (Absence of Evidence is not Evidence of Absence)
ပြဿနာ:
p ≥ 0.05 ဆိုတာ Null Hypothesis ကို ပယ်ချဖို့ ပျက်ကွက်တယ်လို့ ဆိုလိုတာပါ။ ဒါပေမဲ့ အကျိုးသက်ရောက်မှု လုံးဝမရှိဘူး လို့တော့ အဓိပ္ပာယ်မဖွင့်ပါနဲ့။
Type II Error:
အကျိုးသက်ရောက်မှုက အမှန်တကယ် ရှိနေပေမဲ့၊ လေ့လာမှုက ဒါကို ထောက်လှမ်းနိုင်စွမ်း မရှိခဲ့တာလည်း ဖြစ်နိုင်ပါတယ်။ ဒါကို Type II Error (false negative) လို့ခေါ်ပါတယ်။
Statistical Power အားနည်းခြင်း:
Type II Error အများစုဟာ လေ့လာမှုရဲ့ Statistical Power နည်းပါးခြင်း (အထူးသဖြင့် နမူနာ အရွယ်အစား (sample size) သေးငယ်ခြင်း) ကြောင့် ဖြစ်ပါတယ်။ သုတေသီများဟာ ဒီလို အမှားမျိုးကို ရှောင်ရှားဖို့အတွက် 0.80 ဒါမှမဟုတ် ဒီထက်ကြီးတဲ့ Statistical Power ကို ရရှိဖို့ ရည်မှန်းသင့်ပါတယ်။
(ဂ) အချက်အလက်များ တူးဆွခြင်းနှင့် P-Hacking (Data Dredging / Multiple Comparisons)
ပြဿနာ:
အကယ်၍ သုတေသီတစ်ဦးက အချက်အလက် (data) တွေထဲက ဆက်စပ်မှုတွေ ရှာတွေ့ဖို့အတွက် စာရင်းအင်း စမ်းသပ်မှုပေါင်း များစွာကို မူလက ကြိုတင်စီစဉ်ထားခြင်းမရှိဘဲ လုပ်ဆောင်မယ်ဆိုရင် (data dredging သို့မဟုတ် fishing expedition)၊ ဒါဟာ မှားယွင်းတဲ့ အဖြေ မှန်တစ်ခု (false positive finding) ကို တွေ့ရှိနိုင်ခြေကို များစွာ မြင့်တက်စေပါတယ်။ ဒီလို မှားယွင်းမှုကို experiment-wise error လို့ခေါ်ပါတယ်။
ရှောင်ရန်:
စာရင်းအင်း ခွဲခြမ်းစိတ်ဖြာမှုများ များပြားလာတဲ့အခါ၊ p-value သတ်မှတ်ချက်ကို Bonferroni Correction လိုမျိုး နည်းလမ်းတွေနဲ့ ချိန်ညှိပြီး p-value ကို လျှော့ချဖို့ လိုအပ်ပါတယ် (ဥပမာ- စမ်းသပ်မှု ၄ ခု လုပ်ရင် 0.05 ကို ၄ နဲ့ စားပြီး 0.0125 မှသာ significant လို့ သတ်မှတ်တာမျိုးပါ)။
(ဃ) ကိန်းဂဏန်းတစ်ခုတည်းအပေါ် လွန်ကဲစွာ အာရုံစိုက်ခြင်း
ပြဿနာ:
ရရှိလာတဲ့ p-value သို့မဟုတ် point estimate (ရလဒ်ရဲ့ တန်ဖိုးတစ်ခုတည်း၊ ဥပမာ- regression coefficient) ပေါ်မှာသာ အာရုံစိုက်ပြီး၊ ယုံကြည်မှုကြားကာလ (confidence intervals) ကဲ့သို့သော မရေရာမှု (uncertainty) တွေကို လျစ်လျူရှုတာဟာ မှားယွင်းတဲ့ အနက်ဖွင့်ဆိုချက်ကို ဦးတည်စေပါတယ်။
ရှောင်ရန်:
p-value ကို ဖော်ပြတဲ့အခါတိုင်း၊ ရလဒ်ရဲ့ မရေရာမှု အတိုင်းအတာကို ဖော်ပြတဲ့ confidence intervals ကိုပါ အမြဲတမ်း တွဲပြီး သုံးသပ်သင့်ပါတယ်။
၄။ ကောက်ချက်ချခြင်း
ပြောရမယ်ဆိုရင် p-value ဟာ သုတေသန ရလဒ်တွေကို Null Hypothesis ရဲ့ ဘောင်အတွင်းကနေ ကိန်းဂဏန်းအမြင်အရ ဘယ်လောက်ယုံကြည်စိတ်ချရလဲ ဆိုတာကို ပြောပြတဲ့ အရေးကြီးတဲ့ ကိရိယာတစ်ခုပါပဲ။ သို့သော်လည်း၊ p-value တစ်ခုတည်းကိုသာ အားကိုးခြင်းဟာ စာရင်းအင်း သုံးသပ်မှုရဲ့ အရည်အသွေးကို ထိခိုက်စေနိုင်တဲ့အတွက်၊ သုတေသီများအနေဖြင့် Effect Size၊ Statistical Power နှင့် လက်တွေ့ဘဝ အသုံးချနိုင်မှု တို့ကိုပါ တွဲဖက်သုံးသပ်ဖို့ လိုအပ်ပါတယ်။
နပေတိုး
Discover more from naywinaung
Subscribe to get the latest posts sent to your email.