Selection of Appropriate Statistical Methods for Data Analysis

ဒေတာ ခွဲခြမ်းစိတ်ဖြာဖို့ သင့်တော်တဲ့ Statistical Methods ဘယ်လို ရွေးမလဲ

ဒေတာတွေကို ခွဲခြမ်းစိတ်ဖြာတဲ့ အလုပ်မှာ statistical method မှန်မှန်ကန်ကန် ရွေးတာက အဓိကဖြစ်ပါတယ်။ သုတေသီပဲဖြစ်ဖြစ်၊ ဒေတာနဲ့ ကစားတတ်တဲ့ သူပဲဖြစ်ဖြစ်၊ ကျောင်းသားပဲဖြစ်ဖြစ်၊ ဘယ်နည်းကို သုံးမလဲဆိုတာက ကိုယ့်ရဲ့ အဖြေတွေ ယုံကြည်ရလောက်၊မရလောက် ဆုံးဖြတ်ပေးနိုင်ပါတယ်။ ဒီဆောင်းပါးမှာ ဒီ method တွေကို ဘယ်လို စနစ်တကျ ရွေးရမလဲဆိုတာကို ပြောပြချင်ပါတယ်။

ပထမဆုံး ကိုယ်ဘာလုပ်ချင်တာလဲဆိုတာ ရှင်းရှင်းလင်းလင်း သိရပါမယ်။ ဒေတာကို အကျဉ်းချုပ်ပြချင်တာလား၊ အုပ်စုတွေ နှိုင်းယှဉ်ကြည့်ချင်တာလား၊ နောက်ကို ဘာဖြစ်မလဲ ခန့်မှန်းကြည့်ချင်တာလား၊ ဒါမှမဟုတ် ဒီဟာနဲ့ ဟိုဟာ ဆက်စပ်မှု ရှိမရှိ သိချင်တာလား။ ဥပမာ၊ လူတွေရဲ့ ပျမ်းမျှဝင်ငွေ ဘယ်လောက်လဲဆိုတာ သိချင်ရင် descriptive statistics လိုပါမယ်။ ကျား/မ စာမေးပွဲအမှတ်တွေ တူသလား မတူသလား ကြည့်ချင်ရင် နှိုင်းယှဉ်တဲ့ နည်းတွေ လိုပါမယ်။ အသက်က ကျန်းမာရေးကို ခန့်မှန်းပြလို့ရလား ဆိုရင် prediction လုပ်မယ့် နည်းလမ်းတွေ လိုပါမယ်။ ဆေးလိပ်သောက်တာနဲ့ အဆုတ်ကင်ဆာ ဆက်သွယ်မှု ရှိလားဆိုတာ သိချင်ရင်လည်း ဆက်စပ်မှုဆိုင်ရာ စာရင်းအင်းတွက်ချက်မှုတွေ လိုပါမယ်။ ကိုယ်ဘာလုပ်ချင်လဲဆိုတဲ့ အချက်က ကိုယ်သုံးရမယ့် ကိရိယာကို ညွှန်ပြပေးလေ့ရှိပါတယ်။

ဒုတိယအနေနဲ့ ကိုယ်မှာ ဘယ်လို ဒေတာရှိလဲဆိုတာ ကြည့်ရပါမယ်။ ဒေတာက အမျိုးအစားခွဲထားတာမျိုး (ဥပမာ၊ ကျား/မ ဒါမှမဟုတ် ပညာအဆင့်—နိမ့်၊ အလယ်၊ မြင့်) ဖြစ်နိုင်ပါတယ်။ ဂဏန်းနဲ့ဆိုရင်လည်း သီးခြားရေတွက်လို့ရတာမျိုး (ဥပမာ၊ ကလေးအရေအတွက်) ဒါမှမဟုတ် ဆက်တိုက်တိုင်းလို့ရတာမျိုး (ဥပမာ၊ အရပ်၊ အလေးချိန်) ဖြစ်နိုင်ပါတယ်။ အမျိုးအစားခွဲထားတဲ့ ဒေတာဆိုရင် Chi-Square လို နည်းတွေ သုံးရပါမယ်။ ဂဏန်းနဲ့ဆိုရင် t-test တို့ correlation တို့ သုံးသင့်ပါတယ်။ ဒါ့အပြင် ဒေတာဘယ်နှစ်ခုနဲ့ လုပ်မလဲဆိုတာလည်း ကြည့်ရပါမယ်။ တစ်ခုတည်းဆိုရင် univariate၊ နှစ်ခုဆိုရင် bivariate၊ အများကြီးဆိုရင် multivariate ဖြစ်ပြီး တစ်ခုချင်းစီမှာ regression တို့ factor analysis တို့လို သူ့ဟာနဲ့သူ လိုအပ်ချက်တွေရှိပါတယ်။

တတိယအားဖြင့် ကိုယ်ဒေတာကို ဘယ်လိုစုဆောင်းထားလဲဆိုတဲ့ study design ကို ကြည့်ရပါမယ်။ ဆေးစမ်းသပ်မှုလို experimental ဆိုရင် ဒေတာကို ထိန်းချုပ်ပြီး ပြောင်းလဲတာမျိုးဖြစ်ပြီး ANOVA လို နည်းတွေ သုံးလို့ရပါတယ်။ စစ်တမ်းလို observational ဆိုရင် ထိန်းချုပ်တာမရှိဘဲ ကြည့်ရုံပဲမို့ regression လို နည်းတွေက ပိုအဆင်ပြေပါတယ်။ ဒေတာကို တစ်ခါတည်းပဲ စုထားတာလား (cross-sectional)၊ အချိန်ကြာကြာ စောင့်ကြည့်ထားတာလား (longitudinal) ဆိုတာကလည်း ဘာသုံးမလဲ ဆိုတာကို ဆုံးဖြတ်ပေးပါတယ်။

အရေးကြီးတဲ့ အဆင့်တစ်ခုကတော့ ဒေတာက ဘယ်လိုဖြန့်ကျက်နေလဲ၊ ကိုယ်သုံးစွဲမဲ့ နည်းလမ်းရဲ့ ယူဆချက်တွေနဲ့ ကိုက်လား ဆိုတာ စစ်ရပါမယ်။ t-test တို့ ANOVA တို့လို parametric method တွေက ဒေတာကို normal ဖြစ်ရမယ်လို့ ယူဆထားရပါမယ်။ Histogram တို့ Shapiro-Wilk test တို့နဲ့ စစ်ကြည့်လို့ရပါတယ်။ ဒေတာက skewed ဖြစ်နေတယ်၊ စောင်းနေတယ်၊ normal မဟုတ်ဘူးဆိုရင် Mann-Whitney U တို့ Kruskal-Wallis တို့လို non-parametric နည်းတွေက ပိုကောင်းပါတယ်။ ဒါ့အပြင် ပြောင်းလဲမှု တူညီမှု (homogeneity of variance) တို့၊ ဒေတာတွေ တစ်ခုနဲ့တစ်ခု လွတ်လပ်မှု (independence) ရှိ၊ မရှိတို့ကိုလည်း စစ်ရပါမယ်။

ဒီအချက်တွေကို ကြည့်ပြီးရင် ဘယ် method သုံးမလဲ ရွေးလို့ရပါပြီ။ Descriptive statistics ဆိုရင် mean, median, standard deviation တို့နဲ့ ဒေတာကို အကျဉ်းချုပ်လို့ရပါတယ်။ အုပ်စုနှစ်ခုကို နှိုင်းချင်ရင် t-test၊ အုပ်စုများတယ်ဆိုရင် ANOVA သုံးလို့ရပါတယ်။ ဒေတာနှစ်ခုကြား ဆက်စပ်မှု ကြည့်ချင်ရင် ဂဏန်းဆိုရင် Pearson တို့ Spearman တို့၊ အမျိုးအစားခွဲထားတာဆိုရင် Chi-Square တို့ Cramer’s V တို့ သုံးလို့ရပါတယ်။ ခန့်မှန်းချင်ရင် linear regression က ဆက်တိုက်ရလဒ်အတွက် သင့်တော်ပြီး၊ logistic regression က ဟုတ်/မဟုတ် ရလဒ်အတွက် အဆင်ပြေပါတယ်။ ဒေတာအများကြီးဆိုရင် multiple regression တို့ MANOVA တို့ သုံးလို့ရပါတယ်။

နမူနာပမာဏ(sample size) ကိုလည်း ထည့်စဉ်းစားရပါမယ်။ နမူနာနည်းရင် parametric နည်းတွေက အားနည်းနိုင်လို့ non-parametric ကို သုံးတာ ပိုကောင်းပါတယ်။ နမူနာများရင် ယူဆချက်တချို့ အနည်းငယ် မမှန်ရင်တောင် parametric နည်းတွေ သုံးလို့ရပါတယ်။ နောက်ဆုံး၊ ရလဒ်တွေကို residual plots တို့ အခြား နည်းတွေနဲ့ ထပ်စစ်ကြည့်ပြီး အဆင်ပြေမပြေ သေချာအောင် လုပ်သင့်ပါတယ်။

ဥပမာအနေနဲ့ နည်းနည်းပြောရရင်—ကျား/မ စာမေးပွဲအမှတ်တွေ နှိုင်းချင်ရင် ဒေတာ normal ဆိုရင် t-test၊ မဟုတ်ရင် Mann-Whitney U သုံးလို့ရပါတယ်။ ပညာအဆင့်နဲ့ ဝင်ငွေ ဆက်စပ်မှု ကြည့်ချင်ရင် Spearman က အဆင်ပြေပါတယ်။ အသက်နဲ့ ဆေးလိပ်သောက်တာက ရောဂါရှိမရှိ ခန့်မှန်းချင်ရင် logistic regression က အကောင်းဆုံးပါ။ ဒီလို ရည်မှန်းချက်၊ ဒေတာအမျိုးအစား၊ ဒီဇိုင်း၊ ယူဆချက်တွေ၊ နဲ့ စစ်ဆေးမှုတွေကို တစ်ဆင့်ချင်း ကြည့်ရင် ကိုယ်သုံးရမယ့် နည်းကို ယုံယုံကြည်ကြည် ရွေးလို့ရပါပြီ။

အနှစ်ချုပ်ရရင်၊ မှန်ကန်တဲ့ statistical method ရွေးတာက တစ်ကြိမ်တစ်ခါတည်းနဲ့ မပြီးနိုင်ပါဘူး။ ကိုယ်ဒေတာနဲ့ ဘာလုပ်ချင်တာလဲဆိုတာကိုသိရပါမယ်။ ကိုယ်လိုချင်တာနဲ့ ကိုယ်စမ်းသပ်စစ်ဆေးတဲ့ နည်းလမ်း ကိုက်ညီမှုရှိ မရှိ သိရပါမယ်။ဒီလို စနစ်တကျ လုပ်ရင် ဒေတာ ခွဲခြမ်းစိတ်ဖြာတာက ခက်ခဲတဲ့အလုပ်ကြီးမဟုတ်တော့ဘဲ အမှန်တရားကို တိကျစွာ ဖော်ထုတ်ပေးတဲ့ နည်းလမ်းတစ်ခု ဖြစ်လာပါလိမ့်မယ်။

ဒေါက်တာနေ

Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Selection of Appropriate Statistical Methods for Data Analysis

Discover more from naywinaung

Leave a Reply Cancel reply

Related Post

Universal Health Coverage (UHC) အကြောင်းUniversal Health Coverage (UHC) အကြောင်း

Data transform in regressionData transform in regression

DMAICDMAIC