ဒေတာ ခွဲခြမ်းစိတ်ဖြာဖို့ သင့်တော်တဲ့ Statistical Methods ဘယ်လို ရွေးမလဲ
ဒေတာတွေကို ခွဲခြမ်းစိတ်ဖြာတဲ့ အလုပ်မှာ statistical method မှန်မှန်ကန်ကန် ရွေးတာက အဓိကဖြစ်ပါတယ်။ သုတေသီပဲဖြစ်ဖြစ်၊ ဒေတာနဲ့ ကစားတတ်တဲ့ သူပဲဖြစ်ဖြစ်၊ ကျောင်းသားပဲဖြစ်ဖြစ်၊ ဘယ်နည်းကို သုံးမလဲဆိုတာက ကိုယ့်ရဲ့ အဖြေတွေ ယုံကြည်ရလောက်၊မရလောက် ဆုံးဖြတ်ပေးနိုင်ပါတယ်။ ဒီဆောင်းပါးမှာ ဒီ method တွေကို ဘယ်လို စနစ်တကျ ရွေးရမလဲဆိုတာကို ပြောပြချင်ပါတယ်။
ပထမဆုံး ကိုယ်ဘာလုပ်ချင်တာလဲဆိုတာ ရှင်းရှင်းလင်းလင်း သိရပါမယ်။ ဒေတာကို အကျဉ်းချုပ်ပြချင်တာလား၊ အုပ်စုတွေ နှိုင်းယှဉ်ကြည့်ချင်တာလား၊ နောက်ကို ဘာဖြစ်မလဲ ခန့်မှန်းကြည့်ချင်တာလား၊ ဒါမှမဟုတ် ဒီဟာနဲ့ ဟိုဟာ ဆက်စပ်မှု ရှိမရှိ သိချင်တာလား။ ဥပမာ၊ လူတွေရဲ့ ပျမ်းမျှဝင်ငွေ ဘယ်လောက်လဲဆိုတာ သိချင်ရင် descriptive statistics လိုပါမယ်။ ကျား/မ စာမေးပွဲအမှတ်တွေ တူသလား မတူသလား ကြည့်ချင်ရင် နှိုင်းယှဉ်တဲ့ နည်းတွေ လိုပါမယ်။ အသက်က ကျန်းမာရေးကို ခန့်မှန်းပြလို့ရလား ဆိုရင် prediction လုပ်မယ့် နည်းလမ်းတွေ လိုပါမယ်။ ဆေးလိပ်သောက်တာနဲ့ အဆုတ်ကင်ဆာ ဆက်သွယ်မှု ရှိလားဆိုတာ သိချင်ရင်လည်း ဆက်စပ်မှုဆိုင်ရာ စာရင်းအင်းတွက်ချက်မှုတွေ လိုပါမယ်။ ကိုယ်ဘာလုပ်ချင်လဲဆိုတဲ့ အချက်က ကိုယ်သုံးရမယ့် ကိရိယာကို ညွှန်ပြပေးလေ့ရှိပါတယ်။
ဒုတိယအနေနဲ့ ကိုယ်မှာ ဘယ်လို ဒေတာရှိလဲဆိုတာ ကြည့်ရပါမယ်။ ဒေတာက အမျိုးအစားခွဲထားတာမျိုး (ဥပမာ၊ ကျား/မ ဒါမှမဟုတ် ပညာအဆင့်—နိမ့်၊ အလယ်၊ မြင့်) ဖြစ်နိုင်ပါတယ်။ ဂဏန်းနဲ့ဆိုရင်လည်း သီးခြားရေတွက်လို့ရတာမျိုး (ဥပမာ၊ ကလေးအရေအတွက်) ဒါမှမဟုတ် ဆက်တိုက်တိုင်းလို့ရတာမျိုး (ဥပမာ၊ အရပ်၊ အလေးချိန်) ဖြစ်နိုင်ပါတယ်။ အမျိုးအစားခွဲထားတဲ့ ဒေတာဆိုရင် Chi-Square လို နည်းတွေ သုံးရပါမယ်။ ဂဏန်းနဲ့ဆိုရင် t-test တို့ correlation တို့ သုံးသင့်ပါတယ်။ ဒါ့အပြင် ဒေတာဘယ်နှစ်ခုနဲ့ လုပ်မလဲဆိုတာလည်း ကြည့်ရပါမယ်။ တစ်ခုတည်းဆိုရင် univariate၊ နှစ်ခုဆိုရင် bivariate၊ အများကြီးဆိုရင် multivariate ဖြစ်ပြီး တစ်ခုချင်းစီမှာ regression တို့ factor analysis တို့လို သူ့ဟာနဲ့သူ လိုအပ်ချက်တွေရှိပါတယ်။
တတိယအားဖြင့် ကိုယ်ဒေတာကို ဘယ်လိုစုဆောင်းထားလဲဆိုတဲ့ study design ကို ကြည့်ရပါမယ်။ ဆေးစမ်းသပ်မှုလို experimental ဆိုရင် ဒေတာကို ထိန်းချုပ်ပြီး ပြောင်းလဲတာမျိုးဖြစ်ပြီး ANOVA လို နည်းတွေ သုံးလို့ရပါတယ်။ စစ်တမ်းလို observational ဆိုရင် ထိန်းချုပ်တာမရှိဘဲ ကြည့်ရုံပဲမို့ regression လို နည်းတွေက ပိုအဆင်ပြေပါတယ်။ ဒေတာကို တစ်ခါတည်းပဲ စုထားတာလား (cross-sectional)၊ အချိန်ကြာကြာ စောင့်ကြည့်ထားတာလား (longitudinal) ဆိုတာကလည်း ဘာသုံးမလဲ ဆိုတာကို ဆုံးဖြတ်ပေးပါတယ်။
အရေးကြီးတဲ့ အဆင့်တစ်ခုကတော့ ဒေတာက ဘယ်လိုဖြန့်ကျက်နေလဲ၊ ကိုယ်သုံးစွဲမဲ့ နည်းလမ်းရဲ့ ယူဆချက်တွေနဲ့ ကိုက်လား ဆိုတာ စစ်ရပါမယ်။ t-test တို့ ANOVA တို့လို parametric method တွေက ဒေတာကို normal ဖြစ်ရမယ်လို့ ယူဆထားရပါမယ်။ Histogram တို့ Shapiro-Wilk test တို့နဲ့ စစ်ကြည့်လို့ရပါတယ်။ ဒေတာက skewed ဖြစ်နေတယ်၊ စောင်းနေတယ်၊ normal မဟုတ်ဘူးဆိုရင် Mann-Whitney U တို့ Kruskal-Wallis တို့လို non-parametric နည်းတွေက ပိုကောင်းပါတယ်။ ဒါ့အပြင် ပြောင်းလဲမှု တူညီမှု (homogeneity of variance) တို့၊ ဒေတာတွေ တစ်ခုနဲ့တစ်ခု လွတ်လပ်မှု (independence) ရှိ၊ မရှိတို့ကိုလည်း စစ်ရပါမယ်။
ဒီအချက်တွေကို ကြည့်ပြီးရင် ဘယ် method သုံးမလဲ ရွေးလို့ရပါပြီ။ Descriptive statistics ဆိုရင် mean, median, standard deviation တို့နဲ့ ဒေတာကို အကျဉ်းချုပ်လို့ရပါတယ်။ အုပ်စုနှစ်ခုကို နှိုင်းချင်ရင် t-test၊ အုပ်စုများတယ်ဆိုရင် ANOVA သုံးလို့ရပါတယ်။ ဒေတာနှစ်ခုကြား ဆက်စပ်မှု ကြည့်ချင်ရင် ဂဏန်းဆိုရင် Pearson တို့ Spearman တို့၊ အမျိုးအစားခွဲထားတာဆိုရင် Chi-Square တို့ Cramer’s V တို့ သုံးလို့ရပါတယ်။ ခန့်မှန်းချင်ရင် linear regression က ဆက်တိုက်ရလဒ်အတွက် သင့်တော်ပြီး၊ logistic regression က ဟုတ်/မဟုတ် ရလဒ်အတွက် အဆင်ပြေပါတယ်။ ဒေတာအများကြီးဆိုရင် multiple regression တို့ MANOVA တို့ သုံးလို့ရပါတယ်။
နမူနာပမာဏ(sample size) ကိုလည်း ထည့်စဉ်းစားရပါမယ်။ နမူနာနည်းရင် parametric နည်းတွေက အားနည်းနိုင်လို့ non-parametric ကို သုံးတာ ပိုကောင်းပါတယ်။ နမူနာများရင် ယူဆချက်တချို့ အနည်းငယ် မမှန်ရင်တောင် parametric နည်းတွေ သုံးလို့ရပါတယ်။ နောက်ဆုံး၊ ရလဒ်တွေကို residual plots တို့ အခြား နည်းတွေနဲ့ ထပ်စစ်ကြည့်ပြီး အဆင်ပြေမပြေ သေချာအောင် လုပ်သင့်ပါတယ်။
ဥပမာအနေနဲ့ နည်းနည်းပြောရရင်—ကျား/မ စာမေးပွဲအမှတ်တွေ နှိုင်းချင်ရင် ဒေတာ normal ဆိုရင် t-test၊ မဟုတ်ရင် Mann-Whitney U သုံးလို့ရပါတယ်။ ပညာအဆင့်နဲ့ ဝင်ငွေ ဆက်စပ်မှု ကြည့်ချင်ရင် Spearman က အဆင်ပြေပါတယ်။ အသက်နဲ့ ဆေးလိပ်သောက်တာက ရောဂါရှိမရှိ ခန့်မှန်းချင်ရင် logistic regression က အကောင်းဆုံးပါ။ ဒီလို ရည်မှန်းချက်၊ ဒေတာအမျိုးအစား၊ ဒီဇိုင်း၊ ယူဆချက်တွေ၊ နဲ့ စစ်ဆေးမှုတွေကို တစ်ဆင့်ချင်း ကြည့်ရင် ကိုယ်သုံးရမယ့် နည်းကို ယုံယုံကြည်ကြည် ရွေးလို့ရပါပြီ။
အနှစ်ချုပ်ရရင်၊ မှန်ကန်တဲ့ statistical method ရွေးတာက တစ်ကြိမ်တစ်ခါတည်းနဲ့ မပြီးနိုင်ပါဘူး။ ကိုယ်ဒေတာနဲ့ ဘာလုပ်ချင်တာလဲဆိုတာကိုသိရပါမယ်။ ကိုယ်လိုချင်တာနဲ့ ကိုယ်စမ်းသပ်စစ်ဆေးတဲ့ နည်းလမ်း ကိုက်ညီမှုရှိ မရှိ သိရပါမယ်။ဒီလို စနစ်တကျ လုပ်ရင် ဒေတာ ခွဲခြမ်းစိတ်ဖြာတာက ခက်ခဲတဲ့အလုပ်ကြီးမဟုတ်တော့ဘဲ အမှန်တရားကို တိကျစွာ ဖော်ထုတ်ပေးတဲ့ နည်းလမ်းတစ်ခု ဖြစ်လာပါလိမ့်မယ်။
ဒေါက်တာနေ