naywinaung blog,research Selection of Appropriate Statistical Methods for Data Analysis

Selection of Appropriate Statistical Methods for Data Analysis

ဒေတာ ခွဲခြမ်းစိတ်ဖြာဖို့ သင့်တော်တဲ့ Statistical Methods ဘယ်လို ရွေးမလဲ

ဒေတာတွေကို ခွဲခြမ်းစိတ်ဖြာတဲ့ အလုပ်မှာ statistical method မှန်မှန်ကန်ကန် ရွေးတာက အဓိကဖြစ်ပါတယ်။ သုတေသီပဲဖြစ်ဖြစ်၊ ဒေတာနဲ့ ကစားတတ်တဲ့ သူပဲဖြစ်ဖြစ်၊ ကျောင်းသားပဲဖြစ်ဖြစ်၊ ဘယ်နည်းကို သုံးမလဲဆိုတာက ကိုယ့်ရဲ့ အဖြေတွေ ယုံကြည်ရလောက်၊မရလောက် ဆုံးဖြတ်ပေးနိုင်ပါတယ်။ ဒီဆောင်းပါးမှာ ဒီ method တွေကို ဘယ်လို စနစ်တကျ ရွေးရမလဲဆိုတာကို ပြောပြချင်ပါတယ်။

ပထမဆုံး ကိုယ်ဘာလုပ်ချင်တာလဲဆိုတာ ရှင်းရှင်းလင်းလင်း သိရပါမယ်။ ဒေတာကို အကျဉ်းချုပ်ပြချင်တာလား၊ အုပ်စုတွေ နှိုင်းယှဉ်ကြည့်ချင်တာလား၊ နောက်ကို ဘာဖြစ်မလဲ ခန့်မှန်းကြည့်ချင်တာလား၊ ဒါမှမဟုတ် ဒီဟာနဲ့ ဟိုဟာ ဆက်စပ်မှု ရှိမရှိ သိချင်တာလား။ ဥပမာ၊ လူတွေရဲ့ ပျမ်းမျှဝင်ငွေ ဘယ်လောက်လဲဆိုတာ သိချင်ရင် descriptive statistics လိုပါမယ်။ ကျား/မ စာမေးပွဲအမှတ်တွေ တူသလား မတူသလား ကြည့်ချင်ရင် နှိုင်းယှဉ်တဲ့ နည်းတွေ လိုပါမယ်။ အသက်က ကျန်းမာရေးကို ခန့်မှန်းပြလို့ရလား ဆိုရင် prediction လုပ်မယ့် နည်းလမ်းတွေ လိုပါမယ်။ ဆေးလိပ်သောက်တာနဲ့ အဆုတ်ကင်ဆာ ဆက်သွယ်မှု ရှိလားဆိုတာ သိချင်ရင်လည်း ဆက်စပ်မှုဆိုင်ရာ စာရင်းအင်းတွက်ချက်မှုတွေ လိုပါမယ်။ ကိုယ်ဘာလုပ်ချင်လဲဆိုတဲ့ အချက်က ကိုယ်သုံးရမယ့် ကိရိယာကို ညွှန်ပြပေးလေ့ရှိပါတယ်။

ဒုတိယအနေနဲ့ ကိုယ်မှာ ဘယ်လို ဒေတာရှိလဲဆိုတာ ကြည့်ရပါမယ်။ ဒေတာက အမျိုးအစားခွဲထားတာမျိုး (ဥပမာ၊ ကျား/မ ဒါမှမဟုတ် ပညာအဆင့်—နိမ့်၊ အလယ်၊ မြင့်) ဖြစ်နိုင်ပါတယ်။ ဂဏန်းနဲ့ဆိုရင်လည်း သီးခြားရေတွက်လို့ရတာမျိုး (ဥပမာ၊ ကလေးအရေအတွက်) ဒါမှမဟုတ် ဆက်တိုက်တိုင်းလို့ရတာမျိုး (ဥပမာ၊ အရပ်၊ အလေးချိန်) ဖြစ်နိုင်ပါတယ်။ အမျိုးအစားခွဲထားတဲ့ ဒေတာဆိုရင် Chi-Square လို နည်းတွေ သုံးရပါမယ်။ ဂဏန်းနဲ့ဆိုရင် t-test တို့ correlation တို့ သုံးသင့်ပါတယ်။ ဒါ့အပြင် ဒေတာဘယ်နှစ်ခုနဲ့ လုပ်မလဲဆိုတာလည်း ကြည့်ရပါမယ်။ တစ်ခုတည်းဆိုရင် univariate၊ နှစ်ခုဆိုရင် bivariate၊ အများကြီးဆိုရင် multivariate ဖြစ်ပြီး တစ်ခုချင်းစီမှာ regression တို့ factor analysis တို့လို သူ့ဟာနဲ့သူ လိုအပ်ချက်တွေရှိပါတယ်။

တတိယအားဖြင့် ကိုယ်ဒေတာကို ဘယ်လိုစုဆောင်းထားလဲဆိုတဲ့ study design ကို ကြည့်ရပါမယ်။ ဆေးစမ်းသပ်မှုလို experimental ဆိုရင် ဒေတာကို ထိန်းချုပ်ပြီး ပြောင်းလဲတာမျိုးဖြစ်ပြီး ANOVA လို နည်းတွေ သုံးလို့ရပါတယ်။ စစ်တမ်းလို observational ဆိုရင် ထိန်းချုပ်တာမရှိဘဲ ကြည့်ရုံပဲမို့ regression လို နည်းတွေက ပိုအဆင်ပြေပါတယ်။ ဒေတာကို တစ်ခါတည်းပဲ စုထားတာလား (cross-sectional)၊ အချိန်ကြာကြာ စောင့်ကြည့်ထားတာလား (longitudinal) ဆိုတာကလည်း ဘာသုံးမလဲ ဆိုတာကို ဆုံးဖြတ်ပေးပါတယ်။

အရေးကြီးတဲ့ အဆင့်တစ်ခုကတော့ ဒေတာက ဘယ်လိုဖြန့်ကျက်နေလဲ၊ ကိုယ်သုံးစွဲမဲ့ နည်းလမ်းရဲ့ ယူဆချက်တွေနဲ့ ကိုက်လား ဆိုတာ စစ်ရပါမယ်။ t-test တို့ ANOVA တို့လို parametric method တွေက ဒေတာကို normal ဖြစ်ရမယ်လို့ ယူဆထားရပါမယ်။ Histogram တို့ Shapiro-Wilk test တို့နဲ့ စစ်ကြည့်လို့ရပါတယ်။ ဒေတာက skewed  ဖြစ်နေတယ်၊ စောင်းနေတယ်၊ normal မဟုတ်ဘူးဆိုရင် Mann-Whitney U တို့ Kruskal-Wallis တို့လို non-parametric နည်းတွေက ပိုကောင်းပါတယ်။ ဒါ့အပြင် ပြောင်းလဲမှု တူညီမှု (homogeneity of variance) တို့၊ ဒေတာတွေ တစ်ခုနဲ့တစ်ခု လွတ်လပ်မှု (independence) ရှိ၊ မရှိတို့ကိုလည်း စစ်ရပါမယ်။

ဒီအချက်တွေကို ကြည့်ပြီးရင် ဘယ် method သုံးမလဲ ရွေးလို့ရပါပြီ။ Descriptive statistics ဆိုရင် mean, median, standard deviation တို့နဲ့ ဒေတာကို အကျဉ်းချုပ်လို့ရပါတယ်။ အုပ်စုနှစ်ခုကို နှိုင်းချင်ရင် t-test၊ အုပ်စုများတယ်ဆိုရင် ANOVA သုံးလို့ရပါတယ်။ ဒေတာနှစ်ခုကြား ဆက်စပ်မှု ကြည့်ချင်ရင် ဂဏန်းဆိုရင် Pearson တို့ Spearman တို့၊ အမျိုးအစားခွဲထားတာဆိုရင် Chi-Square တို့ Cramer’s V တို့ သုံးလို့ရပါတယ်။ ခန့်မှန်းချင်ရင် linear regression က ဆက်တိုက်ရလဒ်အတွက် သင့်တော်ပြီး၊ logistic regression က ဟုတ်/မဟုတ် ရလဒ်အတွက် အဆင်ပြေပါတယ်။ ဒေတာအများကြီးဆိုရင် multiple regression တို့ MANOVA တို့ သုံးလို့ရပါတယ်။

နမူနာပမာဏ(sample size) ကိုလည်း ထည့်စဉ်းစားရပါမယ်။ နမူနာနည်းရင် parametric နည်းတွေက အားနည်းနိုင်လို့ non-parametric ကို သုံးတာ ပိုကောင်းပါတယ်။ နမူနာများရင် ယူဆချက်တချို့ အနည်းငယ် မမှန်ရင်တောင် parametric နည်းတွေ သုံးလို့ရပါတယ်။ နောက်ဆုံး၊ ရလဒ်တွေကို residual plots တို့ အခြား နည်းတွေနဲ့ ထပ်စစ်ကြည့်ပြီး အဆင်ပြေမပြေ သေချာအောင် လုပ်သင့်ပါတယ်။

ဥပမာအနေနဲ့ နည်းနည်းပြောရရင်—ကျား/မ စာမေးပွဲအမှတ်တွေ နှိုင်းချင်ရင် ဒေတာ normal ဆိုရင် t-test၊ မဟုတ်ရင် Mann-Whitney U သုံးလို့ရပါတယ်။ ပညာအဆင့်နဲ့ ဝင်ငွေ ဆက်စပ်မှု ကြည့်ချင်ရင် Spearman က အဆင်ပြေပါတယ်။ အသက်နဲ့ ဆေးလိပ်သောက်တာက ရောဂါရှိမရှိ ခန့်မှန်းချင်ရင် logistic regression က အကောင်းဆုံးပါ။ ဒီလို ရည်မှန်းချက်၊ ဒေတာအမျိုးအစား၊ ဒီဇိုင်း၊ ယူဆချက်တွေ၊ နဲ့ စစ်ဆေးမှုတွေကို တစ်ဆင့်ချင်း ကြည့်ရင် ကိုယ်သုံးရမယ့် နည်းကို ယုံယုံကြည်ကြည် ရွေးလို့ရပါပြီ။

အနှစ်ချုပ်ရရင်၊ မှန်ကန်တဲ့ statistical method ရွေးတာက တစ်ကြိမ်တစ်ခါတည်းနဲ့ မပြီးနိုင်ပါဘူး။ ကိုယ်ဒေတာနဲ့ ဘာလုပ်ချင်တာလဲဆိုတာကိုသိရပါမယ်။ ကိုယ်လိုချင်တာနဲ့ ကိုယ်စမ်းသပ်စစ်ဆေးတဲ့ နည်းလမ်း ကိုက်ညီမှုရှိ မရှိ သိရပါမယ်။ဒီလို စနစ်တကျ လုပ်ရင် ဒေတာ ခွဲခြမ်းစိတ်ဖြာတာက ခက်ခဲတဲ့အလုပ်ကြီးမဟုတ်တော့ဘဲ အမှန်တရားကို တိကျစွာ ဖော်ထုတ်ပေးတဲ့ နည်းလမ်းတစ်ခု ဖြစ်လာပါလိမ့်မယ်။

ဒေါက်တာနေ


Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

Universal Health Coverage (UHC) အကြောင်းUniversal Health Coverage (UHC) အကြောင်း

Universal Health Coverage (UHC) အကြောင်း အသေးစိတ် ပြောပြချင်ပါတယ်။ မိတ်ဆွေ၊ Universal Health Coverage (UHC) ဆိုတာက ကျန်းမာရေးကဏ္ဍမှာ ကမ္ဘာ့အဆင့် မူဝါဒချမှတ်သူတွေ၊ နိုင်ငံတကာ အဖွဲ့အစည်းတွေ အာရုံစိုက်နေတဲ့ အရေးအကြီးဆုံး အကြောင်းအရာတစ်ခုပါပဲ။ WHO (ကမ္ဘာ့ကျန်းမာရေးအဖွဲ့) က အဓိပ္ပာယ်ဖွင့်ဆိုထားတာကတော့ လူတိုင်းဟာ မိမိတို့ လိုအပ်တဲ့ အရည်အသွေးရှိ ကျန်းမာရေး

Data transform in regressionData transform in regression

Regression မှာ Data Transform ဘာကြောင့် လုပ်သင့်သလဲ၊ ဘယ်လိုလုပ်မလဲRegression analysis မှာ assumption တွေဖြစ်တဲ့ linearity, homoscedasticity, normality of residuals စတဲ့ အချက်တွေကို ပိုကောင်းစေဖို့အတွက် data တွေ ကို transform လုပ်ကြရပါတယ်။ များသောအားဖြင့် data အမျိုးအစားတွေကို ကြည့်ပြီး နည်းလမ်း ၁၁

DMAICDMAIC

#DMAIC#Processမည်သည့် ကုန်ထုတ်လုပ်မှုနှင့် ဝန်ဆောင်မှုမျိုးမဆို စဉ်ဆက်မပြတ် တိုးတက်နေဖို့ လိုအပ်ပါတယ်။ ဒီလို ဖွံ့ဖြိုးတိုးတက်မှုမျိုးကို ရရှိစေဖို့ဆိုရင် Input, process, output မှန်ကန်နေဖို့လိုအပ်ပါတယ်။ တကယ်လို့ လုပ်ငန်းစဉ်ထဲမှာ ချို့ယွင်းချက်တွေရှိနေခဲ့ရင် ဖွံ့ဖြိုးတိုးတက်မှုတွေက တုံ့နှေးသွားလေ့ရှိပါတယ်။ ဒါကြောင့် DMAIC Model ကို အသုံးပြုကြလေ့ရှိပါတယ်။ ဒါကြောင့် ဗဟုသုတအနေနှင့် DMAIC မော်ဒယ် (DMAIC Model) အကြောင်းကို