Descriptive Statistics

ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းပညာ (Descriptive Statistics)

နိဒါန်း

ကျွန်တော်တို့ဟာ သတင်းအချက်အလက်ခေတ်မှာ နေထိုင်ကြရပြီး၊ ကျန်းမာရေးသိပ္ပံနယ်ပယ်မှာဆိုရင် အချက်အလက် (data) ပုံစံနဲ့ ရောက်ရှိလာတဲ့ ကိန်းဂဏာန်းအချက်အလက်တွေဟာ အလွန်များပြား ရှုပ်ထွေးနိုင်ပါတယ်။ ဒီအချက်အလက်တွေထဲကနေ ဘယ်လို အဓိပ္ပာယ်ရှိတဲ့ သတင်းအချက်အလက် တွေကို ထုတ်ယူမလဲ၊ ဘယ်လို နားလည်အောင် စုစည်းဖော်ပြမလဲဆိုတာက အရေးကြီးတဲ့ အလုပ်ဖြစ်ပါတယ်။ ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းပညာ (Descriptive Statistics) ဟာ ဒီလိုအချက်အလက်အများအပြားကို စနစ်တကျ စုစည်းဖို့နဲ့ အကျဉ်းချုပ်ဖော်ပြဖို့အတွက် အခြေခံကျတဲ့ နည်းလမ်းတွေနဲ့ တိုင်းတာမှုတွေကို ပေးစွမ်းပါတယ်။

အချက်အလက်များ စနစ်တကျ စုစည်းခြင်း

အချက်အလက် (data) တွေကို စတင်လေ့လာတော့မယ် ဆိုရင် ပထမဆုံးလုပ်သင့်တဲ့အဆင့်တွေရှိပါတယ်။ အလွယ်ဆုံးနည်းလမ်းတစ်ခုကတော့ ရရှိထားတဲ့ အချက်အလက်တန်ဖိုးတွေကို အငယ်ဆုံးကနေ အကြီးဆုံးအထိ အစဉ်လိုက်စီပြီး “အစီအစဉ်လိုက် အခင်းအကျင်း (Ordered Array)” ပြုလုပ်တာပါ။ ဒီနည်းလမ်းက အချက်အလက်တွေထဲက အငယ်ဆုံးတန်ဖိုး (အနိမ့်ဆုံး) နဲ့ အကြီးဆုံးတန်ဖိုး (အမြင့်ဆုံး) ကို မြန်မြန်ဆန်ဆန် သိရှိနိုင်စေပါတယ်။
ပိုမိုများပြားတဲ့ အချက်အလက်တွေအတွက် ပိုမိုစနစ်ကျတဲ့ စုစည်းမှုကတော့ “ကြိမ်နှုန်း ဖြန့်ဝေမှု (Frequency Distribution)” ပြုလုပ်တာပါ။ ဒါက အချက်အလက်တန်ဖိုးတွေကို သင့်လျော်တဲ့ အုပ်စုတွေ (class intervals) အဖြစ် ခွဲခြားပြီး အုပ်စုတစ်ခုစီမှာ ဘယ်နှစ်ခုပါဝင်တယ်ဆိုတဲ့ ကြိမ်နှုန်း (frequency) ကို ရေတွက်ဖော်ပြတာ ဖြစ်ပါတယ်။ ဒီအပြင် အုပ်စုတစ်ခုစီရဲ့ “ဆက်စပ်ကြိမ်နှုန်း (relative frequency)” (ရာခိုင်နှုန်း သို့မဟုတ် အချိုး) နဲ့ အုပ်စုအလိုက် စုစုပေါင်း ကြိမ်နှုန်း (cumulative frequency) တွေကိုပါ တွက်ချက်ဖော်ပြနိုင်ပါတယ်။ ဒီလို ကြိမ်နှုန်းဖြန့်ဝေမှုဇယားတွေက အချက်အလက်အစုအဝေး တစ်ခုလုံးကို အကျဉ်းချုပ်ဖော်ပြပေးပါတယ်။
ဒီစုစည်းထားတဲ့ အချက်အလက်တွေကို မြင်သာထင်သာအောင် ပြသဖို့အတွက် ဂရပ်ပုံစံတွေက အသုံးဝင်ပါတယ်။ ကြိမ်နှုန်းဖြန့်ဝေမှုတွေကို “မှန်ချွန်ပုံ (Histogram)” သို့မဟုတ် “ကြိမ်နှုန်း ဗဟုဂံ (Frequency Polygon)” တွေနဲ့ ရေးဆွဲဖော်ပြနိုင်ပါတယ်။ ဒီဂရပ်တွေက အချက်အလက်တွေ ဘယ်နေရာမှာ အများဆုံးစုနေလဲ၊ ဘယ်လိုပုံစံမျိုး (ဥပမာ – ဘယ်ဘက်စောင်းသလား၊ ညာဘက်စောင်း သလား – skewness) ဖြန့်ဝေနေလဲဆိုတာကို အလွယ်တကူ မြင်နိုင်စေပါတယ်။ “ပင်စည်နှင့် အရွက် ပုံ (Stem-and-leaf display)” လို ပုံစံကလည်း အချက်အလက်တွေရဲ့ ဖြန့်ဝေပုံကို ပြသရင်းနဲ့ မူရင်းအချက်အလက် တန်ဖိုးတွေကိုပါ တစ်စိတ်တစ်ပိုင်း မြင်နိုင်အောင် ဖော်ပြနိုင်တဲ့ နည်းလမ်းတစ်ခု ဖြစ်ပါတယ်။

အချက်အလက်များ ကိန်းဂဏာန်းဖြင့် အကျဉ်းချုပ်ခြင်း

အချက်အလက်အစုအဝေးတစ်ခုလုံးရဲ့ အဓိက လက္ခဏာတွေကို ဖော်ပြနိုင်တဲ့ ကိန်းဂဏာန်းတစ်ခု သို့မဟုတ် နှစ်ခုသုံးခုကို တွက်ချက်အသုံးပြု တာကလည်း အလွန်အရေးကြီးပါတယ်။ ဒီလို ကိန်းဂဏာန်းတိုင်းတာမှုတွေကို အဓိကအားဖြင့် နှစ်မျိုးခွဲခြားနိုင်ပါတယ်။

၁။ ဗဟိုပြု တိုင်းတာမှုများ (Measures of Central Tendency): ဒီတိုင်းတာမှုတွေက အချက်အလက်တွေရဲ့ ဗဟို သို့မဟုတ် ပုံမှန်တန်ဖိုးကို ကိုယ်စားပြုပါတယ်။
ပျမ်းမျှ (Mean): အချက်အလက်အားလုံးကိုပေါင်းပြီး အချက်အလက်အရေအတွက်နဲ့စားတာဖြစ်ပါတယ်။ အသုံးအများဆုံး ဗဟိုပြုတိုင်းတာမှုဖြစ်ပါတယ်။
မီဒီယံ (Median): အချက်အလက်တွေကို အစဉ်လိုက်စီလိုက်တဲ့အခါ အလယ်မှာရှိတဲ့တန်ဖိုးဖြစ်ပါတယ်။ မီဒီယံဟာ အချက်အလက်ထဲက ကွာလွန်နေတဲ့တန်ဖိုးတွေ (outliers) ရဲ့ သက်ရောက်မှုနည်းပါတယ်။
မုဒ် (Mode): အချက်အလက်အများဆုံး ထပ်ဖြစ်နေတဲ့ တန်ဖိုးဖြစ်ပါတယ်။

၂။ ပြန့်ကျဲမှု တိုင်းတာမှုများ (Measures of Dispersion/Variation): ဗဟိုပြုတန်ဖိုးတစ်ခုတည်းနဲ့ အချက်အလက်အစုအဝေးကို အပြည့်အစုံဖော်ပြနိုင်ခြင်းမရှိပါဘူး။ အချက်အလက်တွေဟာ ဗဟိုတန်ဖိုး ပတ်ဝန်းကျင်မှာ ဘယ်လောက် ပြန့်ကျဲနေလဲ၊ ကွဲပြားနေလဲဆိုတာကို သိရှိဖို့အတွက် ပြန့်ကျဲမှု တိုင်းတာမှုတွေက လိုအပ်ပါတယ်။
အတိုင်းအတာ (Range): အကြီးဆုံးတန်ဖိုးနဲ့ အသေးဆုံးတန်ဖိုးရဲ့ ကွာခြားချက်ဖြစ်ပါတယ်။ အလွယ်ဆုံး တွက်ချက်နိုင်တဲ့ ပြန့်ကျဲမှုတိုင်းတာမှုပါ။
ပျံကြဲမှု (Variance) နှင့် စံသွေဖည်မှု (Standard Deviation): ပျံကြဲမှု (s²) နဲ့ စံသွေဖည်မှု (s) တွေက အချက်အလက်တွေဟာ ပျမ်းမျှတန်ဖိုးကနေ ပျမ်းမျှအားဖြင့် ဘယ်လောက်ဝေးကွာနေလဲဆိုတာကို ပြသပါတယ်။ စံသွေဖည်မှုဟာ ပျံကြဲမှုရဲ့ (square root) ဖြစ်ပြီး အများဆုံးအသုံးပြုတဲ့ ပြန့်ကျဲမှုတိုင်းတာမှု ဖြစ်ပါတယ်။ နမူနာရဲ့ပျံကြဲမှုကို တွက်ချက်ရာမှာ (n-1) ဆိုတဲ့ “လွတ်လပ်ခြင်းဒီဂရီ (degrees of freedom)” နဲ့ စားတာဟာ နောက်ပိုင်း ကောက်ချက်ဆွဲခြင်းဆိုင်ရာ စာရင်းအင်းပညာ (inferential statistics) အတွက် အရေးကြီးပါတယ်။
ကွာတိုင်နှင့် ကွာတိုင်အတွင်း အတိုင်းအတာ (Quartiles and Interquartile Range – IQR): ကွာတိုင် (Q1, Q2, Q3) တွေက အချက်အလက်တွေကို လေးပုံပုံလိုက်တဲ့နေရာက တန်ဖိုးတွေဖြစ်ပြီး၊ IQR (Q3 – Q1) က အချက်အလက်တွေရဲ့ အလယ် ၅၀% ဘယ်လောက်ပြန့်ကျဲနေလဲဆိုတာကို ပြသပါတယ်။ ဒါတွေဟာ ဘောက်စ်နဲ့ မုတ်ဆိတ်ပုံ (Box-and-whisker plot) တွေရေးဆွဲရာမှာ အသုံးဝင်ပါတယ်။
ကွန်ပျူတာ၏ အခန်းကဏ္ဍ
လက်တွေ့မှာ အချက်အလက်ပမာဏများတဲ့အခါ ဒီလို ဖော်ပြချက်ဆိုင်ရာ တိုင်းတာမှုတွေကို လက်ဖြင့် တွက်ချက်ရတာ အလွန်ပင်ပင်ပန်းပန်းနဲ့ အချိန်ကုန်ပါတယ်။ ဒါကြောင့် MINITAB, SAS, SPSS, R စတဲ့ ကွန်ပျူတာ စာရင်းအင်း software တွေကို အသုံးပြုပြီး လျင်မြန်တိကျစွာ တွက်ချက်မှုတွေ၊ ဂရပ်တွေရေးဆွဲမှုတွေ ပြုလုပ်နိုင်ပါတယ်။

နိဂုံး
စုစည်းရမယ်ဆိုရင် ဖော်ပြချက်ဆိုင်ရာ စာရင်းအင်းပညာဟာ ကျန်းမာရေးသိပ္ပံနယ်ပယ်က ကျောင်းသားတွေနဲ့ ပညာရှင်တွေအတွက် မရှိမဖြစ်လိုအပ်တဲ့ အခြေခံကျွမ်းကျင်မှု ဖြစ်ပါတယ်။ အချက်အလက်တွေကို အစီအစဉ်လိုက်စီခြင်း (ordered array)၊ အုပ်စုဖွဲ့ ကြိမ်နှုန်းဖြန့်ဝေခြင်း (frequency distributions)၊ မှန်ချွန်ပုံ (histograms) သို့မဟုတ် ဘောက်စ်နဲ့ မုတ်ဆိတ်ပုံ (boxplots) လို ဂရပ်တွေနဲ့ ဖော်ပြခြင်း နဲ့ ပျမ်းမျှ (mean)၊ မီဒီယံ (median)၊ စံသွေဖည်မှု (standard deviation) လို ကိန်းဂဏာန်းတိုင်းတာမှုတွေနဲ့ အကျဉ်းချုပ်ဖော်ပြခြင်း တို့ဟာ အချက်အလက်တွေရဲ့ သဘောသဘာဝကို နားလည်စေပြီး၊ နောက်အခန်းတွေမှာ ဆက်လက်လေ့လာမယ့် နမူနာ အချက်အလက်တွေကနေ လူဦးရေတစ်ခုလုံးအပေါ် ကောက်ချက်ဆွဲတဲ့ (inferential statistics) အဆင့်တွေအတွက် ခိုင်မာတဲ့အခြေခံကို ချပေးနိုင်မှာ ဖြစ်ပါတယ်။

Discover more from naywinaung

Subscribe to get the latest posts sent to your email.

Descriptive Statistics

Discover more from naywinaung

Leave a Reply Cancel reply

Related Post

Systematic Random SamplingSystematic Random Sampling

Purposive SamplingPurposive Sampling