The Butterfly Effect

လိပ်ပြာတောင်ပံခတ်သံကစလို့ ဟာရီကိန်း မုန်တိုင်းကြီးတွေအထိ ဖြစ်သွားနိုင်သလို data ကို အစပြုတဲ့ upstream မှာ ဖြစ်တဲ့ သေးငယ်တဲ့ မှားယွင်းမှုဟာ သူ့ကနေ စီးဆင်းသွားတဲ့ downstream systems များစွာမှာ ကြီးမားတဲ့ ထိခိုက်မှုတွေ ဖြစ်နိုင်ပါတယ်။ အဲဒီ သေးငယ်တဲ့ မှားယွင်းမှုဆိုတာလဲ product code တစ်ခု မှားသွင်းမိတာ၊ date format တစ်ခု မှားတာ၊ account နံပါတ်တစ်ခု မှားတာမျိုးကို စနစ်ရဲ့ တနေရာမှာ အစပြုမိတာမျိုးလေး။ ဘာမှ မဖြစ်လောက်ဘူးလို့ ထင်ရတဲ့ မှားယွင်းမှုလေးပါ။ ဒီလို effect တွေကို မဖြစ်စေဖို့အတွက် Data Quality ကို manage လုပ်ဖို့ဆိုတာ data ကို အခြေပြုတဲ့ ဒီနေ့ အချိန်အခါတွေမှာ မရှိမဖြစ် လိုအပ်နေပါတယ်။

enter image description here

Butterfly Effect - Scenario 1

ဥပမာ အနေနဲ့ State နဲ့ Postal Code တွေကို သိမ်းထားတဲ့ Postal Code reference table ကို ကြည့်ပါမယ်။ အဲဒီ Table မှာ State တစ်ခု အတွက် Postal code ကို မှားထည့်ထားမိတယ် ဆိုပါစို့။ Software application တွေ အများကြီးက ဒီ reference table ကို သုံးပြီး State code တွေကို ဖြည့်မယ်ဆိုရင် Customer records အများစုဟာ မှားယွင်းတဲ့ State code တွေ နဲ့ ပြည့်သွားပါမယ်။

နောက်တဆင့် အနေနဲ့ Downstream system တွေကို Customer data တွေ ဆင်းသွားတဲ့အချိန်မှာ များပြားတဲ့ target database နဲ့ report တွေမှာ မမှန်ကန်တဲ့လိပ်စာတွေ ရောက်နေတဲ့ အတွက် mail တွေ မှန်မှန်မရောက်တာတွေ customer တွေဆီ ဆက်သွယ်လို့ မရတာတွေ ဖြစ်နိုင်ပါတယ်။ Business value ဆုံးရှုံးမှုကို ကြည့်မယ် ဆိုရင် Customer ဆုံးရှုံးတာ၊ Mailing cost ကုန်ကျစရိတ်၊ Marketing campaign မအောင်မြင်တာ၊ revenue လျော့နည်းတာ စတဲ့ ထိခိုက်မှုတွေ ဖြစ်နိုင်ပါတယ်။

ဒီအချက်ကို ကြည့်မယ်ဆိုရင် Postal Code reference table မှာ မှားယွင်းတာက သု့တစ်ခုထဲ ဆိုရင်တော့ သေးငယ်တဲ့ မှားယွင်းမှု ဖြစ်လို့ ပြင်ဖို့လဲ လွယ်ကူပါတယ်။ ဒါပေမယ့် သူကနေ စနစ်များစွာဆီကို စီးဆင်းသွားတဲ့ အချိန်မှာတော့ များပြားလှတဲ့ ထိခိုက်မှုတွေ ဖြစ်သွားနိုင်ပြီး ပြင်ဖို့လဲ ခက်ခဲပါတယ်။

Butterfly Effects - Scenario 2

နောက် sample တစ်ခုအနေနဲ့ Customer တစ်ယောက်ချင်းရဲ့ Information မှတ်တဲ့ အချက်မှာ လက်ရှိ အခြေအနေ (active, inactive, sound စတာတွေကို မှတ်သားတဲ့ Status ထားပါတယ်။ data warehouse မှာ အဲဒီ status တွေကို မှတ်သားတဲ့ Customer Reference table ထားပြီး status အသစ် ရှိတဲ့ အချိန်တိုင်း ထည့်ရပါတယ်။ reference table ထဲမှာ မရှိတဲ့ customer status ကို တွေ့ရင် 999 အနေနဲ့ ထည့်ပေးပါတယ်။ ဒီတော့ သေးငယ်တဲ့ မှားယွင်းမှုတစ်ခုအတွက် ဆက်တိုက် အမှား ဖြစ်ရပုံကို ကြည့်ရအောင်ပါ။

Data warehouse ထဲကို ထည့်တဲ့ customer table မှာ reference table မှာ မရှိတဲ့ status ပါလာပါတယ်၊ data loading program မှလည်း status အသစ်နဲ့ customer တွေကို 999 Unknown အနေနဲ့ ထည့်ထားလိုက်ပါတယ်။ data warehouse ကနေ တဆင့် downstream database နဲ့ report တွေအားလုံးမှာ မမှန်ကန်တဲ့ customer status တွေနဲ့ ပြန့်သွားပါတယ်၊ နေရာများစွာကို ပြန်သွားတဲ့ customer information တွေကို ပြင်ဖို့ဆိုတာ ခက်ခဲပြီး အမှားအယွင်းများစွာ ထပ်ဖြစ်နိုင်ပါတယ်။