Data Repositories

Data Warehouse (Enterprise Data Warehouse) က reporting နဲ့ data analysis လုပ်နိုင်ဖို့နဲ့ business intelligence အတွက် မရှိမဖြစ် လိုအပ်တဲ့ စနစ် တစ်ခု ဖြစ်ပါတယ်။ DW က နေရာမျိုးစုံ အမျိုးအစားမျိုးစုံ က data တွေ ကို တနေရာထဲမှာ စုထားပေးပြီး report များက ပြန်ဆွဲထုတ်နိုင်ဖို့ ထိန်းသိမ်းပေးထားပါတယ်။ Marketing သို့ Sales စတဲ့ operational system များက data တွေကို DW ထဲကို ဆွဲတင်တာ ဖြစ်ပြီး Operational data store တွေက တဆင့်ဖြတ်ပြီး တင်တာ ဖြစ်သလို တခါတလေမှာ data cleansing ကို လိုအပ်သလို လုပ်ဆောင်ရပါတယ်။

Data Mart ကတော့ Data Warehouse ရဲ့ အစိတ်အပိုင်းတစ်ခု ဖြစ်ပြီး marketing သို့ sales စတဲ့ business line တစ်ခု သို့ team တစ်ခု အတွက် data warehouse ကနေ သီးခြားပြန်ခွဲထုတ်တဲ့ data store တစ်ခု ဖြစ်ပါတယ်။

Azure Data Factory (ADF) က data source များစွာက data တွေကို Data Warehouse ထဲ ကို data တွေ ဆွဲယူနိုင်ဖို့ developer တွေ အသုံးပြုတဲ့ service တစ်ခုဖြစ်ပါတယ်။ ADF က data source တွေ ရှိနေတဲ့ SQL Server ထဲက on-premise data တွေ၊ Azure Storage (Blob and Tables) နဲ့ Azure SQL Database တို့မှာ ရှိတဲ့ cloud data တွေကို ဆွဲယူနိုင်ပါတယ်။ On-premise data တွေကို ဆွဲယူမယ်ဆိုရင် data management gateway က‌နေ တဆင့် ချိတ်ဆက်ရပါတယ်။ DF က အသုံးပြုသူတွေအတွက် web log analytics, click stream analysis, social sentiment, sensor analysis, geo-location analysis စတာတွေကို centralize အသုံးပြုနိုင်အောင် လုပ်ဆောင်ပေးနိုင်ပါတယ်။ Microsoft အနေနဲ့ DF ကို SQL Server, Azure HDInsight, Azure SQL Database, Azure Blobs နဲ့ Power BI အသုံးပြုသူများအတွက် အဓိက tool အဖြစ် သတ်မှတ်ထားပါတယ်။ Developers တွေအနေနဲ့ DF ကို on-premise နဲ့ cloud တွေမှာ ရှိတဲ့ semi-structured, unstructured data တွေကို တနေရာထဲမှာ trusted information ဖြစ်အောင် အသုံးပြုပါတယ်။

Data Lake မှာ relational database ရဲ့ rows နဲ့ columns တွေတည်ဆောက်ထားတဲ့ structured data၊ CSV, logs, XML, JSON စတာတွေနဲ့ တည်ဆောက်ထားတဲ့ semi-structured data၊ email, document, PDFs စတဲ့ unstructured data နဲ့ images, audio, video တို့ ပါဝင်တဲ့ binary data စတဲ့ data ပုံစံမျိုးစုံကို သိမ်းဆည်းထားနိုင်ပါတယ်။ Apache Hadoop ရဲ့ distributed file system က data lake ပဲ ဖြစ်ပါတယ်။ လက်ရှိမှာ လုပ်ငန်းအများစုဟာ သူတို့ လုပ်ငန်းရဲ့ cloud storage services အတွက် Azure Data Lake နဲ့ Amazon S3 တို့ကို သုံးကြပါတယ်။


A data warehouse (DW or DWH), also known as an enterprise data warehouse (EDW), is a system used for reporting and data analysis, and is considered a core component of business intelligence. DWs are central repositories of integrated data from one or more disparate sources. The data stored in the warehouse is uploaded from the operational systems (such as marketing or sales). The data may pass through an operational data store and may require data cleansing.

The data mart is a subset of the data warehouse and is usually oriented to a specific business line or team. Whereas data warehouses have an enterprise-wide depth, the information in data marts pertains to a single department.

The Azure Data Factory (ADF) is a service designed to allow developers to integrate disparate data sources. ... It provides access to on-premises data in SQL Server and cloud data in Azure Storage (Blob and Tables) and Azure SQL Database. Access to on-premises data is provided through a data management gateway that connects to on-premises SQL Server databases. Data Factory provides customers with a central place to manage their processing of web log analytics, click stream analysis, social sentiment, sensor data analysis, geo-location analysis, etc. Microsoft views Data Factory as a key tool for customers who are looking to have a hybrid story with SQL Server or who currently use Azure HDInsight, Azure SQL Database, Azure Blobs, and Power BI for Office 365. Developers can use Data Factory to transform semi-structured, unstructured and structured data from on-premises and cloud sources into trusted information.

A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video). One example of a data lake is the distributed file system used in Apache Hadoop. Many companies also use cloud storage services such as Azure Data Lake and Amazon S3.