Khái quát hệ thống Data Warehouse

Nội dung

Data Warehouse là một hệ thống lưu trữ dữ liệu được thiết kế để hỗ trợ việc phân tích và ra quyết định trong doanh nghiệp. Nó được xây dựng từ nhiều nguồn dữ liệu khác nhau và được tối ưu hóa để truy vấn và phân tích dữ liệu nhanh chóng và hiệu quả. Hệ thống Data Warehouse đóng vai trò quan trọng trong việc giúp doanh nghiệp hiểu rõ hơn về mô hình kinh doanh của mình và đưa ra các quyết định thông minh để cải thiện hoạt động.

Hệ thống Data Warehouse
Hệ thống Data Warehouse

1. Hệ thống Data Warehouse là gì?

Hệ thống Data Warehouse là tập hợp các công nghệ, phương pháp, kỹ thuật có thể kết hợp với nhau để thực hiện các chức năng tích hợp, lưu trữ, xử lý và phân tích dữ liệu. Mục đích để cung cấp thông tin cho người dùng. Một kho dữ liệu thường có dung lượng lên đến hàng trăm GB thậm chí tính bằng đơn vị TB.

Quá trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm chung như sau:

  • Atomicity (Tính nguyên tử): dữ liệu được tập hợp từ nhiều nguồn khác nhau, tuy nhiên, khi tập hợp phải thực hiện làm sạch, sắp xếp, rút gọn dữ liệu.
  • Consistency (Tính nhất quán): chỉ lấy những dữ liệu có ích, tức là các dữ liệu có cùng chủ đề
  • Isolation (Tính cô lập): Các dữ liệu truy xuất không bị ảnh hưởng bởi các dữ liệu khác hoặc tác động chồng lên nhau.
  • Durable (Tính bền vững): Dữ liệu được lưu trữ và không thể tùy ý tạo thêm, xóa hay sửa đổi.

2. Các thành phần trong hệ thống Data Warehouse

  • Database Management System – DBMS (Hệ quản trị cơ sở dữ liệu): là phần mềm quản lý cơ sở dữ liệu trong hệ thống Data Warehouse. DBMS được sử dụng để tạo và quản lý các cơ sở dữ liệu, cung cấp các tính năng như truy vấn, ghi, đọc, cập nhật và xoá dữ liệu.
  • Data Warehouse Server (Máy chủ kho dữ liệu): là phần cứng đặc biệt được thiết kế để chạy các ứng dụng của hệ thống Data Warehouse. Nó bao gồm các máy chủ cơ sở dữ liệu, bộ nhớ đệm, thiết bị lưu trữ đĩa cứng và tài nguyên mạng khác. Data Warehouse Server chịu trách nhiệm cho việc lưu trữ và quản lý dữ liệu trong hệ thống.

Data Warehouse Server 
Data Warehouse Server 

  • ETL (Extract, Transform, Load): là quá trình trích xuất, biến đổi và tải dữ liệu từ các nguồn khác nhau vào hệ thống Data Warehouse. Quá trình ETL được chia thành 3 giai đoạn: Extract, Transform và Load. Extract là giai đoạn trích xuất dữ liệu từ nguồn ban đầu, Transform là giai đoạn biến đổi dữ liệu để phù hợp với cấu trúc dữ liệu của Data Warehouse, và Load là giai đoạn tải dữ liệu đã được biến đổi vào Data Warehouse. ETL là một quá trình quan trọng để đảm bảo tính toàn vẹn, độ chính xác và hiệu quả của dữ liệu được lưu trữ trong Data Warehouse.
  • Data Warehouse Metadata (Siêu dữ liệu trong kho dữ liệu): là thông tin mô tả về cấu trúc dữ liệu, quan hệ giữa các bảng, các thuộc tính và định nghĩa các khái niệm trong hệ thống Data Warehouse. Metadata giúp các doanh nghiệp hiểu được cấu trúc dữ liệu và các mối quan hệ giữa chúng trong hệ thống Data Warehouse. Metadata cũng cung cấp thông tin cần thiết để xây dựng các báo cáo và truy vấn dữ liệu.
  • Data Mart (Phiên bản thu gọn của kho dữ liệu): là một tập hợp các bảng dữ liệu được tách ra từ hệ thống Data Warehouse chính và được sử dụng để hỗ trợ cho một bộ phận trong doanh nghiệp hoặc một phân khúc cụ thể của người dùng.

3. Cách thức hoạt động của hệ thống Data Warehouse

Hệ thống Data Warehouse hoạt động theo một chu trình liên tục, trong đó dữ liệu được trích xuất, chuyển đổi, tải, lưu trữ, phân tích và sử dụng để tạo ra các báo cáo và truy vấn dữ liệu. Cụ thể như sau:

  • Trích xuất dữ liệu: Dữ liệu được trích xuất từ các nguồn khác nhau như hệ thống giao dịch, ứng dụng, tệp văn bản, cơ sở dữ liệu phân tán,…
  • Chuyển đổi dữ liệu: Dữ liệu được chuyển đổi để đáp ứng yêu cầu của hệ thống Data Warehouse. Trong giai đoạn này, các kỹ thuật biến đổi dữ liệu như lọc, trộn, chuyển đổi, thống kê, … được áp dụng để đảm bảo hệ thống được nâng cấp liên tục.

Cách thức hoạt động của Data Warehouse
Cách thức hoạt động của Data Warehouse

  • Tải dữ liệu: Dữ liệu được tải vào hệ thống Data Warehouse. Trong giai đoạn này, các kỹ thuật tải dữ liệu như tải đầy đủ, tải delta và tải hòa nhập được sử dụng để đảm bảo tính toàn vẹn và độ chính xác của dữ liệu.
  • Lưu trữ dữ liệu: Dữ liệu được lưu trữ trong hệ thống Data Warehouse. Hệ thống sử dụng cơ sở dữ liệu quản trị để quản lý và duy trì dữ liệu.
  • Phân tích dữ liệu: Dữ liệu được phân tích thông qua các công cụ phân tích dữ liệu từ hệ thống Data Warehouse. Dữ liệu thu được cuối cùng có ý nghĩa và giá trị cho nhiều hoạt động của doanh nghiệp.
  • Xây dựng báo cáo và truy vấn dữ liệu:  Hệ thống Data Warehouse cung cấp các công cụ để truy cập và truy vấn dữ liệu, bao gồm các truy vấn SQL và các công cụ trực quan.

Hệ thống Data Warehouse cũng có khả năng lưu trữ lịch sử của dữ liệu, giúp theo dõi và phân tích các thay đổi trong hoạt động của doanh nghiệp theo thời gian. Vì vậy, hệ thống Data Warehouse trở thành một công cụ quan trọng để hỗ trợ ra quyết định.

4. Các loại lược đồ Data Warehouse 

4.1. Star Schema (Lược đồ ngôi sao)

Star Schema được sử dụng rộng rãi trong các hệ thống Data Warehouse. Trong mẫu lược đồ này, Fact Table (Bảng chính) được kết nối với Dimension Table (Bảng chi tiết) thông qua khóa. Mỗi bảng chi tiết đại diện cho một loại thông tin cụ thể và chứa các thuộc tính mô tả thông tin đó. Tuy nhiên, áp dụng Star Schema thì dữ liệu không được chuẩn hoá.

Các loại lược đồ Data WarehouseCác loại lược đồ Data Warehouse

4.2. Snowflake Schema (Lược đồ bông tuyết)

Lược đồ tuyến tính là một phiên bản phức tạp hơn của lược đồ sao. Trong lược đồ tuyến tính, các bảng chi tiết được phân tách thành các bảng con, mỗi bảng con chứa các thuộc tính cụ thể hơn. Các bảng con này được kết nối với nhau thông qua các khóa. Lược đồ tuyến tính phù hợp cho các hệ thống Data Warehouse lớn và phức tạp.

4.3. Galaxy Schema (Lược đồ ngân hà)

Chứa nhiều bảng chính sử dụng chung một số bảng chi tiết. Lược đồ ngân hà là sự kết hợp của nhiều Data Mart (kho dữ liệu có chủ đề, dạng thu nhỏ của kho dữ liệu, kho dữ liệu được chia thành nhiều phần nhỏ khác nhau). Chia sẻ các bảng chi tiết có thể giảm kích thước của cơ sở dữ liệu đặc biệt là khi chia sẻ các bảng chi tiết có nhiều giá trị.

 

Xem thêm:

https://datacenters.vn/phuong-phap-phan-tich-du-lieu-tu-co-ban-den-nang-cao/

https://datacenters.vn/cach-tro-thanh-nha-phan-tich-du-lieu-data-analyst/

#DATACENTERS

#BigData

#DataSolutions

———————

💎  𝐃𝐀𝐓𝐀𝐂𝐄𝐍𝐓𝐄𝐑𝐒   💎

𝐆𝐈𝐀̉𝐈 𝐏𝐇𝐀́𝐏 𝐃𝐀𝐓𝐀 & 𝐌𝐀𝐑𝐊𝐄𝐓𝐈𝐍𝐆 𝐓𝐎̂̉𝐍𝐆 𝐓𝐇𝐄̂̉

———————

📌 Địa chỉ: T5, Masteri Thảo Điền, Quận 2, Hồ Chí Minh

🌐 Website: https://datacenters.vn/

📧 Email: contact@datacenters.vn

☎  Hotline: 0911 043 693