like98

Kiến trúc dữ liệu lớn (Big Data Architecture) là gì?

Mục lục

Trong hai thập kỷ qua, sức mạnh big data không ngừng tăng lên đã tạo ra một luồng dữ liệu tràn ngập. Dữ liệu lớn big data đang ngày càng trở nên phổ biến và được ứng dụng một cách rộng rãi trên nhiều lĩnh vực. Sau đây, cùng DATACENTERS tìm hiểu thêm vềkiến trúc dữ liệu (big data architecture) trong dữ liệu lớn big data thông qua bài viết dưới đây!

1. Dữ liệu lớn big data là gì?

Dữ liệu lớn big data là thuật ngữ mô tả các tập dữ liệu có khối lượng lớn, tốc độ nhanh và đa dạng. Độ lớn của dữ liệu lớn có thể lớn đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý. Dữ liệu lớn bao gồm các dữ liệu có cấu trúc, không có cấu trúc và bán cấu trúc.

Các loại dữ liệu lớn big data

Các loại dữ liệu lớn big data Các loại dữ liệu lớn big data

Dữ liệu có cấu trúc

Là dữ liệu được tổ chức theo một định dạng nhất định, chẳng hạn như bảng trong cơ sở dữ liệu. Đây là loại dữ liệu dễ dàng xử lý và phân tích (big data analysis), vì có cấu trúc rõ ràng và có thể được trích xuất thông tin một cách dễ dàng.

  • Cơ sở dữ liệu SQL
  • Các hệ thống xử lý giao dịch trực tuyến (như OLTP) tập trung vào các giao dịch kinh doanh
  • Bảng tính như Excel và bảng tính Google
  • Biểu mẫu trực tuyến
  • Các cảm biến như hệ thống định vị toàn cầu (GPS và RFID)
  • Dữ liệu mạng và web

 

Bạn có thể lưu trữ dữ liệu có cấu trúc trong cơ sở dữ liệu quan hệ hoặc SQL để dễ dàng kiểm tra dữ liệu có cấu trúc với các phương pháp và công cụ phân tích dữ liệu (big data analysis) tiêu chuẩn.

Dữ liệu không có cấu trúc

Là dữ liệu không có định dạng nhất định, chẳng hạn như văn bản, hình ảnh, video,… Đây là loại dữ liệu khó xử lý và phân tích (big data analysis), vì không có cấu trúc rõ ràng và thông tin được lưu trữ trong đó có thể không dễ dàng trích xuất.

  • Các website
  • Dữ liệu truyền thông xã hội
  • Hình ảnh ở các định dạng tệp khác nhau (JPEG, GIF và PNG,..)
  • Tệp video và âm thanh
  • Tài liệu và tệp PDF
  • PowerPoint
  • Media logs và khảo sát

Dữ liệu bán cấu trúc

Là dữ liệu pha trộn giữa có cấu trúc và không có cấu trúc, loại dữ liệu này không hình thành một cấu trúc rõ ràng và phù hợp với CSDL quan hệ, chẳng hạn như dữ liệu từ mạng xã hội, email,… Đây là loại dữ liệu phổ biến trong thời đại số hiện nay, đa phần các công ty thu thập dữ liệu từ nhiều nguồn khác nhau và phải xử lý chúng để tìm ra thông tin giá trị.

  • E-mail, XML và các ngôn ngữ đánh dấu khác
  • TCP/IP Package
  • Tệp bị nén
  • Dữ liệu tích hợp.

2. Kiến trúc dữ liệu lớn (big data architecture) là gì?

Thành phần của big data architecture Thành phần của big data architecture

Kiến trúc dữ liệu lớn big data (big data architecture) là một hệ thống được thiết kế để xử lý và lưu trữ dữ liệu lớn. Các giải pháp dữ liệu lớn thường liên quan đến một hoặc nhiều khối lượng công việc sau:

  • Xử lý hàng loạt các nguồn dữ liệu lớn
  • Xử lý dữ liệu lớn theo thời gian thực
  • Khám phá dữ liệu lớn
  • Phân tích dự đoán và máy học

 

Big data architecture bao gồm các thành phần:

Nguồn dữ liệu (Data sources)

Data sources là một phần quan trọng trong hệ thống big data, vì chúng đóng vai trò quyết định trong việc xác định loại dữ liệu mà hệ thống sẽ xử lý. Dưới đây là một số nguồn dữ liệu phổ biến trong môi trường big data:

  • Dữ liệu Cơ Sở Dữ Liệu Quan Hệ (Relational Database Data): Dữ liệu từ các hệ thống quản lý cơ sở dữ liệu SQL như MySQL, PostgreSQL, Oracle, SQL Server.
  • Dữ liệu từ ứng dụng và dịch vụ web (Application and Web Services Data): Dữ liệu từ các ứng dụng di động, trang web, API và dịch vụ web khác nhau.
  • Dữ liệu từ nguồn dữ liệu không cấu trúc (Unstructured Data Sources): Tệp tin văn bản, tài liệu PDF, hình ảnh, video, âm thanh, và các định dạng dữ liệu không cấu trúc khác.
  • Dữ liệu từ thiết bị IoT (Internet of Things Data): Dữ liệu từ cảm biến, thiết bị thông minh và các nguồn dữ liệu khác trong môi trường IoT.

Lưu trữ dữ liệu (Data storage)

Dữ liệu cho các hoạt động xử lý hàng loạt thường được lưu trữ trong kho lưu trữ tệp phân tán có thể chứa khối lượng lớn các tệp lớn ở nhiều định dạng khác nhau, loại dữ liệu này thường được gọi là Data Lake. Dưới đây là một số giải pháp lưu trữ dữ liệu phổ biến trong môi trường big data:

  • Amazon S3, Google Cloud Storage, Azure Blob Storage: Đây là các dịch vụ lưu trữ đám mây, cung cấp khả năng lưu trữ không giới hạn và có thể mở rộng dễ dàng.
  • Hadoop Distributed File System (HDFS): HDFS là một hệ thống lưu trữ phân tán được thiết kế để chia nhỏ dữ liệu và lưu trữ nó trên nhiều máy chủ.
  • NoSQL Databases: Các cơ sở dữ liệu NoSQL như HBase, Cassandra, MongoDB thường được sử dụng để lưu trữ dữ liệu lớn và không có cấu trúc cố định.

Xử lý dữ liệu (Batch Processing)

Batch Processing là một phương pháp xử lý dữ liệu bằng cách chia dữ liệu thành từng “lô” (batch) thay vì xử lý ngay lập tức. Quá trình xử lý này thường diễn ra theo các chu kỳ, nơi dữ liệu được thu thập, lưu trữ và xử lý theo nhóm hoặc lô. Vì các tập dữ liệu quá lớn nên thường được xử lý bằng chuỗi quy trình hàng loạt và dài hạn, bao gồm lọc, tổng hợp và chuẩn bị dữ liệu để phân tích (big data analysis).

Các công cụ và framework như Apache Hadoop, Apache Spark, và Apache Flink thường được sử dụng để triển khai Batch Processing trong môi trường big data. Điển hình cho quy trình này là mô hình MapReduce, một trong công cụ phổ biến được dùng để lập trình và xử lý dữ liệu phân tán, đặc biệt phổ biến trong hệ sinh thái Hadoop.

Thu thập dữ liệu thời gian thực (Real-time Message Ingestion)

Thu thập dữ liệu thời gian thực – như đã nói ở trên, dữ liệu được sinh ra từ nguồn (Data Source) có thể bao gồm dữ liệu thời gian thực (ví dụ từ các thiết bị IoT), do vậy Real-time Message Ingestion cho phép hệ thống big data có thể thu thập và lưu trữ những loại dữ liệu trong thời gian thực.

Để triển khai Real-time Message Ingestion, các công nghệ thường sử dụng những streaming frameworks như Apache Kafka, Apache Flink, Apache Storm, hay các dịch vụ streaming như Amazon Kinesis, Google Cloud Pub/Sub.

Xử lý dữ liệu theo luồng (Stream Processing)

Tương tự như xử lý dữ liệu theo lô (Batch Processing), Stream Processing là một phương pháp xử lý dữ liệu ngay lập tức (Real-time) sau khi nó được tạo ra. Thay vì chờ đến khi dữ liệu được tích hợp thành các lô (batches) như trong Batch Processing, Stream Processing giúp xử lý dữ liệu ngay khi nó xuất hiện, tạo ra khả năng phản hồi nhanh và giảm độ trễ, điều này đặc biệt hữu ích khi cần xử lý dữ liệu theo thời gian thực. Chúng ta có thể nhắc đến Apache Storm, Spark Streaming,….

Kiến trúc dữ liệu trong dữ liệu lớn big data! Kiến trúc dữ liệu trong dữ liệu lớn big data!

Nơi lưu trữ dữ liệu phân tích (Analytical Data Store)

Analytical Data Store là một hệ thống lưu trữ dữ liệu được thiết kế chủ yếu để hỗ trợ và phục vụ cho các quá trình phân tích dữ liệu lớn big data (big data analysis). ADS (Analytical Data Store) cung cấp một môi trường lưu trữ dữ liệu tối ưu hóa cho việc thực hiện các truy vấn phức tạp, phân tích dữ liệu, và báo cáo.

Phân tích và báo cáo (Analysis and Reporting)

Big data analysis là quá trình thu thập, chọn lọc, xử lý và phân tích dữ liệu thông tin để tổng hợp và xuất đánh giá hay báo cáo. Big data analysis đóng vai trò vô cùng quan trọng trong các công ty dù ở bất kỳ lĩnh vực nào. Sau đây là những công cụ Business Intelligence như Tableau, Power BI, Qlik để tạo báo cáo và trực quan hóa dữ liệu một cách hiệu quả.

Điều phối (Orchestration)

Orchestration sử dụng để quản lý và điều phối các quy trình làm việc để có thể đảm bảo rằng các bước và tác vụ được thực hiện theo đúng trình tự và đúng cách. Một số công cụ phổ biến được ứng dụng cho việc tự động hóa các quy trình công việc này như Azure Data Factory hoặc Apache Oozie và Sqoop.

3. Kết luận

Dữ liệu lớn big data là thuật ngữ mô tả các tập dữ liệu có khối lượng lớn, tốc độ nhanh và đa dạng. Dữ liệu lớn big data đang ngày càng trở thành một yếu tố quan trọng trong kinh doanh hiện đại, vì vậy việc hiểu và sử dụng chúng một cách hiệu quả là rất cần thiết để các doanh nghiệp có thể cạnh tranh và phát triển.

Đọc thêm

Chia sẻ bài viết:
Bài viết liên quan
error: Content is protected !!