Số 42, ngõ 178 Thái Hà, Đống Đa, Hà Nội
0985 136 895

Data Warehouse là gì? Tổng quan về Data Warehouse

Data Warehouse là gì?

Data Warehouse là gì

Data Warehouse  là hệ thống cơ sở dữ liệu (kho dữ liệu) được thiết kế hướng tới truy vấn, phân tích dữ liệu một cách chính xác trên tập dữ liệu lớn chuyên dùng cho tạo báo cáo và phân tích dữ liệu. Kho dữ liệu vừa hỗ trợ các truy vấn phức tạp, vừa là điểm tập trung dữ liệu từ nhiều nguồn khác nhau để có được thông tin phân tích đầy đủ nhất.

Data Warehouse là một cấu phần vô cùng quan trọng trong hệ thống báo cáo quản trị thông minh (BI – Business Intelligence). Đây là kho tổng hợp nhiều dạng dữ liệu khác nhau để từ đó chuẩn hóa và cung cấp thông tin cho hệ thống BI tổng hợp, xử lý thành báo cáo, dự đoán những biến động trong tương lai.

Data Warehouse có khả năng lưu trữ rất lớn tới hàng trăm Gigabyte hay thậm chí hàng Terabyte. Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.

Đặc tính của Data Warehouse

Tính hướng chủ đề (Subject – oriented):

nghĩa là Data Warehouse tập trung vào việc phân tích các yêu cầu quản lý ở nhiều cấp độ khác nhau trong quy trình ra quyết định. Các yêu cầu phân tích này thường rất cụ thể, và xoay quanh loại hình kinh doanh của doanh nghiệp

Ví dụ: các công ty phân phối sẽ quan tâm đến tình hình kinh doanh, doanh nghiệp viễn thông quan tâm đến lưu lượng dịch vụ… Tuy nhiên một doanh nghiệp thường quan tâm đến vài chủ đề khác nhau. Như công ty phân phối còn phải quan tâm đến kho bãi, chuỗi cung ứng…

Tính toàn vẹn (Integrated): 

Data Warehouse giải quyết các khó khăn trong việc kết hợp dữ liệu từ nhiều nguồn dữ liệu khác nhau. Giải quyết các sai khác về tên trường dữ liệu (dữ liệu khác nhau nhưng tên giống nhau). Ý nghĩa dữ liệu (tên giống nhau nhưng dữ liệu khác nhau). Định dạng dữ liệu (tên và ý nghĩa giống nhau nhưng kiểu dữ liệu khác nhau).

Tính bất biến (Nonvolatile)

Quy định rằng dữ liệu phải thống nhất theo thời gian (bằng cách hạn chế tối đa sửa đổi hoặc xoá dữ liệu). Từ đó làm tăng quy mô dữ liệu lên đáng kể so với hệ thống nghiệp vụ

Giá trị lịch sử (Time – varying):

Data Warehouse là gì – Data Warehouse có khả năng lấy các giá trị khác nhau của cùng một thông tin và thời điểm xảy ra thay đổi. Ví dụ thông tin địa chỉ, email, số điện thoại của khách hàng có thể thay đổi. Nhưng việc thay đổi đó không được phép tác động đến giá trị báo cáo, phân tích thực hiện trước khi sự thay đổi xảy ra.

Mục tiêu của Data Warehouse

Data Warehouse là gì
Data Warehouse là gì

Truy cập dễ dàng: 

Thông tin lưu trữ trong Data Warehouse phải trực quan và dễ hiểu đối với người dùng. Nói cách khác, dữ liệu nên được trình bày thông qua các tên gọi quen thuộc và gần gũi với nghiệp vụ của người dùng.

Thông tin nhất quán:

Dữ liệu trong một Data Warehouse nhìn chung thường đến từ nhiều nguồn khác nhau. Do vậy, cùng một thông tin nhưng các nguồn khác nhau có thể trình bày nó theo các kiểu khác nhau, thậm chí còn sai lệch ít nhiều.

Trước khi được đưa vào Data Warehouse, dữ liệu cần phải được làm sạch và đảm bảo về chất lượng. Có làm sạch rồi thì việc đồng nhất dữ liệu mới trở nên dễ dàng. Một nguyên tắc đơn giản được đặt ra cho quá trình này là:

  • Nếu dữ liệu có cùng tên, chúng bắt buộc phải cùng chỉ đến một thực thể.
  • Ngược lại, nếu dữ liệu chỉ đến các thực thể khác nhau, chúng phải được đặt tên khác nhau.

Đây chính là những công việc chủ đạo của quá trình ETL (Extract – Transform – Load).

Thích nghi với thay đổi:

Thay đổi là điều không thể tránh khỏi cho bất cứ ứng dụng nào, không riêng gì Data Warehouse. Do vậy, Data Warehouse cần phải được thiết kế để xử lý những thay đổi có thể xảy ra. Nói vậy có nghĩa là khi có thay đổi mới, dữ liệu cũ trong data vẫn phải được bảo tồn tính đúng đắn.

Bảo mật:

Data Warehouse là gì
Data Warehouse là gì

Dữ liệu trong Data Warehouse đến từ nhiều nguồn khác nhau. Do vậy hiển nhiên việc bảo đảm những thông tin không lộ ra ngoài là một yêu cầu thiết yếu. Để lộ dữ liệu của một database đã là cực kỳ nghiêm trọng. Để lộ dữ liệu từ nhiều database là một thảm họa.

Hỗ trợ ra quyết định:

Đây có thể nói là mục tiêu quan trọng nhất của doanh nghiệp khi xây dựng Data Warehouse. Một doanh nghiệp trước khi xây dựng Data Warehouse nên tự đặt câu hỏi. Liệu Data Warehouse đó có giúp ích gì trong việc ra quyết định kinh doanh của doanh nghiệp không.

Với Data Warehouse, người dùng có thể dễ dàng xây dựng các report. Đồng thời, từ Data Warehouse người ta có thể xây dựng các cube mà không tốn quá nhiều công sức. Dựa trên cube, các công cụ phân tích sẽ được dùng để phân tích dữ liệu cực kỳ nhanh chóng và trực quan.

 Thành công: 

Hiển nhiên sản phẩm nào được tạo ra cũng phải hướng đến thành công. Trong trường hợp của Data Warehouse, nó phải đem lại giá trị thực tế cho người dùng. Và phải được dùng liên tục thì mới được coi là thành công. Việc có hay không có Data Warehouse trong một tổ chức hoàn toàn không mang tính bắt buộc.

Data Warehouse là gì – Nếu không có Data Warehouse, người ta vẫn có thể tạo ra report nhưng dĩ nhiên mất nhiều công sức hơn. Để được công nhận, giá trị business mà Data Warehouse đem lại phải lớn hơn công sức và tiền của bỏ ra đầu tư vào nó.

Trong nhiều tổ chức, business user ban đầu thường không hề có chút ý niệm về Data Warehouse.  Thậm chí hoài nghi về nó. Nhưng một khi người dùng đã quen với nó, người ta sẽ thích nó. Và muốn ngày càng có nhiều dữ liệu hơn trong Data Warehouse đơn giản. Bởi vì nó cung cấp rất nhiều lựa chọn và hỗ trợ ra quyết định khá tốt. Đó gọi là thành công.

Muốn đạt được những yêu cầu trên thì Data Warehouse phải:

  • Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch. Và tinh lọc dữ liệu theo những hướng chủ đề nhất định.
  • Tổng hợp và kết nối dữ liệu.
  • Đồng bộ hoá các nguồn dữ liệu.
  • Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho doanh nghiệp.
  • Quản lí siêu dữ liệu.
  • Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề.
  • Tiện dùng trong các hệ thống hỗ trợ quyết định (Decision support system – DSS). Các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt.

Như vậy, bài viết Data Warehouse là gì? đã chỉ ra rằng: Sự ra đời của Data Warehouse bắt nguồn từ sự kết hợp của hai yếu tố kinh tế và công nghệ. Kho dữ liệu mang lại giá trị to lớn cho các tổ chức và doanh nghiệp trong việc khai thác, ứng dụng và quản trị thông tin.

Cảm ơn các bạn đã đọc!

Xem thêm:

>>>>MySQL là gì? Sự khác biệt giữa MySQL và SQL Server

>>>>SQL Server là gì? Tổng quan về SQL Server

 

Leave a comment