BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
——-o0o——-
ĐỒ ÁN TỐT NGHIỆP
NGÀNH CÔNG NGHỆ THÔNG TIN
HẢI PHÒNG 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
——-o0o——-
ÁP DỤNG CÁC KỸ THUẬT TRONG BIG DATA
VÀO LƢU TRỮ DỮ LIỆU
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
HẢI PHÒNG – 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
——-o0o——-
ÁP DỤNG CÁC KỸ THUẬT TRONG BIG DATA VÀO
LƢU TRỮ DỮ LIỆU
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Sinh viên thực hiện: Nguyễn Chí Thanh
Giáo viên hƣớng dẫn: Nguyễn Trịnh Đông
Mã số sinh viên: 1212101002
HẢI PHÒNG – 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
——-o0o——-
NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP
Sinh viên: Nguyễn Chí Thanh
Mã sinh viên: 1212101002
Lớp: CT1601
Ngành: Công Nghệ Thông Tin
Tên đề tài: Áp dụng các kỹ thuật trong Big data vào lƣu trữ dữ liệu
NHIỆM VỤ ĐỀ TÀI
1. Nội dung và các yêu cầu cần giải quyết trong nhiệm vụ đề tài tốt nghiệp
a. Nội dung:
– Tìm hiều về các thành phần công nghệ và quản lý Big data.
– Tìm hiểu mô hình xử lý dữ liệu phân tán MapReduce.
– Tìm hiểu hệ thống Hadoop.
– Đề ra phƣơng pháp xây dựng hệ thống.
– Thử nghiệm với các công cụ để giải quyết bài toán.
b. Các yêu cầu cần giải quyết
– Nắm đƣợc các thành phần công nghệ Big data.
– Nắm đƣợc nguyên lý hoạt động mô hình Map Reduece.
– Nắm đƣợc quy trình hoạt động cơ bản của hệ thống Hadoop.
– Áp dụng kiến thức trong xây dựng phần mềm thử nghiệm.
2. Các số liệu cần thiết để thiết kế, tính toán
3. Địa điểm thực tập
CÁN BỘ HƢỚNG DẪN ĐỀ TÀI ĐỀ TÀI TỐT NGHIỆP
Ngƣời hƣớng dẫn thứ nhất:
Họ và tên: Nguyễn Trịnh Đông
Học hàm, học vị: Thạc sĩ
Cơ quan công tác: Trƣờng Đại học Dân lập Hải Phòng
Nội dung hƣớng dẫn:
– Tìm hiều về các thành phần công nghệ và quản lý Big data.
– Tìm hiểu mô hình xử lý dữ liệu phân tán MapReduce.
– Tìm hiểu hệ thống Hadoop.
– Đề ra phƣơng pháp xây dựng hệ thống.
– Thử nghiệm với các công cụ để giải quyết bài toán.
Đề tài tốt nghiệp đƣợc giao ngày 03 tháng 10 năm 2016
Yêu cầu phải hoàn thành trƣớc ngày 30 tháng 12 năm 2016
Đã nhận nhiệm vụ: Đ.T.T.N
Sinh viên
Đã nhận nhiệm vụ: Đ.T.T.N
Cán bộ hƣớng dẫn Đ.T.T.N
Hải Phòng, ngày tháng năm 2016
HIỆU TRƢỞNG
GS.TS.NGƯT Trần Hữu Nghị
PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƢỚNG DẪN
1.
Tinh thần thái độ của sinh viên trong quá trình làm đề tài tốt nghiệp:
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
……………………………………………………………………………………………………………
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
2.
Đánh giá chất lƣợng của đề tài tốt nghiệp (so với nội dung yêu cầu đã đề
ra trong nhiệm vụ đề tài tốt nghiệp)
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
……………………………………………………………………………………………………………
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………..
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
3.
Cho điểm của cán bộ hƣớng dẫn
(Điểm ghi bằng số và chữ)
…………………………………………………………………………………………………………….
……………………………………………………………………………………………………………
Ngày tháng năm 2016
Cán bộ hƣớng dẫn chính
(Ký, ghi rõ họ tên)
PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN BIỆN ĐỀ
TÀI TỐT NGHIỆP
1. Đánh giá chất lƣợng đề tài tốt nghiệp (về các mặt nhƣ cơ sở lý luận,
thuyết minh chƣơng trình, giá trị thực tế,…)
2. Cho điểm của cán bộ phản biện
(Điểm ghi bằng số và chữ)
…………………………………………………………………………………………………………….
…………………………………………………………………………………………………………….
Ngày tháng năm 2016
Cán bộ chấm phản biện
(Ký, ghi rõ họ tên)
1
LỜI CẢM ƠN
Qua thời gian học tập và nghiên cứu tại trƣờng Đại học Dân lập Hải Phòng,
đầu tiên em xin chân thành cảm ơn sâu sắc tới thầy giáo GS.TS NGƢT Trần
Hữu Nghị hiệu trƣởng nhà trƣờng là ngƣời đã tạo điều kiện về cơ sở vật chất
trang thiết bị giúp chúng em học tập và nghiên cứu trong thời gian qua.
Em xin chân thành cảm ơn tới tất cả thầy giáo, cô giáo trong nhà
trƣờng.Em xin chân thành cảm ơn các thầy giáo cô giáo trong Bộ môn Tin học
trực tiếp giảng dạy cho em những kiến thức bổ ích.
Đặc biệt em xin chân thành cảm ơn thầy giáo Nguyễn Trịnh Đông trong
thời gian làm tốt nghiệp vừa qua, thầy đã giành nhiều thời gian và tâm huyết để
hƣớng dẫn em thực hiện đề tài này.
Dƣới đây là kết quả của quá trình tìm hiểu và nghiên cứu mà em đã đạt
đƣợc trong thời gian vừa qua. Mặc dù rất cố gắng và đƣợc thầy cô giúp đỡ
nhƣng do hiểu biết và kinh nghiệm của mình còn hạn chế nên có thể đây chƣa
phải là kết quả mà thầy cô mong đợi từ em. Em rất mong nhận đƣợc những lời
nhận xét và đóng góp quý báu của thầy cô để bài luận văn của em đƣợc hoàn
thiện hơn cũng nhƣ cho em thêm nhiều kinh nghiệm cho công việc sau này.
Em xin chân thành cảm ơn!
Hải Phòng, tháng 12 năm 2016
Sinh viên thực hiện
Nguyễn Chí Thanh
2
MỤC LỤC
MỤC LỤC
………………………………………………………………………………………………. 2
DANH MỤC HÌNH …………………………………………………………………………………. 4
DANH MỤC BẢNG
………………………………………………………………………………… 5
DANH MỤC TỪ VIÊT TẮT
…………………………………………………………………….. 6
LỜI MỞ ĐẦU …………………………………………………………………………………………. 7
CHƢƠNG 1: CÔNG NGHỆ QUẢN LÝ DỮ LIỆU LỚN ……………………………. 9
1.1 Công nghệ nền tảng áp dụng cho Big data ………………………………………….. 9
1.1.1 Tìm hiểu các thành phần công nghệ Big data
…………………………………. 9
1.1.2 Ảo hóa và hỗ trợ tính toán phân tán
…………………………………………….. 16
1.1.3 Kiểm tra đám mây và Big data …………………………………………………… 24
1.2 Quản lý dữ liệu lớn…………………………………………………………………………. 36
1.2.1 Cơ sở dữ liệu hoạt động …………………………………………………………….. 36
1.2.2 Thiết bị và kho dữ liệu lớn
…………………………………………………………. 49
CHƢƠNG 2: XÂY DỰNG KHO DỮ LIỆU VĂN BẢN
……………………………. 51
2.1 Khám phá dữ liệu phi cấu trúc …………………………………………………………. 51
2.2 Tìm hiểu về phân tích văn bản …………………………………………………………. 52
2.3 Phân tích và kỹ thuật khai thác ………………………………………………………… 54
2.3.1 Tìm hiểu thu thập thông tin
………………………………………………………… 56
2.3.2 Nguyên tắc phân loại ………………………………………………………………… 57
2.4 Đƣa kết quả cùng với dữ liệu có cấu trúc ………………………………………….. 57
2.5 Đƣa dữ liệu lớn sử dụng
………………………………………………………………….. 58
2.6 Công cụ phân tích văn bản cho Big data …………………………………………… 60
2.6.1 Attensity ………………………………………………………………………………….. 60
2.6.2 Clarabridge
………………………………………………………………………………. 60
2.6.3 IBM ………………………………………………………………………………………… 61
2.6.4 OpenText
…………………………………………………………………………………. 61
2.6.5 SAS ………………………………………………………………………………………… 62
3
CHƢƠNG 3: HADOOP VÀ THỰC NGHIỆM
…………………………………………. 63
3.1 Giới thiệu hệ thống Hadoop
…………………………………………………………….. 63
3.1.1 Mô hình xử lý dữ liệu phân tán Mapreduce
………………………………….. 63
3.1.2 Hadoop – nền tảng lập trình theo mô hình Mapreduce ………………….. 66
3.1.3 Xây dựng một chƣơng trình chạy trên nền Hadoop ………………………. 73
3.2 Thực nghiệm …………………………………………………………………………………. 76
3.2.1 Hƣớng dẫn cài đặt Hadoop cluster
………………………………………………. 76
3.2.2 Khởi động hệ thống…………………………………………………………………… 80
KẾT LUẬN …………………………………………………………………………………………… 87
TÀI LIỆU THAM KHẢO
……………………………………………………………………….. 88
4
DANH MỤC HÌNH
Hình 2-1: Mẫu hồ sơ cuộc gọi
…………………………………………………………………. 52
Hình 3-1: Mô hình tổng quát của Mapreduce ……………………………………………. 63
Hình 3-2: Quá trình Split
………………………………………………………………………… 64
Hình 3-3: Quá trình Mapper và Shuffle trên một máy
………………………………… 64
Hình 3-4: Quá trình Reduce ……………………………………………………………………. 65
Hình 3-5: Các thành phần của Hadoop cluster ………………………………………….. 67
Hình 3-6: Cơ chế hoạt động của JobTracker và TaskTracker trong Hadoop …. 68
Hình 3-7: Kiến trúc Master/Slave của hệ thống tập tin phân tán Hadoop ……… 70
Hình 3-8: Nhân bản block trong HDFS ……………………………………………………. 71
Hình 3-9: Quá trình đọc dữ liệu trên HDFS
………………………………………………. 72
Hình 3-10: Quy trình ghi dữ liệu trên HDFS theo cơ chế ống dẫn
……………….. 72
Hình 3-11: Quá trình hoạt động của một tác vụ MapReduce trên Hadoop ……. 76
Hình 3-12: Đăng nhập vào tài khoản ngƣời dùng hduser ……………………………. 80
Hình 3-13: Khởi động Hadoop
………………………………………………………………… 80
Hình 3-14: Kiểm tra Hadoop
…………………………………………………………………… 81
Hình 3-15: Trang quản lý Hadoop All Aplications ……………………………………. 82
Hình 3-16: Trang quản lý Hadoop Namenode
…………………………………………… 82
Hình 3-17: Trang quản lý Hadoop SecondaryNamenode
……………………………. 83
Hình 3-18: Trang quản lý Hadoop Directory
…………………………………………….. 83
Hình 3-19: Tắt Hadoop ………………………………………………………………………….. 84
Hình 3-20: Tạo thƣ mục vidu
………………………………………………………………….. 84
Hình 3-21: Thêm file văn bản vào trong thƣ mục vidu ………………………………. 85
Hình 3-22: Thƣ mục vidu và file vanban.txt đƣợc tạo
………………………………… 85
Hình 3-23: Copy thƣ mục vidu vào hdfs
…………………………………………………… 86
5
DANH MỤC BẢNG
Bảng 2-1: Chuyển văn bản phi cấu trúc thành dữ liệu có cấu trúc ……………….. 53
Bảng 2-2: Truy vấn, khai thác dữ liệu, tìm kiếm và phân tích văn bản
…………. 54
Bảng 2-3: Kết hợp dữ liệu có cấu trúc và dữ liệu không có cấu trúc ……………. 58
6
DANH MỤC TỪ VIÊT TẮT
Từ viết tắt
Từ đầy đủ
Diễn giải
API
Application Programming Interfaces
Giao diện lập trình ứng
dụng
XML
Extensible Markup Language
Ngôn ngữ đánh dấu mở
rộng
SQL
Structured Query Language
Ngôn ngữ truy vấn có
cấu trúc
HDFS
Hadoop Distributed File System
Hệ thống phân tán tập tin
của Hadoop
SaaS
Software as a Service
Triển khai phần mềm
nhƣ là một dịch vụ
IaaS
Infrastructure as a Service
Triển khai cơ sở hạ tầng
nhƣ là một dịch vụ
PaaS
Platform as a Service
Triển khai nền tảng nhƣ
là một dịch vụ
DaaS
Data as a Service
Triển khai dữ liệu nhƣ là
một dịch vụ
RDBMS
Relational
Database
Management
System
Hệ thống quản lý cơ sở
dữ liệu quan hệ
KVP
Key-Value pair
Cặp khóa – giá trị
7
LỜI MỞ ĐẦU
Sự phát triển của xã hội dẫn đến bùng nổ dữ liệu trong những thập niên gần
đây. Những sản phẩm công nghệ mới đem lại nhiều tiện ích trong cuộc sống,
đƣợc ứng dụng ở nhiều lĩnh vực thông tin truyền thông. Hệ thống thông tin điện
tử, trực tuyến, các website của những doanh nghiệp tổ chức đƣợc phát triển
mạnh mẽ góp phần tăng cƣờng mối quan hệ, hợp tác ở nhiều lĩnh vực nhƣ văn
hóa xã hội, khoa học công nghệ, y tế, giáo dục, giải trí… Con ngƣời có trong tay
nhiều công cụ để chia sẻ thông tin qua blog, website, diễn đàn, các mạng xã hội
trực tuyến nhƣ Facebook, Twitter, Youtube…Cách đây không lâu, vào năm
2000, chỉ mới có một phần tƣ lƣợng thông tin lƣu trữ ở dạng kỹ thuật số trên thế
giới. Ba phần tƣ còn lại đƣợc lƣu trữ trên giấy tờ, phim, và các phƣơng tiện
analog khác. Nhƣng do lƣợng dữ liệu kỹ thuật số bùng nổ quá nhanh – cứ 3 năm
lại tăng gấp đôi – cục diện trên nhanh chóng đảo ngƣợc. Ngày nay, chỉ dƣới 2%
tổng lƣợng thông tin chƣa đƣợc chuyển sang lƣu trữ ở dạng kỹ thuật số.
Tuy nhiên những phƣơng thức lƣu trữ dữ liệu đã bộc lộ rất nhiều hạn chế.
Ngày nay khối lƣợng dữ liệu vô cùng lớn, kích cỡ lên đến hàng trăm terabyte
cho đến petabyte chỉ cho một tập hợp dữ liệu. Cùng với đó khi mà hơn 80% dữ
liệu sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, dữ liệu cảm
biến, thiết bị chăm sóc sức khỏe…) thì những phƣơng pháp lƣu trữ dữ liệu
truyền thống không thể đảm đƣơng đƣợc. Những phƣơng pháp đó không cho
phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Khối lƣợng dữ liệu gia
tăng nhanh nhƣng tốc độ xử lý dữ liệu (thu nhận, xử lý, đáp trả) mất rất nhiều
thời gian trong khi nhu cầu của con ngƣời muốn xử lý đƣợc ngay dữ liệu tức
thời (tính đến bằng mili giây). Điều đó thúc đẩy con ngƣời tạo ra một phƣơng
pháp và quản lý dữ liệu khác phù hợp hơn.
Và Big data ra đời đã đánh dấu một trang mới trong lịch sử phát triển công
nghệ. Big data là một hệ thống dữ liệu liệu vô cùng lớn, đến mức không thể lƣu
trữ trong các hệ thống cơ sở dữ liệu truyền thống. Sự phức tạp và không thể định
hình thành một thể thống nhất của dữ liệu Big data cũng là một nhân tố làm nó
trở nên khó đồng bộ để lƣu trữ trong một hệ thống cơ sở dữ liệu truyền thống.
Dữ liệu đƣợc thu thập từ nhiều nguồn khác nhau bao gồm: dữ liệu không giới
hạn từ internet, web 2.0, từ các thiết bị nghiên cứu (dữ liệu thiên văn, dịch vụ y
tế…), dữ liệu từ các thiết bị thông minh (hay còn gọi là smart device). Do đó nó
mang cấu trúc không cố định.Big data đã thể hiện đƣợc sức mạnh và tầm ảnh
hƣởng đến mọi lĩnh vực trong xã hội.
8
Trong đề tài này em sẽ trình bày về công nghệ quản lý Big data, mô hình
xử lý dữ liệu phân tán Mapreduce và hệ thống Hadoop.
9
CHƢƠNG 1: CÔNG NGHỆ QUẢN LÝ DỮ LIỆU LỚN
1.1 Công nghệ nền tảng áp dụng cho Big data
1.1.1 Tìm hiểu các thành phần công nghệ Big data
Big data có số lƣợng dữ liệu lƣu trữ rất lớn và thƣờng lƣu trữ các dòng dữ
liệu có kiểu khác nhau ở tốc độ cao. Nhiều kĩ sƣ phần mềm dầy dặn kinh nghiệm
và các nhà phát triển biết cách để nhắm đến một thậm chí là hai tình huống này
hoàn toàn dễ dàng. Ví dụ, nếu bạn phải đối mặt dữ liệu lớn cần giải quyết cùng
với yêu cầu khả năng chịu lỗi, bạn có thể lựa chọn triển khai cụm cơ sở dữ liệu
dƣ thừa trong trung tâm cơ sở dữ liệu với cơ sở hạ tầng mạng rất nhanh. Tƣơng
tự, nếu yêu cầu là kết hợp nhiều loại dữ liệu khác nhau từ sự hiểu biết và các
nguồn thông tin ẩn danh, lựa chọn có thể là xây dựng một mô hình di chuyển
kho dữ liệu theo yêu cầu của khách hàng.
Tuy nhiên bạn có thể không có không đủ điều kiện để triển khai cụ thể. Khi
bạn rời khỏi nơi mình có quyền điều khiển và kiểm soát dữ liệu chặt chẽ, bạn
cần tạo ra một mô hình kiến trúc để nhắm đến loại môi trƣờng lai. Môi trƣờng
mới này đòi hỏi kiến trúc này phải hiểu về tính chất của Big data và yêu cầu để
đƣa kiến thức vào giải pháp kinh doanh. Trong chƣơng này chúng ta sẽ tìm hiểu
về kiến trúc liên quan đến dữ liệu lớn.
1.1.1.1 Sự dư thừa cơ sở hạ tầng vật lý
Ở cấp thấp nhất là cơ sở hạ tầng vật lý nhƣ phần cứng, mạng, … Công ty
của bạn có thể đã có trung tâm dữ liệu hoặc đƣợc đầu tƣ cơ sở vật chất nên bạn
muốn tìm một cách để sử dụng dữ liệu hiện hữu. Thi hành dữ liệu lớn có yêu cầu
rất cụ thể trên tất cả các phần tử trong kiến trúc tham khảo, vì thế bạn cần kiểm
tra những yêu cầu này về nền tảng cơ sở lớp – lớp để đảm bảo sẽ thực hiện và
nâng cấp theo đúng yêu cầu của công ty. Điều quan trọng là phải thực hiện theo
đúng nguyên tắc. Mức độ ƣu tiên theo danh sách nguyên tắc này bao gồm:
– Performance (Hiệu năng): Thực thi thƣờng đƣợc tiến hành nối đuôi
nhau dựa trên một giao dịch hay một câu hỏi có yêu cầu ở tốc độ rất
nhanh (hiệu suất cao), do vậy chi phí cho cơ sở hạ tầng thƣờng rất tốn
kém.
10
– Availability (Tính sẵn có): Bạn có cần đảm bảo thời gian dịch vụ 100%?
Công ty của bạn có thể chờ đƣợc bao lâu trong trƣờng hợp dịch vụ gián
đoạn hoặc không đạt yêu cầu? Cơ sở hạ tầng đảm bảo tính sẵn sàng cao
cũng rất tốn kém.
– Scalability (Khả năng mở rộng): Cơ sở hạ tầng của bạn cần đƣợc mở
rộng nhƣ thế nào? Dung lƣợng đĩa cần bao nhiêu để đảm bao yêu cầu
trong thời điểm hiện tại và tƣơng lai?
– Flexibility (Linh hoạt): Bạn thêm tài nguyên vào cơ sở hạ tầng sớm nhất
là khi nào? Cơ sở hạ tầng khôi phục sau thất bại nhanh mức nào? Cơ sở
hạ tầng đạt mức linh hoạt nhất rất tốn kém nhƣng có thể kiểm soát bằng
dịch vụ điện toán đám mây, nơi bạn chỉ trả tiền cho những gì bạn thực
sự sử dụng.
– Cost (Chi phí): Bạn có thể đủ khả năng chi trả cho cái gì? Bởi cơ sở hạ
tầng là tập hợp của rất nhiều thành phần, bạn có thể mua hệ thống mạng
tốt nhất và tiết kiệm tiền cho việc lƣu trữ hoặc ngƣợc lại. Bạn cần lập
yêu cầu đối với mỗi lĩnh vực trong hoàn cảnh ngân sách cụ thể và chi trả
cho những nơi cần thiết.
Big data hoàn toàn tập trung vào tốc độ xử lý cao, khả năng lƣu trữ dữ liệu
lớn và đa dạng nên cơ sở vật chất theo nghĩa đen sẽ quyết định đến sự thành bại
của việc thực hiện. Hầu hết việc thực thi Big data cần ở mức độ sẵn sàng cao
nên mạng, server và bộ lƣu trữ phải vừa có thể thay đổi (mở rộng, thu hẹp), vừa
phải tránh dƣ thừa. Khả năng thay đổi và dƣ thừa có mối quan hệ với nhau. Về
bản chất luôn có lý do khiến cho ngay cả hệ thống mạng tốt nhất cũng có thể bị
lỗi nhƣ là một trục trặc phần cứng. Do đó công nghệ dự phòng đảm bảo rằng
trục trặc này sẽ không gây ra ngƣng trệ.
a. Sự dƣ thừa mạng
Mạng nên dƣ thừa và phải có đủ khả năng thích ứng trƣớc số lƣợng và tốc
độ của dữ liệu ra vào trong mạng lƣới giao thông trên mạng. Khi bạn bắt đầu
làm về Big data, mạng là phần thiết yếu trong chiến lƣợc tin học của bạn. Nó là
cơ sở để gia tăng số lƣợng và vận tốc.
Những ngƣời thiết kế cơ sở hạ tầng nên lập kế hoạch cho hệ thống mạng.
Khi lƣu lƣợng giao thông mạng thay đổi (tăng, giảm), có sự ảnh hƣởng tới tài
sản vật chất liên quan đến việc triển khai thực hiện. Cơ sở hạ tầng của bạn nên
đƣa ra khả năng giám sát giúp ngƣời điều hành có thể phản ứng khi lƣợng tài
nguyên tăng lên dẫn đến thay đổi khối lƣợng công việc.
11
b. Quản lý phần cứng: Bộ lƣu trữ và Server
Phần cứng (bộ lƣu trữ và server) phải có đủ tốc độ và năng lực xử lý tất cả
các khả năng của Big data. Đó là sử dụng một ít để có mạng tốc độ cao cùng với
các server chậm bởi vì các máy chủ có thể trong tình trạng thắt nút cổ chai. Tuy
nhiên một bộ lƣu trữ dữ liệu nhanh và tính toán các máy chủ có thể vƣợt qua
hiệu suất mạng. Tất nhiên, sẽ không có gì hoạt động tốt nếu hiệu suất mạng thấp
và kém chất lƣợng.
c. Hoạt động cơ sở hạ tầng
Một thiết kế quan trọng cần quan tâm là quản lý hoạt động cơ sở hạ tầng.
Mức cao nhất về hiệu suất và tính linh hoạt chỉ xuất hiện trong một môi trƣờng
đƣợc quản lý tốt. Các nhà quản lý dữ liệu có thể dự đoán và ngăn chặn các thất
bại thảm hại, nhƣ vậy giữ đƣợc sự toàn vẹn của dữ liệu và duy trì quy trình
nghiệp vụ.
1.1.1.2 Cơ sở hạ tầng an ninh
An ninh và bảo mật trong Big data tƣơng tự nhƣ các yêu cầu về môi trƣờng
dữ liệu thông thƣờng. Các yêu cầu về an ninh phải đƣợc liên kết chặt chẽ với
nhu cầu nghiệp vụ cụ thể. Một số thách thức phát sinh khi Big data trở thành
một phần của chiến lƣợc bao gồm:
– Truy cập dữ liệu: Khả năng truy cập dữ liệu của ngƣời dùng để tính toán
dữ liệu lớn có cùng mức độ yêu cầu kĩ thuật nhƣ triển khai dữ liệu
không lớn. Dữ liệu cần có chỉ dành cho những ngƣời có nhu cầu nghiệp
vụ để kiểm tra hoặc tƣơng tác với nó. Hầu hết các nền tảng lƣu trữ dữ
liệu có hệ thống an ninh nghiêm ngặt và thƣờng đƣợc tăng cƣờng với
mộ khả năng nhận dạng hợp nhất, cung cấp truy cập thích hợp trên
nhiều lớp của kiến trúc.
– Truy cập ứng dụng: Truy cập dữ liệu ứng dụng cũng tƣơng đối đơn giản
từ góc độ kĩ thuật. Hầu hết các giao diện lập trình ứng dụng (API) cung
cấp bảo vệ từ việc sử dụng trái phép hoặc truy cập. Mức độ bảo vệ thích
hợp nhất cho triển khai thực hiện Big data.
12
– Mã hóa dữ liệu: Mã hóa dữ liệu là thách thức lớn nhất về bảo mật trong
môi trƣờng Big data. Trong môi trƣờng truyền thống, mã hóa và giải mã
dữ liệu thực sự cần nguồn lực lớn của hệ thống. Với khối lƣợng, tốc độ
và sự đa dạng của Big data, vấn đề này càng khó khăn hơn. Mã hóa dữ
liệu là cách tốt nhất để cung cấp khả năng tính toán nhiều hơn và nhanh
hơn. Tuy nhiên điều này đi kèm với một bảng giá. Do vậy cần xác định
phần dữ liệu nào cần bảo mật và để mã hóa các mục cần thiết.
– Phát hiện đe dọa: Bao gồm các thiết bị di động và các mạng xã hội theo
cấp số nhân tăng cả số lƣợng dữ liệu và các mối đe dọa an ninh. Do đó
điều quan trọng là các tổ chức có cách tiếp cận vòng ngoài an ninh.
1.1.1.3 Giao diện ứng dụng và Internet
Cơ sở hạ tầng vật lý cho phép tất cả mọi thứ và cơ sở hạ tầng an ninh bảo
vệ tất cả các yếu tố trong môi trƣờng Big data. Các cấp độ tiếp theo là các giao
diện mà cung cấp truy cập hai chiều cho tất cả các thành phần của Stack – từ các
ứng dụng doanh nghiệp đến dữ liệu từ Internet. Một phần quan trọng của việc
thiết kế các giao diện này là tạo ra một cấu trúc phù hợp có thể chia sẻ cả bên
trong lẫn bên ngoài công ty cũng nhƣ các đối tác trong kinh doanh.
Trong nhiều thập kỷ, các lập tình viên đã sử dụng API để cung cấp truy cập
đến và đi từ việc triển khai phần mềm. Các nhà cung cấp công cụ và công nghệ
sẽ đi đến độ dài lớn để đảm bảo rằng nó là một nhiệm vụ tƣơng đối đơn giản để
tạo ra các ứng dụng mới sử dụng sản phẩm của họ. Nó cần thiết cho các chuyên
gia CNTT để tạo ra tùy chỉnh hoặc các API độc quyền cho công ty. Bạn cần làm
điều này cho lợi thế cạnh tranh, một số nhu cầu nghiệp vụ và đó không phải là
một nhiệm vụ đơn giản. API cần đƣợc lƣu trữ và duy trì để bảo toàn giá trị cho
doanh nghiệp. Vì lý do này, một số công ty lựa chọn để sử dụng bộ công cụ API
để có đƣợc một bƣớc nhảy về hoạt động quan trọng này.
Bộ công cụ API có một vài ƣu điểm so với các API phát triển nội bộ. Đầu
tiên là bộ công cụ API là sản phẩm đƣợc tạo ra, đƣợc quản lý và duy trì bởi một
bên thứ ba dộc lập. Thứ hai, chúng đƣợc thiết kế để giải quyết một yêu cầu kỹ
thuật cụ thể. Nếu bạn cần các API cho ứng dụng web hoặc ứng dụng di động, có
nhiều lựa chọn cho bạn bắt đầu.
13
Bởi vì thu thập dữ liệu và chuyển động có đặc điểm rất giống nhau, có thể
thiết kế một bộ dịch vụ để thu thập, làm sạch, biến đổi, chuẩn hóa và lƣu trữ
các dữ liệu lớn trong hệ thống lƣu trữ. Để tạo ra sự linh hoạt khi cần thiết, các
nhà máy đƣợc điều khiển cùng với mô tả giao diện đƣợc viết bằng Extensible
Markup Language (XML). Mức độ này cho phép các giao diện cụ thể đƣợc tạo
ra một cách dễ dàng và nhanh chóng mà không cần phải xây dựng các dịch vụ
cụ thể cho từng nguồn dữ liệu.
1.1.1.4 Cơ sở dữ liệu hoạt động
Ở lõi của môi trƣờng Big data là những cơ sở dữ liệu chứa các phần dữ liệu
liên quan đến công ty của bạn. Không có sự lựa chọn duy nhất đúng liên quan
đến ngôn ngữ cơ sở dữ liệu. Mặc dù SQL là ngôn ngữ thông dụng truy vấn cơ sở
dữ liệu nhƣng các ngôn ngữ khác cũng có thể cung cấp một cách hiệu quả hơn.
Ví dụ nếu bạn sử dụng một mô hình quan hệ, bạn có thể sử dụng SQL để truy
vấn nó. Tuy nhiên bạn có thể sử dụng ngôn ngữ khác nhƣ Python hay Java. Nó
là rất quan trọng để hiểu các dạng dữ liệu có thể đang bị điều khiển bởi cơ sở dữ
liệu và hỗ trợ các hành vi giao dịch đúng. Nhà thiết kế cơ sở dữ liệu mô tả hành
vi này với ACID. Nó tƣợng trƣng cho:
– Atomicity (Mức nguyên tử): Một giao dịch là “tất cả hoặc không có gì”
khi nó ở mức nguyên tử. Nếu bất cứ phần nào của giao dịch hoặc những
thất bại của hệ thống ở mức cơ bản thì toàn bộ giao dịch sẽ thất bại.
– Consistency (Tính nhất quán): Chỉ những giao dịch với dữ liệu hợp lệ sẽ
đƣợc thực hiện trên cơ sở dữ liệu. Nếu dữ liệu bị hỏng hoặc không phù
hợp thì các giao dịch sẽ không đƣợc hoàn thành và dữ liệu sẽ không
đƣợc lƣu vào cơ sở dữ liệu.
– Isolation (Độc lập): Nhiều giao dịch diễn ra đồng thời sẽ không tác động
vào nhau. Tất cả các giao dịch hợp lệ sẽ thực hiện cho đến khi hoàn
thành và theo thứ tự chúng đƣợc gửi đến để xử lý.
– Durability (Độ bền vững): Sau khi dữ liệu từ các giao dịch đƣợc ghi vào
cơ sở dữ liệu, nó sẽ nằm ở đó mãi mãi.
1.1.1.5 Tổ chức dịch vụ và công cụ dữ liệu
Tổ chức dịch vụ dữ liệu và các công cụ xác thực, lắp ráp các phần khác
nhau thành phần dữ liệu lớn đƣa vào bộ sƣu tập theo ngữ cảnh có liên quan. Bởi
vì là dữ liệu lớn nên kỹ thuật đã tiến hóa để xử lý dữ liệu hiệu quả và liên tục.
14
Tổ chức dịch vụ dữ liệu, trong thực tế là một hệ sinh thái của các công cụ
và công nghệ có thể đƣợc sử dụng để thu thập và tổng hợp số liệu. Nhƣ vậy các
công cụ cần tích hợp, dịch thuật, chuẩn hóa, phạm vi. Công nghệ trong lớp này
bao gồm:
– Một hệ thống tập tin phân phối: cần thiết để thích ứng với sự phân tách
của các luồng dữ liệu và cung cấp khả năng lƣu trữ.
– Dịch vụ chuyển đổi cấu trúc: cần thiết cho việc lƣu trữ dữ liệu bền vững
và các cuộc gọi thủ tục đa ngôn ngữ từ xa (RPC).
– Dịch vụ điều phối: cần thiết cho việc xây dựng ứng dụng phân tán.
– Trích đoạn, biến đổi, tải (ETL): cần thiết cho việc tải và chuyển đổi cấu
trúc – phi cấu trúc vào Hadoop.
– Dịch vụ tiến độ công việc: cần thiết cho việc lập kế hoạch và cung cấp
một cấu trúc để đồng bộ hóa yếu tố quá trình trên lớp.
1.1.1.6 Kho dữ liệu phân tích
Các kho dữ liệu từ lâu đã đƣợc coi là các kỹ thuật chính mà các tổ chức sử
dụng để tối ƣu hóa dữ liệu để giúp các nhà sản xuất quyết định. Thông thƣờng,
các kho dữ liệu bình thƣờng thu thập từ nhiều nguồn khác nhau và lắp ráp để tạo
điều kiện phân tích của doanh nghiệp. Kho dữ liệu đơn giản hóa việc tạo ra các
báo cáo và trực quan của các mục dữ liệu khác nhau. Chúng thƣờng đƣợc tạo ra
từ cơ sở dữ liệu quan hệ, cơ sở dữ liệu đa chiều, các tập tin phẳng, và cơ sở dữ
liệu đối tƣợng – về cơ bản của bất kỳ kiến trúc lƣu trữ. Trong một môi trƣờng
truyền thống, nơi hiệu suất có thể không phải là ƣu tiên cao nhất, sự lựa chọn
của các công nghệ cơ bản đƣợc điều khiển bởi các yêu cầu cho việc phân tích,
báo cáo và trực quan của dữ liệu công ty.
Là một tổ chức dữ liệu và nó luôn sẵn sàng để phân tích, triển khai hầu hết
kho dữ liệu đƣợc lƣu giữ qua hàng loạt quá trình. Vấn đề là kho dữ có thể không
đủ cho nhiều ứng dụng dữ liệu lớn. Sự căng thẳng áp đặt bởi các dòng dữ liệu
tốc độ cao có khả năng đòi hỏi một cách tiếp cận thời gian thực hơn với kho dữ
liệu lớn. Điều này không có nghĩa là bạn sẽ không đƣợc tạo ra và cung cấp một
kho dữ liệu và phân tích một siêu kho dữ liệu với các quá trình thực thi. Thay
vào đó, bạn có thể sẽ có kho dữ liệu hoặc siêu kho dữ liệu, hiệu suất và quy mô
sẽ phản ánh kịp thời yêu cầu của các nhà phân tích và ra quyết định.
15
Bởi vì kho nhiều dữ liệu và siêu kho dữ liệu đƣợc bao gồm các dữ liệu thu
thập từ nhiều nguồn khác nhau trong công ty, các chi phí liên quan đến việc làm
sạch và bình thƣờng hóa của dữ liệu cũng phải đƣợc giải quyết. Với dữ liệu lớn,
bạn tìm thấy một số khác biệt quan trọng:
– Dòng dữ liệu truyền thống (từ giao dịch, ứng dụng, vv) có thể sản xuất
rất nhiều dữ liệu khác nhau.
– Hàng chục các nguồn dữ liệu mới cũng tồn tại, một trong số chúng cần
một số thao tác xử lý trƣớc khi nó có thể đƣợc dùng cho doanh nghiệp.
– Nguồn nội dung cũng sẽ cần phải đƣợc làm sạch, và có những yêu cầu
kỹ thuật khác nhau để có thể sử dụng với dữ liệu có cấu trúc.
Trong lịch sử, các nội dung của kho dữ liệu và siêu kho dữ liệu đƣợc tổ
chức và giao cho các nhà lãnh đạo kinh doanh phụ trách chiến lƣợc và quy
hoạch. Với dữ liệu lớn, chúng ta đang nhìn thấy các đội đƣợc tận dụng dữ liệu
cho việc ra quyết định. Nhiều triển khai dữ liệu lớn cung cấp khả năng thời gian
thực, vì vậy doanh nghiệp sẽ có thể cung cấp nội dung cho phép các cá nhân với
vai trò hoạt động để giải quyết các vấn đề nhƣ hỗ trợ khách hàng, cơ hội kinh
doanh, và thực thi dịch vụ trong thời gian thực gần. Bằng cách này, dữ liệu lớn
giúp di chuyển hành động từ các văn phòng trở lại văn phòng.
1.1.1.7 Phân tích Big data
Hiện tại công cụ phân tích kỹ thuật và sẽ rất hữu ích trong việc đƣa ra ý
nghĩa của dữ liệu lớn. Tuy nhiên, có một nhƣợc điểm. Các thuật toán là một
phần của những công cụ này có để có thể làm việc với một lƣợng lớn có khả
năng thời gian thực và dữ liệu khác nhau. Các cơ sở hạ tầng sẽ cần phải đƣợc
thực hiện để hỗ trợ. Các nhà cung cấp các công cụ phân tích cũng cần phải đảm
bảo rằng các thuật toán của họ làm việc qua việc triển khai phân phối.
– Báo cáo và biểu đồ: Những công cụ này cung cấp một đại diện “thân
thiện” của thông tin từ các nguồn khác nhau. Mặc dù là một trụ cột
trong thế giới dữ liệu truyền thống, chúng vẫn đang phát triển đối với dữ
liệu lớn. Một số công cụ đang đƣợc sử dụng là loại mới của cơ sở dữ
liệu gọi chung là NoSQL.
16
– Hình dung: Những công cụ này là bƣớc tiếp theo trong quá trình báo
cáo. Các đầu ra có xu hƣớng đƣợc tƣơng tác cao và năng động trong tự
nhiên. Một khác biệt quan trọng giữa các báo cáo đầu ra và hình dung là
hình ảnh động. Ngƣời dùng doanh nghiệp có thể xem các thay đổi trong
các dữ liệu sử dụng một loạt các kỹ thuật hiển thị khác nhau, bao gồm
bản đồ tâm trí, bản đồ nhiệt, bản đồ thông tin, và sơ đồ kết nối. Thông
thƣờng, báo cáo và hình dung xảy ra ở phần cuối của các hoạt động kinh
doanh. Mặc dù các dữ liệu có thể đƣợc nhập khẩu vào một công cụ khác
để tính toán thêm, kiểm tra, đây là bƣớc cuối cùng.
– Phân tích: Những công cụ tiếp cận vào kho dữ liệu và xử lý dữ liệu cho
ngƣời dùng.
1.1.1.8 Những ứng dụng của Big data
Tuỳ chỉnh và bên thứ ba ứng dụng cung cấp một phƣơng pháp khác để chia
sẻ và kiểm tra các nguồn dữ liệu lớn. Mặc dù tất cả các lớp của kiến trúc tham
khảo rất quan trọng trong quyền riêng của họ, lớp này là nơi gồm hầu hết đổi
mới và sáng tạo.
Giống nhƣ bất kỳ sáng kiến phát triển ứng dụng nào, việc tạo ra các ứng
dụng dữ liệu lớn sẽ yêu cầu cơ cấu, tiêu chuẩn, sự chặt chẽ, và API đƣợc xác
định rõ. Hầu hết các ứng dụng kinh doanh muốn tận dụng dữ liệu lớn sẽ cần phải
đăng ký để API trên toàn bộ stack. Nó có thể là cần thiết để xử lý dữ liệu thô từ
các cửa hàng dữ liệu cấp thấp và kết hợp các dữ liệu thô với lƣợng dữ liệu đƣợc
tổng hợp từ các kho hàng.
Big data di chuyển nhanh chóng và thay đổi trong chớp mắt, vì vậy nhóm
phát triển phần mềm cần nhanh chóng tạo ra các ứng dụng phù hợp để giải quyết
những thách thức kinh doanh của thời điểm này. Các công ty có thể cần phải suy
nghĩ về việc tạo phát triển nhanh chóng đáp ứng với những thay đổi trong môi
trƣờng kinh doanh bằng cách tạo và triển khai các ứng dụng theo yêu cầu. Trong
thực tế, nó có thể thích hợp hơn để nghĩ về những ứng dụng nhƣ “tùy chỉnh bán”
bởi vì chúng liên quan đến lắp ráp hơn thực tế mã hóa ở mức độ thấp.
1.1.2 Ảo hóa và hỗ trợ tính toán phân tán
Ảo hóa là một công nghệ nền tảng áp dụng đối với việc thực hiện điện toán
đám mây và dữ liệu lớn. Nó cung cấp cơ sở cho nhiều thuộc tính nền tảng cần
thiết để truy cập, lƣu trữ, phân tích và quản lý các thành phần tính toán phân tán
trong môi trƣờng dữ liệu lớn. Ảo hóa – quá trình sử dụng tài nguyên máy tính
bắt chƣớc các nguồn lực khác – đƣợc đánh giá cao vì khả năng của nó để tăng
nguồn lực CNTT hiệu quả và khả năng mở rộng. Một ứng dụng chính của ảo
17
hóa là hợp nhất máy chủ, giúp các tổ chức nâng cao việc sử dụng các máy chủ
vật lý và có khả năng tiết kiệm chi phí cơ sở hạ tầng. Tuy nhiên, có thể tìm thấy
nhiều lợi ích của ảo hóa. Các công ty mà ban đầu chỉ tập trung vào công nghệ ảo
hóa máy chủ hiện nay đang nhận ra rằng nó có thể đƣợc áp dụng trên cơ sở hạ
tầng CNTT toàn bộ, bao gồm cả các phần mềm, lƣu trữ và hệ thống mạng.
1.1.2.1 Tìm hiểu những vấn đề cơ bản của ảo hóa
Ảo hóa phân tách nguồn lực và dịch vụ từ các môi trƣờng phân phối vật lý
cơ bản, cho phép bạn tạo ra nhiều hệ thống ảo trong một hệ thống vật lý duy
nhất. Một trong những lý do chính mà các công ty đã thực hiện ảo hóa là để cải
thiện hiệu suất và hiệu quả xử lý kết hợp đa dạng của các khối lƣợng công việc.
Thay vì chỉ định một nhóm dành riêng cho các nguồn lực vật chất để mỗi nhóm
thực hiện nhiệm vụ, một nhóm gộp tài nguyên ảo để có thể nhanh chóng phân bổ
trên tất cả các khối lƣợng công việc. Sự phụ thuộc vào biển tài nguyên ảo cho
phép các công ty cải thiện độ trễ. tăng tốc độ cung cấp dịch vụ và hiệu quả. Đây
là một chức năng của bản chất phân tán của các môi trƣờng ảo hóa và giúp cải
thiện tổng thể thời gian tới giá trị.
Sử dụng một bộ phân phối các nguồn lực vật chất, chẳng hạn nhƣ máy chủ,
một cách linh hoạt và hiệu quả mang lại lợi ích đáng kể trong điều kiện cần tiết
kiệm chi phí và cải thiện năng suất. Việc thực hành có nhiều lợi ích, bao gồm
những điều sau đây:
– Ảo hóa các nguồn lực vật chất (nhƣ máy chủ, lƣu trữ, và các mạng) cho
phép cải thiện đáng kể trong việc sử dụng các nguồn lực này.
– Ảo hóa cho phép cải tiến kiểm soát việc sử dụng và hiệu suất của nguồn
lực CNTT.
– Ảo hóa có thể cung cấp một mức độ tự động hóa và tiêu chuẩn hóa để
tối ƣu hóa môi trƣờng máy tính.
– Ảo hóa cung cấp nền tảng cho điện toán đám mây.
Mặc dù có thể sử dụng ảo hóa để bổ sung nguồn lực song ảo hóa không
phải là không tốn chi phí. Tài nguyên ảo phải đƣợc quản lý để đảm bảo an toàn.
Một hình ảnh có thể là một kỹ thuật cho kẻ lạ xâm nhập truy cập trực tiếp vào
trong hệ thống. Nếu công ty không có một quá trình xóa những hình ảnh không
sử dụng, hệ thống sẽ không còn hoạt động hiệu quả.