9320_4.3.25. Tìm hiểu phần mềm mã nguồn mở GREENSTONE và ứng dụng

luận văn tốt nghiệp

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ PHẦN MỀM

NGUYỄN THÀNH QUY – LÊ HOÀNG NGỌC QUỲNH

TÌM HIỂU NGUỒN MỞ GREENSTONE
VÀ ỨNG DỤNG

KHOÁ LUẬN CỬ NHÂN TIN HỌC

TP. HCM, 2005

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ PHẦN MỀM

SINH VIÊN THỰC HIỆN

NGUYỄN THÀNH QUY

0112195
LÊ HOÀNG NGỌC QUỲNH
0112471

TÌM HIỂU NGUỒN MỞ GREENSTONE
VÀ ỨNG DỤNG

KHOÁ LUẬN CỬ NHÂN TIN HỌC

GIÁO VIÊN HƯỚNG DẪN

ThS. NGUYỄN THỊ BÍCH

NIÊN KHOÁ 2001 – 2005

i
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………

………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………

………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………

Thành phố Hồ Chí Minh, ngày tháng 07 năm 2005
Giáo viên hướng dẫn

ii
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………

Thành phố Hồ Chí Minh, ngày tháng 07 năm 2005
Giáo viên phản biện

iii
LỜI CẢM ƠN
Chúng em xin chân thành cảm ơn Khoa Công nghệ Thông tin, Thư viện Cao
học Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi
cho chúng em hoàn thành đề tài Tốt nghiệp này.
Chúng em xin chân thành cảm ơn Th.S Nguyễn Thị Bích đã rất tận tình
hướng dẫn, chỉ bảo chúng em trong suốt thời gian thực hiện đề tài vừa qua.
Chúng em cũng xin chân thành cảm ơn tất cả các Thầy, các Cô trong Khoa
đã tận tình giảng dạy, trang bị cho chúng em những kiến thức cần thiết, quý báu
trong những năm tháng học tập tại Trường. Xin cảm ơn Thầy Trần Minh Triết,
Thầy Nguyễn Đình Khương cũng như Thầy Cô và các anh chị trong Phòng SeLab
đã tạo điều kiện giúp đỡ chúng em thực hiện đề tài.
Qua đây, chúng tôi cũng muốn bày tỏ lòng biết ơn của mình đến các giáo sư
Đại học Waikato, New Zealand, đặc biệt là giáo sư I.H.Witten và giảng viên
Katherine Don. Xin cảm ơn sự giúp đỡ chân thành của bạn bè khắp thế giới.
Xin cảm ơn sự giúp đỡ của các bạn, những người luôn bên cạnh và giúp đỡ
chúng tôi.
Và cuối cùng, chúng con xin tỏ lòng biết ơn sâu sắc đến ông bà, bố mẹ, và cả
gia đình đã nuôi dưỡng, giáo dục và luôn động viên để chúng con có ngày hôm nay.
Mặc dù chúng em đã cố gắng hoàn thành Luận văn với tất cả sự nỗ lực của
bản thân, nhưng chắc chắn Luận văn vẫn không thể tránh khỏi những thiếu sót nhất
định, kính mong nhận được sự cảm thông và chỉ bảo tận tình của Quý Thầy Cô và
các bạn.

TP. HCM, tháng 7 năm 2005

Nhóm sinh viên thực hiện

Thành Quy & Ngọc Quỳnh

iv

MỞ ĐẦU
Sống trong kỷ nguyên của sự bùng nổ thông tin như hiện nay, một vấn đề
quan trọng đặt ra là làm sao quản lý thông tin hiệu quả, khoa học nhất, để có thể tìm
ra một vài thông tin hữu ích trong hàng ngàn, hàng triệu thông tin nhanh chóng,
chính xác.
Chúng ta đều biết, cách quản lý tài liệu truyền thống chủ yếu trên giấy có
những hạn chế nhất định, không chỉ tốn kém không gian lưu trữ, mà còn chiếm
nhiều thời gian khi muốn tìm kiếm thông tin. Ngoài ra còn khó bảo quản trong thời
gian lâu dài dưới những điều kiện xấu, dễ hư hỏng, mất mát. Chưa kể việc khai thác
sản xuất giấy làm ảnh hưởng tới môi trường sinh thái.
Máy tính ra đời, giúp giải quyết rất nhiều vấn đề liên quan đến việc quản lý
thông tin. Hình thức lưu trữ tài liệu dưới dạng điện tử ngày càng thông dụng hơn.
Thử làm một ví dụ nhỏ để so sánh giữa hình thức lưu trữ trên giấy với trên máy
tính, ở dạng điện tử. Mỗi hình thức lưu trữ có những ưu khuyết điểm riêng nhưng ở
đây chỉ so sánh về không gian lưu trữ, và thời gian tìm kiếm, truy xuất thông tin, mà
không tính đến những yếu tố khác. Đơn vị dung lượng lưu trữ phổ biến hiện nay là
Gigabyte. Một cuốn sách 200 trang lưu trên đĩa cần khoảng 1 megabyte. Như vậy
một gigabyte có thể lưu trữ khoảng một ngàn cuốn sách điện tử. Trong khi đó, để
lưu trữ một ngàn cuốn sách giấy truyền thống cần một kệ sách đầy từ sàn cho đến
trần nhà, chưa kể tiền mặt bằng, tiền in ấn, phát hành! Khi mà yêu cầu thông tin đòi
hỏi nhanh chóng, chính xác, tài liệu điện tử càng thể hiện những khả năng ưu việt
của mình. Cảm thấy rất tâm đắc với những hệ thống quản lý dữ liệu như vậy, chúng
em đã chọn đề tài “Tìm hiểu nguồn mở Greenstone và Ứng dụng” để làm đề tài Tốt
nghiệp, với mong muốn hiểu thêm về cách quản lý thông tin, từ đó mong muốn
đóng góp phần nào vào việc xây dựng thư viện điện tử cho Khoa Công nghệ Thông
tin, Trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh.

v
NỘI DUNG

Nội dung Luận văn được tổ chức thành 9 chương:
Chương 1 – Tổng quan. Giới thiệu về thư viện điện tử và Greenstone.
Trong chương này sẽ trình bày lý do và các mục tiêu khi thực hiện đề tài.
Chương 2 – Các khái niệm cơ bản trong Greenstone. Mục đích của chương
này là giải thích, làm sáng rõ những khái niệm quan trọng trong Greenstone.
Chương 3 – Xây dựng bộ sưu tập. Tìm hiểu các quá trình thực thi của
Greenstone để tạo nên một bộ sưu tập hoàn chỉnh.
Chương 4 – Hiệu chỉnh giao diện của Greenstone. Khai thác khả năng tuỳ
biến cao của Greenstone để thay đổi giao diện cho phù hợp với yêu cầu thực tế.
Chương 5 – Hệ thống Web Greenstone. Đi sâu vào những khái niệm nâng
cao của hệ thống Greenstone, tập trung vào phần xử lý trên web của hệ thống.
Chương 6 – Xây dựng ứng dụng. Xây dựng thư viện số ITDL cho Khoa.
Trong chương này sẽ xác định yêu cầu thực tế, xác định hai mô-đun chính của hệ
thống: ITLib và ITLibWeb.
Chương 7 – ITLib – Mô-đun xử lý offline. Chương này phân tích thiết kế
hệ thống ITLib với chức năng chính là tạo các bộ sưu tập.
Chương 8 – ITLibWeb – Mô-đun xử lý online. Chương này sẽ phân tích,
thiết kế hệ thống ITLibWeb với giao diện web, tạo thư viện số, giúp người dùng sử
dụng các bộ sưu tập cũng như các chức năng, nghiệp vụ thư viện khác.
Chương 9 – Đánh giá và hướng phát triển. Chương cuối cùng của đề tài,
tổng hợp lại về Greenstone, đánh giá lại hệ thống thư viện điện tử ITDL và nêu
những hướng phát triển hệ thống trong tương lai.
Ngoài ra, các phần Phụ lục ở cuối Luận văn còn mở rộng các khía cạnh liên
quan đến thư viện số, các thành phần cấu thành nên Greenstone (MG, GDBM…) và
các mô-đun hỗ trợ Greenstone.

vi

MỤC LỤC
LỜI CẢM ƠN …………………………………………………………………………………………….. iii
MỞ ĐẦU……………………………………………………………………………………………………. iv
MỤC LỤC………………………………………………………………………………………………….. vi
DANH SÁCH HÌNH……………………………………………………………………………………. xi
DANH SÁCH BẢNG ………………………………………………………………………………… xiv
PHẦN 1. TÌM HIỀU NGUỒN MỞ GREENSTONE………………………………………….1
CHƯƠNG 1.
TỔNG QUAN ………………………………………………………………………..2
1.1.
Thư viện và thư viện số……………………………………………………………………..3
1.1.1.
Giới thiệu ………………………………………………………………………………….3
1.1.2.
Thư viện số………………………………………………………………………………..3
1.2.
Thư viện số Greenstone……………………………………………………………………..4
1.2.1.
Giới thiệu ………………………………………………………………………………….4
1.2.2.
Tính năng ………………………………………………………………………………….5
1.3.
Mục đích của đề tài …………………………………………………………………………..6
CHƯƠNG 2.
CÁC KHÁI NIỆM CƠ BẢN ……………………………………………………7
2.1.
Tài liệu…………………………………………………………………………………………….8
2.2.
Bộ sưu tập………………………………………………………………………………………..8
2.3.
Tìm kiếm …………………………………………………………………………………………8
2.4.
Duyệt tài liệu ……………………………………………………………………………………8
2.5.
Metadata ………………………………………………………………………………………..10
2.6.
Biên mục………………………………………………………………………………………..11
2.7.
Plugin…………………………………………………………………………………………….11
2.7.1.
Giới thiệu ………………………………………………………………………………..11
2.7.2.
Danh sách các plugin ………………………………………………………………..12
2.7.3.
Các plugin xử lý tài liệu độc quyền …………………………………………….13
2.7.4.
Gán thông tin metadata từ một tập tin mô tả………………………………..14
2.7.5.
Chia cấu trúc tài liệu nguồn ……………………………………………………….16
2.8.
Classifier………………………………………………………………………………………..22
2.8.1.
Giới thiệu ………………………………………………………………………………..22
2.8.2.
Phân loại………………………………………………………………………………….23
2.9.
Định dạng cách hiển thị tài liệu…………………………………………………………25
2.9.1.
Giới thiệu ………………………………………………………………………………..25
2.9.2.
Định dạng danh sách tài liệu………………………………………………………25
2.9.3.
Định dạng các thành phần của trang web hiển thị tài liệu………………28
CHƯƠNG 3.
XÂY DỰNG BỘ SƯU TẬP…………………………………………………..30
3.1.
Giới thiệu……………………………………………………………………………………….31
3.2.
Chương trình mkcol.pl …………………………………………………………………….33
3.3.
Chương trình import.pl…………………………………………………………………….33
3.4.
Chương trình buildcol.pl ………………………………………………………………….35
3.5.
Cấu trúc thư mục của Greenstone ……………………………………………………..37
3.6.
Cấu trúc thư mục của một bộ sưu tập…………………………………………………38
3.7.
Cấu trúc tài liệu theo định dạng XML………………………………………………..39

vii
3.8.
Tập tin cấu hình bộ sưu tập ………………………………………………………………42
CHƯƠNG 4.
HIỆU CHỈNH GIAO DIỆN GREENSTONE……………………………45
4.1.
Giới thiệu……………………………………………………………………………………….46
4.2.
Ảnh tiêu đề bộ sưu tập……………………………………………………………………..48
4.3.
Các nút duyệt trang………………………………………………………………………….48
4.3.1.
Cách hiển thị……………………………………………………………………………48
4.3.2.
Vị trí đặt các ảnh………………………………………………………………………51
4.4.
Ảnh tiêu đề trang…………………………………………………………………………….52
4.5.
Các nút duyệt tài liệu……………………………………………………………………….53
4.5.1.
Giới thiệu ………………………………………………………………………………..53
4.5.2.
Vị trí đặt các ảnh………………………………………………………………………53
4.5.3.
Thêm nút mới…………………………………………………………………………..54
4.5.3.1.
Tạo một nút mới dựa vào nút đã có………………………………………55
4.5.3.2.
Tạo macro mới cho một nút ………………………………………………..55
4.5.4.
Xóa nút duyệt tài liệu………………………………………………………………..56
4.5.5.
Thay đổi nút duyệt tài liệu …………………………………………………………56
4.6.
Hiển thị văn bản ……………………………………………………………………………..56
4.6.1.
Hiển thị loại CL list…………………………………………………………………..56
4.6.2.
Hiển thị nội dung ……………………………………………………………………..57
4.7.
Override các macro …………………………………………………………………………58
4.8.
Thêm một trang mới………………………………………………………………………..60
4.9.
Hiển thị các bộ sưu tập…………………………………………………………………….61
4.10.
Macro chuẩn ……………………………………………………………………………….62
4.11.
Lưu ý………………………………………………………………………………………….63
CHƯƠNG 5.
HỆ THỐNG WEB GREENSTONE ………………………………………..64
5.1.
Giới thiệu……………………………………………………………………………………….65
5.2.
Tổng quan về cơ chế xử lý ……………………………………………………………….65
5.3.
Chi tiết về cơ chế xử lý…………………………………………………………………….67
5.4.
Mã nguồn……………………………………………………………………………………….69
5.4.1.
Các lớp và hàm cơ bản………………………………………………………………70
5.4.2.
Collection server ………………………………………………………………………70
5.4.3.
Receptionist……………………………………………………………………………..72
PHẦN 2. XÂY DỰNG ỨNG DỤNG……………………………………………………………..75
CHƯƠNG 6.
XÂY DỰNG ỨNG DỤNG…………………………………………………….76
6.1.
Tổng quan………………………………………………………………………………………77
6.1.1.
Phát biểu bài toán……………………………………………………………………..77
6.1.2.
Giới thiệu về ITDL (IT Digital Library)………………………………………77
6.2.
Đối tượng sử dụng hệ thống……………………………………………………………..78
6.3.
Các chức năng chính ……………………………………………………………………….78
6.3.1.
Cung cấp thông tin luận văn ………………………………………………………78
6.3.2.
Chuẩn hoá tài liệu …………………………………………………………………….78
6.3.3.
Xây dựng bộ sưu tập…………………………………………………………………78
6.3.3.1.
Xây dựng bộ sưu tập Luận văn…………………………………………….79
6.3.3.2.
Xây dựng bộ sưu tập Sách…………………………………………………..79
6.3.3.3.
Xây dựng bộ sưu tập Tổng quát …………………………………………..79

viii
6.3.4.
Tra cứu tài liệu…………………………………………………………………………79
CHƯƠNG 7.
ITLIBWEB…………………………………………………………………………..80
7.1.
Xác định yêu cầu…………………………………………………………………………….81
7.1.1.
Giới thiệu ………………………………………………………………………………..81
7.1.2.
Bảng chú giải …………………………………………………………………………..81
7.1.2.1.
ITLib………………………………………………………………………………..81
7.1.2.2.
Greenstone………………………………………………………………………..82
7.1.2.3.
Thanh vien Khoa (Thành viên Khoa)……………………………………82
7.1.3.
Đặc tả bổ sung………………………………………………………………………….82
7.1.3.1.
Phạm vi…………………………………………………………………………….82
7.1.3.2.
Tài liệu tham khảo……………………………………………………………..82
7.1.3.3.
Chức năng…………………………………………………………………………82
7.1.3.4.
Tính khả dụng……………………………………………………………………82
7.1.3.5.
Tính ổn định………………………………………………………………………83
7.1.3.6.
Sự hỗ trợ…………………………………………………………………………..83
7.1.3.7.
Tính bảo mật:…………………………………………………………………….83
7.1.3.8.
Các ràng buộc thiết kế………………………………………………………..83
7.1.4.
Mô hình Use Case…………………………………………………………………….83
7.1.4.1.
Mô hình…………………………………………………………………………….83
7.1.4.2.
Danh sách các Actor…………………………………………………………..85
7.1.4.3.
Danh sách các Use Case……………………………………………………..85
7.1.4.4.
Đặc tả các Use case chính …………………………………………………..86
7.2.
Phân tích các Use case chính…………………………………………………………….90
7.2.1.
Use case “Dang nhap” (Đăng nhập) ……………………………………………90
7.2.1.1.
Lược đồ tuần tự………………………………………………………………….90
7.2.1.2.
Lược đồ cộng tác ……………………………………………………………….92
7.2.1.3.
VOPC……………………………………………………………………………….93
7.2.2.
Use case “Nhap luan van” (Nhập luận văn) …………………………………94
7.2.2.1.
Lược đồ tuần tự………………………………………………………………….94
7.2.2.2.
Lược đồ cộng tác ……………………………………………………………….97
7.2.2.3.
VOPC……………………………………………………………………………….99
7.2.3.
Use case “Tra cuu” (Tra cứu) …………………………………………………..100
7.2.3.1.
Lược đồ tuần tự………………………………………………………………..100
7.2.3.2.
Lược đồ cộng tác ……………………………………………………………..100
7.2.3.3.
VOPC……………………………………………………………………………..102
7.2.4.
Use case “Xem luan van” (Xem thông tin luận văn)……………………102
7.2.4.1.
Lược đồ tuần tự………………………………………………………………..102
7.2.4.2.
Lược đồ cộng tác ……………………………………………………………..103
7.2.4.3.
VOPC……………………………………………………………………………..104
7.3.
Thiết kế………………………………………………………………………………………..105
7.3.1.
Lược đồ lớp tổng quát của hệ thống ………………………………………….105
7.3.2.
Chi tiết một số lớp chính………………………………………………………….107
7.3.2.1.
Lớp đối tượng dùng chung ………………………………………………..107
7.3.2.2.
Lớp boundary…………………………………………………………………..107
7.3.2.3.
Lớp control ……………………………………………………………………..108

ix
7.3.2.4.
Lớp entity………………………………………………………………………..109
7.3.3.
Thiết kế dữ liệu ………………………………………………………………………110
7.3.3.1.
Mô hình dữ liệu ……………………………………………………………….110
7.3.3.2.
Danh sách các bảng dữ liệu……………………………………………….110
7.3.4.
Thiết kế giao diện một số trang web chính…………………………………111
7.4.
Cài đặt………………………………………………………………………………………….113
7.4.1.
Công cụ và môi trường phát triển hệ thống ………………………………..113
7.4.2.
Mô hình cài đặt ………………………………………………………………………114
7.4.2.1.
Mô hình…………………………………………………………………………..114
7.4.2.2.
Diễn giải …………………………………………………………………………114
CHƯƠNG 8.
ITLib………………………………………………………………………………….115
8.1.
Xác định yêu cầu…………………………………………………………………………..116
8.1.1.
Giới thiệu ………………………………………………………………………………116
8.1.2.
Bảng chú giải …………………………………………………………………………116
8.1.2.1.
Bộ sưu tập……………………………………………………………………….116
8.1.2.2.
Thủ thư …………………………………………………………………………..116
8.1.2.3.
Quản trị hệ thống……………………………………………………………..117
8.1.2.4.
ITLibWeb ……………………………………………………………………….117
8.1.3.
Đặc tả bổ sung………………………………………………………………………..117
8.1.3.1.
Phạm vi…………………………………………………………………………..117
8.1.3.2.
Tài liệu tham khảo……………………………………………………………117
8.1.3.3.
Chức năng……………………………………………………………………….117
8.1.3.4.
Tính khả dụng………………………………………………………………….117
8.1.3.5.
Tính ổn định…………………………………………………………………….117
8.1.3.6.
Hiệu suất…………………………………………………………………………118
8.1.3.7.
Sự hỗ trợ…………………………………………………………………………118
8.1.3.8.
Tính bảo mật……………………………………………………………………118
8.1.3.9.
Các ràng buộc thiết kế………………………………………………………118
8.1.4.
Mô hình Use Case…………………………………………………………………..118
8.1.4.1.
Lược đồ chính của mô hình Use case………………………………….118
8.1.4.2.
Danh sách Actor ………………………………………………………………119
8.1.4.3.
Danh sách Use case ………………………………………………………….119
8.1.4.4.
Đặc tả các Use case chính …………………………………………………119
8.2.
Phân tích các Use case chính…………………………………………………………..127
8.2.1.
Use case “Chuan hoa Tai lieu” …………………………………………………127
8.2.1.1.
Lược đồ tuần tự………………………………………………………………..127
8.2.1.2.
Lược đồ cộng tác ……………………………………………………………..127
8.2.1.3.
VOPC……………………………………………………………………………..128
8.2.2.
Use case “QL BST Luan van” ………………………………………………….129
8.2.2.1.
Lược đồ tuần tự………………………………………………………………..129
8.2.2.2.
Lược đồ cộng tác ……………………………………………………………..131
8.2.2.3.
VOPC……………………………………………………………………………..135
8.3.
Thiết kế………………………………………………………………………………………..136
8.3.1.
Sơ đồ lớp đối tượng của hệ thống……………………………………………..137
8.3.2.
Chi tiết một số lớp đối tượng……………………………………………………138

x
8.3.2.1.
Các lớp boundary……………………………………………………………..138
8.3.2.2.
Các lớp control ………………………………………………………………..139
8.3.2.3.
Các lớp entity…………………………………………………………………..140
8.3.3.
Thiết kế dữ liệu ………………………………………………………………………140
8.3.3.1.
Mô hình dữ liệu ……………………………………………………………….140
8.3.3.2.
Danh sách các bảng dữ liệu……………………………………………….142
8.3.4.
Thiết kế giao diện……………………………………………………………………142
8.3.4.1.
Màn hình Chuẩn hoá Tài liệu…………………………………………….143
8.3.4.2.
Màn hình thu thập dữ liệu (cho tất cả các bộ sưu tập) …………..143
8.3.4.3.
Màn hình quản lý thông tin bộ sưu tập (cho tất cả các bộ sưu tập)

144
8.3.4.4.
Màn hình tiến hành xây dựng bộ sưu tập (cho tất cả các bộ sưu
tập)
144
8.3.4.5.
Màn hình quản lý thông tin Luận văn …………………………………145
8.3.4.6.
Màn hình quản lý thông tin Sách/Giáo trình ………………………..145
8.3.4.7.
Màn hình quản lý thông tin một bộ sưu tập tổng quát …………..146
8.4.
Cài đặt………………………………………………………………………………………….146
8.4.1.
Công cụ và môi trường phát triển hệ thống ………………………………..146
8.4.2.
Mô hình cài đặt ………………………………………………………………………147
8.4.2.1.
Mô hình…………………………………………………………………………..147
8.4.2.2.
Diễn giải …………………………………………………………………………147
PHẦN 3. TỔNG KẾT…………………………………………………………………………………149
CHƯƠNG 9.
ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN ………………………………150
9.1.
Đánh giá ………………………………………………………………………………………150
9.2.
Hướng phát triển……………………………………………………………………………150
PHỤ LỤC A. GIỚI THIỆU VỀ SEARCH ENGINE ………………………………………151
PHỤ LỤC B. CÁC THƯ VIỆN SỐ Ở VIỆT NAM ………………………………………..154
PHỤ LỤC C – CÁC THÀNH PHẦN HỖ TRỢ GREENSTONE ……………………..156
TÀI LIỆU THAM KHẢO……………………………………………………………………………167

xi
DANH SÁCH HÌNH
Hình 2.1 – Minh hoạ duyệt tài liệu……………………………………………………………………9
Hình 2.2 – Minh hoạ duyệt tài liệu được phân cấp…………………………………………….10
Hình 2.3 – Cây kế thừa của các plugin xử lý tài liệu độc quyền………………………….14
Hình 2.4 – Định nghĩa kiểu tài liệu XML của tập tin metadata.xml …………………….14
Hình 2.5 -Ví dụ một tập tin metadata.xml ……………………………………………………….15
Hình 2.6 – Minh họa cách chia section cho tài liệu……………………………………………16
Hình 2.7 – Hiển thị nội dung tài liệu trên trình duyệt web………………………………….21
Hình 2.8 – Hiển thị nội dung của một chương cụ thể…………………………………………21
Hình 2.9 – Dùng AZList để liệt kê các tài liệu theo từng vùng alphabet………………22
Hình 2.10 – Minh họa classifier AZList…………………………………………………………..23
Hình 2.11 – Minh họa classifier List ……………………………………………………………….23
Hình 2.12 – Minh họa classifier DateList…………………………………………………………24
Hình 2.13 – Minh họa classifier Hierarchy ………………………………………………………25
Hình 2.14 – Kết quả hiển thị tài liệu trên trình duyệt…………………………………………27
Hình 3.1 – Quá trình xây dựng bộ sưu tập………………………………………………………..32
Hình 3.2 – Cấu trúc thư mục của Greenstone…………………………………………………..37
Hình 3.3 – Minh họa cấu trúc phân cấp của tài liệu…………………………………………..41
Hình 3.4 – Tìm kiếm tài liệu theo chỉ mục document và section…………………………42
Hình 4.1 – Các phần trong giao diện web của Greenstone………………………………….48
Hình 4.2 – Các nút duyệt tài liệu…………………………………………………………………….49
Hình 4.3 – Hiển thị danh sách các tài liệu ……………………………………………………….57
Hình 4.4 – Hiển thị nội dung tài liệu……………………………………………………………….58
Hình 4.5 – Hiệu chỉnh giao diện trang chủ……………………………………………………….59
Hình 5.1 – Cơ chế xử lý…………………………………………………………………………………65
Hình 5.2 – Collection server và receptionist liên lạc qua nghi thức null protocol ….66
Hình 5.3 – Bộ sưu tập Project Gutenberg…………………………………………………………67
Hình 5.4 – Cơ chế xử lý dùng null protocol ……………………………………………………..68
Hình 5.5 – Cấu trúc thư mục chứa mã nguồn Greenstone…………………………………..69
Hình 5.6 – Các đối tượng Filter………………………………………………………………………71
Hình 7.1 – Lược đồ Use case …………………………………………………………………………84
Hình 7.2 – “Đăng nhập” : dòng sự kiện chính………………………………………………….91
Hình 7.3 – “Đăng nhập” : dòng sự kiện khác……………………………………………………92
Hình 7.4 – “Đăng nhập” : dòng sự kiện chính…………………………………………………..92
Hình 7.5 – “Đăng nhập” : dòng sự kiện khác……………………………………………………93
Hình 7.6 – “Đăng nhập” : VOPC…………………………………………………………………….93
Hình 7.7 – Thêm thông tin luận văn ……………………………………………………………….94
Hình 7.8 – Cập nhật thông tin luận văn……………………………………………………………95
Hình 7.9 – Thông tin nhập không hợp lệ………………………………………………………….96
Hình 7.10 – thông tin cập nhật không hợp lệ…………………………………………………….97
Hình 7.11 – Thêm thông tin luận văn………………………………………………………………98
Hình 7.12 – Cập nhật thông tin luận văn………………………………………………………….98
Hình 7.13 – Thông tin nhập không hợp lệ………………………………………………………..98
Hình 7.14 – Thông tin cập nhật không hợp lệ…………………………………………………..99

xii
Hình 7.15 – “Nhập luận văn” : VOPC……………………………………………………………..99
Hình 7.16 – “Tra cứu” : dòng sự kiện chính……………………………………………………100
Hình 7.17 – “Tra cứu” : dòng sự kiện khác…………………………………………………….100
Hình 7.18 – “Tra cứu” : dòng sự kiện chính……………………………………………………101
Hình 7.19 – “Tra cứu” : dòng sự kiện khác…………………………………………………….101
Hình 7.20 – “Tra cuu” : VOPC……………………………………………………………………..102
Hình 7.21 – “Xem luận văn” : dòng sự kiện chính…………………………………………..102
Hình 7.22 – “Xem luận văn” : dòng sự kiện khác……………………………………………103
Hình 7.23 – “Xem luận văn” : dòng sự kiện chính…………………………………………..103
Hình 7.24 – “Xem luận văn” : dòng sự kiện khác……………………………………………104
Hình 7.25 – “Xem luận văn” : VOPC…………………………………………………………….104
Hình 7.26 – Lược đồ lớp của hệ thống …………………………………………………………..106
Hình 7.27 – Lớp ThesisInfo………………………………………………………………………….107
Hình 7.28 – Lớp UserInfo…………………………………………………………………………….107
Hình 7.29 – Lớp InputThesisInfo ………………………………………………………………….108
Hình 7.30 – Lớp Login ………………………………………………………………………………..108
Hình 7.31 – Lớp ThesisController…………………………………………………………………108
Hình 7.32 – Lớp UserController……………………………………………………………………109
Hình 7.33 – Lớp ThesisEntity……………………………………………………………………….109
Hình 7.34 – Lớp UserEntity………………………………………………………………………….109
Hình 7.35 – Mô hình dữ liệu………………………………………………………………………..110
Hình 7.36 – Trang chủ………………………………………………………………………………..111
Hình 7.37 – Trang chức năng của thành viên………………………………………………….111
Hình 7.38 – Trang nhập thông tin luận văn…………………………………………………….112
Hình 7.39 – Trang xem thông tin luận văn……………………………………………………..112
Hình 7.40 – Trang tra cứu tài liệu………………………………………………………………….113
Hình 7.1 – Mô hình cài đặt ………………………………………………………………………….114
Hình 8.1 – Lược đồ Use case……………………………………………………………………….118
Hình 8.2 – “Chuẩn hóa tài liệu” : dòng sự kiện chính……………………………………..127
Hình 8.3 – “Chuẩn hóa Tài liệu” : dòng sự kiện chính…………………………………….128
Hình 8.4 – “Chuẩn hóa Tài liệu” : VOPC ……………………………………………………..128
Hình 8.5 – Luồng phụ “Tạo mới bộ sưu tập” …………………………………………………129
Hình 8.6 – Luồng phụ “Mở bộ sưu tập”………………………………………………………..130
Hình 8.7 – Luồng phụ “Xoá bộ sưu tập”……………………………………………………….131
Hình 8.8 – Luồng phụ “Tạo mới bộ sưu tập” …………………………………………………132
Hình 8.9 – Luồng phụ “Mở bộ sưu tập”………………………………………………………..133
Hình 8.10 – Luồng phụ “Xoá bộ sưu tập”……………………………………………………..134
Hình 8.11 – Sơ đồ lớp đối tượng của hệ thống……………………………………………….137
Hình 8.12 – Các lớp boundary……………………………………………………………………..138
Hình 8.13 – Các lớp control…………………………………………………………………………139
Hình 8.14 – Các lớp entity…………………………………………………………………………..140
Hình 8.15 – Mô hình dữ liệu………………………………………………………………………..141
Hình 8.16 – Màn hình chuẩn hoá tài liệu……………………………………………………….143
Hình 8.17 – Màn hình thu thập dữ liệu………………………………………………………….143
Hình 8.18 – Màn hình quản lý thông tin BST ………………………………………………..144

xiii
Hình 8.19 – Màn hình xây dựng bộ sưu tập …………………………………………………..144
Hình 8.20 – Màn hình quản lý thông tin Luận văn………………………………………….145
Hình 8.21 – Màn hình quản lý thông tin Sách/Giáo trình ………………………………..145
Hình 8.22 – Màn hình quản lý thông tin BST nói chung …………………………………146
Hình 8.23 – Mô hình cài đặt ………………………………………………………………………..147

xiv
DANH SÁCH BẢNG
Bảng 2.1 – Danh sách các plugin……………………………………………………………………13
Bảng 2.2 – Các thành phần trên trang web……………………………………………………….28
Bảng 3.1 – Các thư mục của Greenstone………………………………………………………….38
Bảng 3.2 – Các thư mục của một bộ sưu tập…………………………………………………….38
Bảng 3.3 – Thông tin tập tin cấu hình ……………………………………………………………..43
Bảng 4.1 – Danh sách các package…………………………………………………………………47
Bảng 4.2 – Một số macro chuẩn ……………………………………………………………………..63
Bảng 5.1- Danh sách các Action…………………………………………………………………….73
Bảng 7.1 – Danh sách Actor…………………………………………………………………………..85
Bảng 7.2 – Danh sách các Use case…………………………………………………………………85
Bảng 7.3 – Danh sách bảng dữ liệu ……………………………………………………………….110
Bảng 8.1 – Danh sách Actor ………………………………………………………………………..119
Bảng 8.2 – Danh sách Use case…………………………………………………………………….119
Bảng 8.3 – Danh sách bảng dữ liệu ……………………………………………………………….142

Trang 1

PHẦN 1. TÌM HIỀU NGUỒN MỞ GREENSTONE

Trong phần này, chúng ta sẽ tìm hiểu thư viện số Greenstone, từ những khái
niệm cơ bản, đến cấu trúc và cơ chế xử lý của hệ thống. Phần này sẽ giải thích tại
sao Greenstone được rất nhiều thư viện trên thế giới lựa chọn như là một giải pháp
xây dựng thư viện số đơn giản, hiệu quả, kinh tế và nhất là khả năng tuỳ biến cao
nhưng vẫn đáp ứng được các tiêu chuẩn quốc tế về nghiệp vụ thư viện.
Tổ chức Phần 1 gồm 5 chương:
; Chương 1 : Tổng quan
; Chương 2 : Các khái niệm cơ bản
; Chương 3 : Xây dựng bộ sưu tập
; Chương 4 : Hiệu chỉnh giao diện của Greenstone
; Chương 5 : Hệ thống web Greenstone

Chương 1 – Tổng quan
Trang 2

CHƯƠNG 1. TỔNG QUAN

™ Thư viện và thư viện số
™ Giới thiệu về Greenstone
™ Mục đích của đề tài

Chương 1 – Tổng quan
Trang 3

1.1. Thư viện và thư viện số
1.1.1. Giới thiệu
Thư viện là kho tàng tri thức đã có những đóng góp có ý nghĩa cho sự phát
triển của con người.
Tuy nhiên, khi lượng thông tin vận hành trong xã hội trở nên nhiều hơn, thư
viện truyền thống, với hình thức lưu trữ chủ yếu trên giấy, có còn giữ vị trí độc tôn,
và có còn thích hợp không? Thời đại của Internet, của mạng thông tin toàn cầu,
người ta cần tìm ra một cách quản lý thông tin sao cho hiệu quả. Điều này tập trung
vào hai khía cạnh chủ yếu. Thứ nhất, phải tiết kiệm không gian lưu trữ; thứ hai, tốc
độ truy tìm thông tin phải thật nhanh. Giờ đây, người ta trao đổi thông tin không chỉ
qua giấy tờ, mà còn thường xuyên sử dụng đến hình thức tài liệu điện tử: sách điện
tử, báo điện tử, email, phim ảnh, v.v… Hơn thế nữa, người ta muốn, dù ở bất cứ đâu
trên thế giới cũng có thể tìm và lấy được thông tin cần thiết. Tất cả những điều đó
đặt ra yêu cầu phải xây dựng một hệ thống có những chức năng của một thư viện
bình thường, nhưng chủ yếu quản lý tài liệu điện tử và có thể truy cập vào ở bất cứ
đâu. Và những cụm từ như “virtual library” (thư viện ảo), “electronic library” (thư
viện điện tử), “library without walls” (thư viện không có tường) và gần đây nhất, là
“digital library” (thư viện số) xuất hiện, để chỉ về loại hình thư viện còn tương đối
mới mẻ này.
1.1.2. Thư viện số
Vậy thư viện số là gì? Theo định nghĩa của Akscyn và Witten, (Trường Đại
học Waikato, New Zealand), thư viện số là tập hợp các bộ sưu tập số, của các đối
tượng kỹ thuật bao gồm văn bản, hình ảnh, video, âm thanh, cho phép:
– Truy cập, chọn lọc và hiển thị tài nguyên số (dành cho độc giả)
– Xây dựng, tổ chức và lưu hành (dành cho cán bộ thư viện)

Chương 1 – Tổng quan
Trang 4
Một câu hỏi thú vị là, World Wide Web có phải là một thư viện số hay
không? Nó cũng là một kho dữ liệu khổng lồ chuyên thu thập hàng ngàn, hàng triệu
trang tài liệu, cho phép người ta tìm kiếm thông tin trên đó. Tuy nhiên, theo Clifford
Lynch, một trong những nhà nghiên cứu hàng đầu trong lĩnh vực khoa học thư viện
nói chung và thư viện số nói riêng, câu trả lời là không. “Internet và những tài
nguyên đa phương tiện của nó, còn gọi là World Wide Web, không được thiết kế để
hỗ trợ xuất bản và thu nhận thông tin có tổ chức. Nó chỉ là một kho hỗn độn của
các thông tin vô tổ chức trên thế giới số… Internet không phải là một thư viện
số.”[23] Thư viện số trước hết là một thư viện.Thêm vào đó nó có các đặc trưng riêng
của một hệ thống điện tử với những công nghệ, dịch vụ mới.
Hiện nay trên thế giới có rất nhiều hệ thống phần mềm thư viện số như
Project Gutenberg, Ibiblio và Internet Archieve. Tuy nhiên, chúng hầu hết là những
sản phẩm thương mại. Chỉ tính riêng ở Việt Nam đã có ít nhất ba nhà cung cấp hệ
thống phần mềm dạng này1. Đó là Công ty trách nhiệm hữu hạn CMC (CMC Co.,
Ltd) với hệ thống iLib; Công ty Tin học Lạc Việt (LAC VIET Computing Corp) với
phần mềm VeBrary; và phần mềm Libol của Công ty Tin học Tinh Vân (TINH
VAN Informatic Technology Co.). Theo các chuyên gia đánh giá, “Các phần mềm
hiện nay đang sử dụng tại các thư viện Việt Nam do các nhà sản xuất Việt Nam
cung cấp đang còn có một số hạn chế về độ tin cậy. Do thời gian dùng thử nghiệm
chưa nhiều, qui mô khai thác chưa lớn nên chưa thể có kết luận một cách rõ ràng
chất lượng của các sản phẩm này” [19]. Do đó, việc sử dụng một hệ thống thư viện
số thoả mãn những tiêu chuẩn quốc tế, tạo mặt bằng chung trong quá trình liên kết
hệ thống các thư viện hiện nay là rất cần thiết.
1.2. Thư viện số Greenstone
1.2.1. Giới thiệu
Các thư viện số làm thay đổi nhanh chóng cách thức thu thập và phổ biến
thông tin ở nhiều quốc gia, nhất là các quốc gia còn kém và đang phát triển. Đứng

1 Xin xem phần thăm dò các sản phẩm phần mềm thư viện ở Việt Nam trong phụ lục B

Chương 1 – Tổng quan
Trang 5
trước yêu cầu thực tế, năm 1995 một nhóm nhỏ các giảng viên và sinh viên Đại học
Waikato, New Zealand đã xây dựng phần mềm thư viện số Greenstone, giúp người
dùng dễ dàng xây dựng và phân phối các bộ sưu tập thư viện số. Phần mềm
Greenstone cung cấp một phương pháp mới để tổ chức và xuất bản thông tin trên
Internet và qua CD-ROM. Greenstone ban đầu là sản phẩm của dự án New Zealand
Digital Library của trường đại học Waikato. Sau đó, thấy được ý nghĩa và tác dụng
của phần mềm, từ tháng 8/2000, UNESCO2 và Human Info NGO3 đã tham gia
phát triển và hỗ trợ. Đây là phần mềm mã nguồn mở được cung cấp trên
http://www.greenstone.org theo thoả thuận đăng kí GNU General Public License.
Greenstone mang tính quốc tế. Hiện nay Greenstone đã được sử dụng ở rất
nhiều quốc gia, có giao diện và các bộ sưu tập với nhiều ngôn ngữ. Nhóm nghiên
cứu nghĩ rằng, việc mở rộng, hỗ trợ cho mọi sinh ngữ là điều có thể thực hiện được.
UNESCO đã và đang phát triển Greenstone như là một phần trong chương trình
“Thông tin cho tất cả – Information for All”. Greenstone cũng là phần mềm đa môi
trường : có thể chạy được trên hệ điều hành Windows, Unix, Macintosh OS/X.
Người dùng sử dụng các bộ sưu tập của Greenstone qua web, hoặc qua đĩa CD, mà
không có sự khác biệt gì nhiều.
Hệ thống Greenstone gồm hai phần : Phần xử lý offline, thực hiện việc tạo
dựng các bộ sưu tập, tạo các cấu trúc dữ liệu để tìm kiếm và trình duyệt; và phần xử
lý online, cho phép người dùng truy xuất, sử dụng các bộ sưu tập.
1.2.2. Tính năng
Sau đây là những điều tóm lược về những đặc trưng nổi bật, và cũng là ưu
thế của Greenstone.
– Truy cập qua trình duyệt web, cả ở chế độ cục bộ (local) và từ xa (remote).
– Chạy được trên nhiều hệ điều hành : Windows, Unix, Macintosh.
– Tìm kiếm toàn văn bản và tìm kiếm theo từng trường riêng biệt.

2 UNESCO (United Nations Educational, Scientific and Cultural Organization) – Tổ chức Giáo dục, Khoa
học và Văn hoá của Liên Hợp Quốc.
3 Human Info NGO, viết tắt của Humanitarian Information for All – Non-Governmental Organization, một
tổ chức phi chính phủ của Bỉ, hoạt động nhân đạo vì quyền tự do và phát triển của con người.

Chương 1 – Tổng quan
Trang 6
– Khả năng trình duyệt linh động, đa dạng
– Cấu trúc duyệt tài liệu được xây dựng hoàn toàn tự động.
– Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ sưu tập
không phải làm bằng tay.
– Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như plugin,
classifier.
– Hỗ trợ xử lý tài liệu với nhiều loại ngôn ngữ.
– Cung cấp giao diện đa ngôn ngữ.
– Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, Greenstone còn cho
phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện (multimedia)
– Khả năng lưu trữ rất lớn, tới hàng Gigabyte dữ liệu.
– Thêm mới bộ sưu tập đơn giản, có hiệu quả tức thì.
– Khả năng xuất bản các bộ sưu tập ra CD, với đầy đủ tính năng để có thể tự
cài đặt và chạy độc lập
– Các bộ sưu tập dễ dàng được mang chuyển, phân phối, chia sẻ.
– Theo phong cách WYSIWYG (What you see is what you get), dễ dùng,
thuận tiện.
1.3. Mục đích của đề tài
Sau khi tìm hiểu về hệ thống những phần mềm thư viện số trong nước và
trên thế giới, Greenstone nổi bật lên với tính hiệu quả, dễ sử dụng, mã nguồn mở, dễ
tùy biến và mang tính chuẩn quốc tế. Rất tâm đắc với phương châm hoạt động của
Greenstone, chúng em đã chọn tìm hiểu về hệ thống phần mềm này làm đề tài Tốt
nghiệp của mình. Hiểu rõ về Greenstone và ứng dụng phần mềm này vào mục đích
xây dựng một thư viện số, trước hết là phục vụ nhu cầu học tập và giảng dạy trong
Khoa Công nghệ Thông tin, Đại học KHTN. Sau đó, nếu có thể, sẽ tham gia vào
việc số hoá hệ thống thư viện hiện có. Đây cũng là một yêu cầu cấp thiết, nhất là khi
Trường chúng ta làm chủ đầu tư dự án “Hệ thống thông tin – thư viện điện tử liên
kết các trường đại học” từ giữa năm 2004.

Chương 2 – Các khái niệm cơ bản
Trang 7

CHƯƠNG 2. CÁC KHÁI NIỆM CƠ BẢN
™
Tài liệu
™
Bộ sưu tập
™
Tìm kiếm
™
Duyệt tài liệu
™
Metadata
™
Biên mục
™
Plugin
™
Classifier
™
Định dạng cách hiển thị tài liệu

Chương 2 – Các khái niệm cơ bản
Trang 8
2.1. Tài liệu
Greenstone hỗ trợ các loại tài liệu dạng HTML, XHTML và XML, TXT, các
dạng phức tạp như Word, RTF hoặc dạng được sử dụng phổ biến trên nhiều môi
trường như PDF, PostScript, dạng multi-media như âm thanh (ví dụ .mp3), hình
ảnh, phim…
2.2. Bộ sưu tập
Một thư viện số do Greenstone tạo ra chứa được nhiều bộ sưu tập. Mỗi bộ
sưu tập tập trung vào một chủ đề nào đó. Ví dụ, bộ sưu tập Luận văn, bộ sưu tập
Sách… Các bộ sưu tập có thể được bổ sung cập nhật. Kích thước bộ sưu tập có thể
lên đến hàng gigabyte dữ liệu. Bộ sưu tập có thể xem là đơn vị của một thư viện số
Greenstone.
2.3. Tìm kiếm
Mặc định, các bộ sưu tập cho phép tìm kiếm trên toàn bộ nội dung văn bản.
hoặc có thể tìm trên từng vùng (section) hay đoạn (paragraph). Cũng có thể tìm
kiếm theo các từ khoá, hay các cụm từ, và kết quả sẽ được sắp xếp thứ tự theo yêu
cầu của câu truy vấn.
2.4. Duyệt tài liệu
Greenstone cho phép định nghĩa trước các cấu trúc để duyệt tài liệu trong
mỗi bộ sưu tập dựa trên những metadata tìm thấy trong bộ sưu tập đó.

Chương 2 – Các khái niệm cơ bản
Trang 9
Ví dụ, bộ sưu tập Greenstone Demo cho phép ta duyệt các tài liệu theo
metadata “đề mục”

Hình
2.1 – Minh hoạ duyệt tài liệu
Với những tài liệu phân cấp theo bảng mục lục, ta có thể duyệt theo chính
mục lục đó, rất tiện lợi, như hình dưới đây

Đánh giá post

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *