i
Lời cam đoan
Tôi cam đoan rằng luận văn này : “ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY
DỰNG HỆ HỖ TRỢ CHẨN ĐOÁN Y KHOA “ là bài nghiên cứu của chính tôi.
Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam đoan
rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hay
được sử dụng để nhận bằng cấp ở những nơi khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận văn
này mà không được trích dẫn theo đúng quy định.
Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường
đại học hoặc cơ sở đào tạo khác.
Tp.HCM, ngày 10 tháng 04 năm 2014
Tác giả luận văn
Tống Đức Phong
ii
Lời cảm ơn
Lời cảm ơn đầu tiên tôi xin được gửi đến TS. Nguyễn Thanh Hiên – Giảng
viên Trường Đại học Tôn Đức Thắng Tp.HCM, cảm ơn thầy đã truyền đạt kiến thức,
kinh nghiệm và những gợi ý giúp tôi hoàn thành luận văn này.
Tiếp theo tôi muốn gởi lời cảm ơn đến thạc sĩ Dương Ngọc Hiếu – Giảng viên
CNTT Trường Đại học Bách Khoa Tp.HCM đã giúp đỡ tôi rất nhiều trong cách thức
thu thập số liệu và các kiến thức liên quan để hoàn thành luận văn.
Tôi cũng bày tỏ lòng biết ơn các điều dưỡng và các bác sĩ chuyên khoa tại
Bệnh viện Bệnh Nhiệt Đới, Bệnh viện Nguyễn Tri Phương. Các anh, chị đã rất nhiệt
tình giải thích vấn đề chuyên môn giúp tôi hoàn thành tốt công việc của mình.
Xin chân thành cảm ơn Ban Giám hiệu, quí Thầy Cô, cảm ơn sự hỗ trợ và giúp
đỡ nhiệt thành của Phòng Quản lý Sau Đại học Trường Đại học Hồng Bàng Tp.HCM
trong thời gian tôi thực hiện luận văn này.
Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên, hỗ
trợ về mặt tinh thần để tôi vượt qua khó khăn và hoàn thành tốt luận văn.
iii
Tóm tắt luận văn
Ngành y tế và giáo dục luôn là vấn đề sống còn của bất kỳ quốc gia nào trên
thế giới. Trong những năm gần đây, chính phủ Việt Nam đặc biệt đầu tư cho hai
ngành mũi nhọn này thông qua các chính sách, nguồn vốn dành cho trang bị hạ tầng
và nghiên cứu khoa học. Trong lĩnh vực nghiên cứu khoa học, càng ngày càng có
nhiều công trình khoa học về y tế. Tuy nhiên các nghiên cứu khoa học về ứng dụng
công nghệ thông tin để giải quyết các bài toán về y tế là không nhiều. Do đặc điểm
về vị trí địa lý của Việt Nam là một nước nhiệt đới nên có rất nhiều loại bệnh liên
quan đến sốt siêu vi trong đó sốt xuất huyết là bệnh rất nguy hiểm đồng thời chưa có
vaccine chủng ngừa và chưa có thuốc đặc trị, vì vậy đề tài nghiên cứu các qui luật
chẩn đoán bệnh sốt xuất huyết tại Việt Nam bằng kỹ thuật khai phá dữ liệu. Dựa vào
các triệu chứng lâm sàng và cận lâm sàng có thể phân lớp bệnh của bệnh nhân nhằm
giúp các bác sĩ chẩn đoán và điệu trị tốt hơn cho bệnh nhân.
Nghiên cứu tiến hành theo 4 bước chính : (1) Tìm hiểu nghiệp vụ y tế liên
quan đến bệnh sốt xuất huyết; (2) Thu thập và tiền xử lý dữ liệu; (3) Tìm hiểu bài
toán phân lớp trong khai phá dữ liệu, lựa chọn thuật toán phù hợp với yêu cầu bài
toán đặt ra và dữ liệu thu thập được; (4) Hiện thực chương trình máy tính và đánh giá
ý nghĩa thực tiễn.
Ngoài ra đề tài cũng đề xuất một phương pháp phối hợp giữa các chuyên gia
của lĩnh vực Công nghệ thông tin và Y tế để xây dựng mô hình hỗ trợ chẩn đoán cho
các loại bệnh khác nhau nhằm hỗ trợ các tuyến y tế vùng sâu vùng xa, những nơi
chăm sóc sức khỏe ban đầu còn thiếu về năng lực chuyên môn lẫn trang thiết bị.
iv
Abstract
The medical branch and education are always the principle problems of every
countries in the world. In the recent years, Vietnamese government has specially
invested for these two main areas throught capital and policy for equiping
infrastructure and studying science. In the science, there have been more and more
researches about medicine. However, there are not many science researches of
applying communication to solve medical problems. In Vietnam, because of the
georaphy position of a tropical country, there are so many diseases related to
ultravirus fever, such as petechial fever – a very dangerous diseases. This subject
studies the laws of diagnosing the petechial fever throught techniques of discovering
data. Basic on the clinical signs and near clinical signs, we can subclass diseases of
the patients to help the doctors diagnose and treat them better.
This research follows four main stages : First, finding out the medical
specialist skills relating to petechial fever. Next, collecting and pre-processing the
data. Then learning the “ math of subclassing “ in discovering data to choose the
algorithm which is suitable to the inquiries and the collected data. Finally,
performing the computer program and evaluating reality meanings.
Besides this subject also puts forward a method of co-ordinating the
communication experts and medical experts to build a model which can help the
doctors in diagnosing different diseases in order to help medical branches in rural
and remote areas where there are still lack of ability and medical equipment for the
first aid.
v
Mục lục
Lời cam đoan
………………………………………………………………………………………….
i
Lời cảm ơn …………………………………………………………………………………………..
ii
Tóm tắt luận văn
……………………………………………………………………………………iii
Abstract
………………………………………………………………………………………….
iv
Mục lục
…………………………………………………………………………………………..
v
Danh mục chữ viết tắt
…………………………………………………………………………..
viii
Danh mục hình ……………………………………………………………………………………..
ix
Danh mục bảng …………………………………………………………………………………….
xi
Danh mục công thức
……………………………………………………………………………..
xii
Chương 1. TỔNG QUAN ĐỀ TÀI …………………………………………….. 1
Đặt vấn đề …………………………………………………………………………………………… 1
1.1.
Cơ sở hình thành đề tài ………………………………………………………………………….. 2
1.2.
Một số kết quả nghiên cứu trong và ngoài nước
…………………………………………. 2
1.3.
Kết quả nghiên cứu trên thế giới …………………………………………………….. 2
1.3.1.
Kết quả nghiên cứu trong nước ………………………………………………………. 2
1.3.2.
Mục tiêu luận văn
…………………………………………………………………………………. 3
1.4.
Đối tượng và phương pháp nghiên cứu …………………………………………………….. 3
1.5.
Ý nghĩa của đề tài
…………………………………………………………………………………. 3
1.6.
Ý nghĩa khoa học
…………………………………………………………………………. 3
1.6.1.
Ý nghĩa thực tiễn …………………………………………………………………………. 4
1.6.2.
Bố cục luận văn ……………………………………………………………………………………. 4
1.7.
Chương 2. CƠ SỞ LÝ THUYẾT
……………………………………………….. 6
vi
Tổng quan về kỹ thuật Khai phá dữ liệu (Data mining)
……………………………….. 6
2.1.
Khái niệm về khai phá dữ liệu………………………………………………………… 6
2.1.1.
Các giai đoạn của quá trình khai phá dữ liệu [4]: ………………………………. 6
2.1.2.
Tổng quan về hệ hỗ trợ ra quyết định ………………………………………………………. 8
2.2.
Bài toán Phân lớp trong Khai phá dữ liệu …………………………………………………. 8
2.3.
Khái niệm về phân lớp
………………………………………………………………….. 8
2.3.1.
Quá trình phân lớp dữ liệu …………………………………………………………….. 9
2.3.2.
Phân lớp dữ liệu bằng cây quyết định…………………………………………….. 12
2.3.3.
Đánh giá hiệu quả phân lớp………………………………………………………….. 16
2.3.4.
Thuật toán C4.5 xây dựng cây quyết định ………………………………………. 17
2.3.5.
Cơ sở dữ liệu Y khoa
…………………………………………………………………………… 21
2.4.
Sơ lược bệnh Sốt xuất huyết ………………………………………………………… 21
2.4.1.
Diễn biến lâm sàng bệnh sốt xuất huyết dengue [19]
………………………… 22
2.4.2.
Chẩn đoán [19] …………………………………………………………………………. 24
2.4.3.
Chương 3. XÂY DỰNG HỆ HỖ TRỢ CHẨN ĐOÁN Y KHOA
….. 26
Cơ sở dữ liệu xây dựng mô hình
……………………………………………………………. 26
3.1.
Kho chứa dữ liệu bệnh án điện tử
………………………………………………….. 27
3.1.1.
Tiền xử lý dữ liệu ………………………………………………………………………. 30
3.1.2.
Phân tích dữ liệu bệnh án điện tử ………………………………………………….. 33
3.1.3.
Các qui luật chẩn đoán
………………………………………………………………… 35
3.1.4.
Bệnh án mẫu
……………………………………………………………………………… 36
3.1.5.
Chẩn đoán
…………………………………………………………………………………. 36
3.1.6.
Xây dựng ứng dụng …………………………………………………………………………….. 36
3.2.
Giới thiệu chương trình
……………………………………………………………….. 36
3.2.1.
vii
Cách thức vận hành chương trình
………………………………………………….. 37
3.2.2.
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ …………………………… 55
Thử nghiệm ……………………………………………………………………………………….. 55
4.1.
Thử nghiệm tập dữ liệu với ít thuộc tính: ……………………………………….. 55
4.1.1.
Thử nghiệm với tập dữ liệu đầy đủ thuộc tính …………………………………. 56
4.1.2.
Đánh giá
……………………………………………………………………………………………. 61
4.2.
Chương 5. TỔNG KẾT …………………………………………………………. 62
Kết luận
…………………………………………………………………………………………….. 62
5.1.
Hạn chế của đề tài ………………………………………………………………………………. 63
5.2.
Hướng phát triển ………………………………………………………………………………… 63
5.3.
TÀI LIỆU THAM KHẢO
…………………………………………………………………… 64
PHỤ LỤC 1
………………………………………………………………………………………… 68
PHỤ LỤC 2
…………………………………………………………………………………………
72
viii
Danh mục chữ viết tắt
KPDL (Data mining)
: Khai phá dữ liệu
DSS
(Decision support system)
: Hệ hỗ trợ ra quyết định
CNTT
: Công nghệ thông tin
IT
(Information technology)
: Công nghệ thông tin
CSDL
: Cơ sở dữ liệu
SXH
: Sốt xuất huyết
HCT
(Hematocrit)
: Dung tích hồng cầu
PLT
(plaquette)
: Tiểu cầu
WBC
(White blood cell)
: Bạch cầu
BS
: Bác sĩ
BMI
(Body mass index)
: Chỉ số khối của cơ thể
WHO
(World Health Organization) : Tổ chức Y tế Thế giới
BVBNĐ
: Bệnh viện bệnh Nhiệt Đới
ĐHYKPNT
: Đại học Y khoa Phạm Ngọc Thạch
ix
Danh mục hình
Hình 2.1 : Kết quả quá trình phân lớp ……………………………………………………….. 9
Hình 2.2 : Xây dựng mô hình phân lớp ……………………………………………………. 10
Hình 2.3 : Bước phân lớp
………………………………………………………………………. 11
Hình 2.4 : Mô hình cây quyết định trong phân lớp dữ liệu về thời tiết
………….. 13
Hình 3.1 : Mô hình xây dựng giải pháp hỗ trợ chẩn đoán bệnh ……………………. 26
Hình 3.2 : Tập dữ liệu thu thập được
……………………………………………………….. 28
Hình 3.3 : Tập dữ liệu huấn luyện đưa vào hệ thống ………………………………….. 33
Hình 3.4 : NS1 được chọn vì có độ đo tốt nhất
………………………………………….. 35
Hình 3.5 : Màn hình khởi động chương trình ……………………………………………. 37
Hình 3.6 : Màn hình chọn file dữ liệu ……………………………………………………… 37
Hình 3.7 : Màn hình chọn dữ liệu từ kho dữ liệu
……………………………………….. 38
Hình 3.8 : Màn hình chọn bảng dữ liệu ……………………………………………………. 38
Hình 3.9 : Màn hình chọn thuộc tính
……………………………………………………….. 39
Hình 3.10 : Màn hình tạo cây quyêt định …………………………………………………… 40
Hình 3.1 : Màn hình tạo cây quyết định …………………………………………………… 41
Hình 3.12 : Màn hình lấy cây đã lưu dạng xml
……………………………………………. 42
Hình 3.13 : Màn hình thống kê tập luật của tập dữ liệu ………………………………… 42
Hình 3.14 : Màn hình thống kê 10 luật
………………………………………………………. 43
x
Hình 3.15 : Mô hình kiểm tra kết quả………………………………………………………… 44
Hình 3.16 : Màn hình kiểm tra kết quả
………………………………………………………. 45
Hình 3.17 : Kết quả kiểm tra 30% dữ liệu ………………………………………………….. 45
Hình 3.18 : Màn hình lấy file dữ liệu kiểm tra ……………………………………………. 46
Hình 3.19 : Màn hình lấy dữ liệu từ file kiểm tra ………………………………………… 47
Hình 3.20 : Màn hình kết quả kiểm tra từ file Excel
…………………………………….. 48
HÌnh 3.21
: Màn hình kiểm tra chéo (Cross validation) ………………………………… 49
Hình 3.22 : Màn hình kết quả kiểm tra chéo (Cross validation)
……………………… 50
Hình 3.23 : Màn hình chẩn đoán bệnh
……………………………………………………….. 51
Hình 3.24 : Kết quả chẩn đoán từ cây có sẵn
………………………………………………. 52
Hình 4.1 : Hình vẽ SXH Dengue có dấu hiệu cảnh báo ………………………………. 58
Hình 4.2 : Hình vẽ SXH Dengue
…………………………………………………………….. 59
Hình 4.3 : Hình vẽ SXH Dengue nặng …………………………………………………….. 60
xi
Danh mục bảng
Bảng 2.1 : Bảng dữ liệu về thời tiết …………………………………………………………. 13
Bảng 2.2 : Ví dụ về thời tiết trong 3 ngày
…………………………………………………. 14
Bảng 2.3 : Kết quả phân lớp dữ liệu cho bảng 2.2 ……………………………………… 15
Bảng 2.4 : Huấn luyện với thuộc tính phân lớp là buys computer ……………….. 20
Bảng 3.1 : Bảng phân loại thể trạng cơ thể theo chỉ số BMI ……………………….. 29
Bảng 3.2 : Bảng kiểu dữ liệu của các thuộc tính ………………………………………… 32
Bảng 4.1 : Bảng danh sách Bác sĩ đánh giá chương trình
…………………………….. 61
xii
Danh mục công thức
Công thức (2.1) : Tính chỉ số thông tin (Information) ………………………………………..
19
Công thức ( 2.2) : Tính chỉ số thông tin mong muốn (Entropy)
…………………………….
19
Công thức (2.3) : Tính độ lợi thông tin (Information Gain)
…………………………………
19
Công thức (2.4) : Thông tin tiềm năng (potential information)
…………………………….
19
Công thức ( 2.5) : Tính tỉ lệ độ lợi thông tin (Gain ratio) …………………………………….
19
Công thức (3.1) : Tính chỉ số sức khỏe
……………………………………………………….
29
Chương 1 : TỔNG QUAN ĐỀ TÀI
1
Chương 1.
TỔNG QUAN ĐỀ TÀI
Đặt vấn đề
1.1.
Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin ngày nay
được áp dụng hầu hết trong mọi lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệu
được lưu trữ với kích thước tăng lên không ngừng. Đây chính là điều kiện tốt cho
việc khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lập
bảng biểu và khai phá dữ liệu.
Khai phá dữ liệu (KPDL) là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết
như xác xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩn trong các kho
dữ liệu có kích thước lớn mà người dùng khó có thể nhận biết bằng những kỹ thuật
thông thường. Nguồn dữ liệu y khoa rất lớn, nếu áp dụng KPDL trong lĩnh vực này
sẽ mang lại nhiều ý nghĩa cho nghành y tế. Nó sẽ cung cấp những thông tin quý giá
nhằm hỗ trợ trong việc chẩn đoán và điều trị sớm giúp bệnh nhân thoát được nhiều
căn bệnh hiểm nghèo.
Trong lĩnh vực Y khoa ở Việt Nam, hiện nay các tuyến y tế phường, xã, vùng
sâu, vùng xa còn thiếu nhân lực y tế có trình độ chuyên môn và thiếu các trang thiết
bị cần thiết trong chẩn đoán bệnh. Vì vậy xây dựng hệ hỗ trợ chẩn đoán rất cần thiết
cho nghành y tế hiện nay ở Việt Nam. Hệ hỗ trợ sẽ kết hợp với cán bộ y tế giúp chẩn
đoán sớm một số bệnh phát hiện sớm được những bệnh nguy hiểm và giảm gánh
nặng kinh tế cho gia đình bệnh nhân và cho xã hội. Để minh chứng cho những lợi
ích mà hệ hỗ trợ chẩn đoán mang lại, đề tài chọn dữ liệu bệnh sốt xuất huyết để thử
nghiệm và đánh giá.
Ứng dụng kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu nhằm xây dựng hệ
thống hỗ trợ chẩn đoán là một trong những hướng nghiên cứu chính của đề tài.
Sau khi phân tích một số thuật giải cũng như đặc điểm của dữ liệu thu thập được về
Chương 1 : TỔNG QUAN ĐỀ TÀI
2
bệnh sốt xuất huyết, đề tài đề xuất ứng dụng mô hình phân lớp bằng cây quyết định
với thuật toán C4.5 để tìm ra các qui luật tìm ẩn trong dữ liệu.
Cơ sở hình thành đề tài
1.2.
Theo thông báo của Tổ chức Y tế thế giới, trên thế giới có 2,5 tỷ người sống
trong vùng sốt xuất huyết (SXH) lưu hành thì có tới 1,8 tỷ người thuộc khu vực châu
Á Thái Bình Dương [1]. Việt Nam là nước có bệnh SXH lưu hành rộng, SXH luôn là
một trong những bệnh truyền nhiễm có số mắc cao hàng đầu mỗi năm Việt Nam vẫn
có khoảng trên 100.000 bệnh nhân SXH và gần 100 người tử vong vì bệnh này và
Bộ Y tế Việt Nam luôn quan tâm đến những nhiệm vụ trọng tâm của chương trình
quốc gia phòng chống SXH [1]. Vì vậy xây dựng hệ hỗ trợ chẩn đoán y khoa để góp
phần chẩn đoán nhanh và phát hiện sớm những nguy cơ dịch bệnh là vấn đề quan
tâm của gia đình và xã hội. Đề tài áp dụng công nghệ thông tin xây dựng hệ hỗ trợ
chẩn đoán với dữ liệu thu thập được từ bệnh SXH.
Một số kết quả nghiên cứu trong và ngoài nước
1.3.
Kết quả nghiên cứu trên thế giới
1.3.1.
Trên thế giới đã cho ra nhiều ứng dụng từ hệ hỗ trợ để chẩn đoán nhanh và
điều trị bệnh tốt hơn như Hệ thống chẩn đoán y tế Caduceus của Harry Pope [17] ;
Hệ thống chuyên gia y tế DiagnosisPro [18]; MYCIN (1973) hệ hỗ trợ chẩn đoán
bệnh nhiễm trùng máu [6]; PUFF (1982) dùng để phân tích kết quả xét nghiệm chức
năng phổi [7]; PSG-Expert (2000) chẩn đoán bệnh mất ngủ [8]; BI-RADS(2007)
chẩn đoán ung thư vú [9]; Naser xây dựng một hệ chẩn đoán bệnh về da (2008) [10];
Compete quản lý bệnh nhân tăng huyết áp, tiểu đường, bệnh mãn tính …
Kết quả nghiên cứu trong nước
1.3.2.
Ở Việt Nam tình hình ứng dựng công nghệ thông tin trong y tế còn tương đối
ít, vào cuối năm 1980 cũng có những nghiên cứu hệ hỗ trợ bác sĩ chẩn đoán bệnh nội
Chương 1 : TỔNG QUAN ĐỀ TÀI
3
khoa, châm cứu và chẩn trị đông y[2], hệ hỗ trợ ra quyết định trong việc chẩn đoán
lâm sàng [3] … Tuy vậy những nghiên cứu về chẩn đoán y khoa nhằm xây dựng các
hệ hỗ trợ quyết định vẫn còn hạn chế.
Mục tiêu luận văn
1.4.
Đề tài tập trung vào nghiên cứu bài toán phân lớp dữ liệu trong KPDL, từ đó
nắm bắt được những giải thuật làm tiền đề cho nghiên cứu và xây dựng ứng dụng cụ
thể. Ngoài ra, việc thu thập dữ liệu bệnh của một bệnh cụ thể cũng được quan tâm và
đề tài đề xuất sử dụng dữ liệu bệnh sốt xuất huyết. Sau khi đã phân tích đặc điểm của
dữ liệu thu thập được và lựa chọn thuật giải phù hợp với dữ liệu, việc xây dựng và
đánh giá chất lượng, độ hiệu quả của hệ hỗ trợ chẩn đoán cũng là mục tiêu chính của
đề tài.
Đối tượng và phương pháp nghiên cứu
1.5.
Đề tài tập trung nghiên cứu kỹ thuật phân lớp trong KPDL (cụ thể là nghiên
cứu thuật toán C4.5) để áp dụng vào việc phân tích cơ sở dữ liệu y khoa. Luận văn
thu thập dữ liệu bệnh SXH của tất cả bệnh nhân (không phân biệt tuổi, giới tính) đến
khám và điều trị tại Bệnh viện Nguyễn Tri Phương và Bệnh viện Bệnh Nhiệt Đới.
Sử dụng phương pháp nghiên cứu hồi cứu với sự hỗ trợ chuyên môn của các
bác sĩ chuyên khoa, đề tài tiến hành nghiên cứu trên cơ sở các thuật toán phân lớp dữ
liệu trong KPDL.
Ý nghĩa của đề tài
1.6.
Ý nghĩa khoa học
1.6.1.
Với sự trợ giúp của máy tính, đề tài đóng góp một biện pháp thực hiện hỗ trợ
các cán bộ y tế chẩn đoán bệnh cho bệnh nhân. Kết quả, kinh nghiệm thu được khi
Chương 1 : TỔNG QUAN ĐỀ TÀI
4
thực hiện đề tài này sẽ giúp các cán bộ y tế phát hiện sớm bệnh cho bệnh nhân, đồng
thời mong muốn những người đang công tác trong lĩnh vực Y học và Khoa học máy
tính ngồi lại với nhau để tìm ra những giải pháp tốt hơn trong vấn đề chẩn đoán và
điều trị bệnh bằng cách kết hợp giữa 2 lĩnh vực Y học và Khoa học máy tính.
Ý nghĩa thực tiễn
1.6.2.
Chẩn đoán bệnh và phát hiện bệnh là cả một quá trình, đòi hỏi các cán bộ y tế
không những phải thật vững chuyên môn mà còn có đầy đủ các trang thiết bị y tế
mới có thể chẩn đoán chính xác bệnh cho bệnh nhân. Nếu chẩn đoán bệnh sai sẽ đưa
đến điều trị sai, không phát hiện được bệnh cho bệnh nhân… sẽ dẫn đến những tổn
thất lớn về tinh thần lẫn vật chất cho bệnh nhân và gia đình họ. Việc phát hiện bệnh
sớm thì khả năng thất bại trong điều trị sẽ giảm hoặc có thể giúp bệnh nhân và gia
đình họ đưa ra những quyết định điều trị thích hợp. Vì vậy chẩn đoán và phát hiện
được bệnh sớm sẽ giúp cán bộ y tế đưa ra những phác đồ điều trị hiệu quả đồng thời
theo dõi, cảnh báo và tư vấn giúp bệnh nhân tránh những biến chứng nguy hiểm,
giảm gánh nặng kinh tế cho gia đình và xã hội.
Bố cục luận văn
1.7.
Luận văn bao gồm các phần sau:
Chương 1: Tổng quan đề tài
Giới thiệu về những vấn đề liên quan đến phân lớp dữ liệu trong Khai
phá dữ liệu (Data mining), cơ sở hình thành đề tài, mục tiêu, phạm vi nghiên
cứu, ý nghĩa thực tiễn và bố cục luận văn.
Chương 2: Cơ sở lý thuyết
Chương 2 nói lên cách tiếp cận và giải quyết vấn đề của luận văn. Trình
bày cơ sở toán học và áp dụng lý thuyết vào bài toán. Trình bày kiến thức cơ
bản về bệnh SXH, ý nghĩa các chẩn đoán (thuộc tính).
Chương 1 : TỔNG QUAN ĐỀ TÀI
5
Chương 3: Xây dựng hệ hỗ trợ chẩn đoán.
Trong chương này trình bày đặc điểm của dữ liệu, các bước tiền xử lý
dữ liệu trước khi đưa vào hệ thống. Xây dựng ứng dụng chẩn đoán dựa vào dữ
liệu về bệnh SXH.
Chương 4: Thực nghiệm và đánh giá.
Chạy chương trình với tập dữ liệu huấn luyện. Vẽ sơ đồ cây quyết định
và rút ra các tập luật. Kiểm nghiệm đánh giá chương trình với tập dữ liệu kiểm
tra.
Chương 5: Tổng kết.
Ý nghĩa thực tiễn mang tính cộng đồng, những hạn chế và hướng phát
triển của luận văn.
Chương 2 : CƠ SỞ LÝ THUYẾT
6
Chương 2.
CƠ SỞ LÝ THUYẾT
Tổng quan về kỹ thuật Khai phá dữ liệu (Data mining)
2.1.
Khái niệm về khai phá dữ liệu
2.1.1.
KPDL thu hút sự chú ý của nền công nghiệp thông tin và xã hội trong những
năm gần đây. Với sự phát triển của công nghệ thông tin, dữ liệu lưu trữ mỗi ngày trở
thành một cơ sở dữ liệu rất lớn. Dựa vào khối lượng dữ liệu này, ta dùng những kỹ
thuật KPDL để chuyển dữ liệu đó thành những thông tin có ích hoặc rút ra những tri
thức mới từ dữ liệu thu thập được[11].Giáo sư Tom Mitchell định nghĩa Khai phá dữ
liệu như sau: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những
qui tắc và cải thiện những quyết định trong tương lai” [12].
Khai phá dữ liệu có thể được sử dụng cho các lĩnh vực y tế, phân tích thị
trường, xây dựng, … có thể được xem như là kết quả của sự tiến triển tự nhiên của
công nghệ thông tin. Khai phá dữ liệu trong lĩnh vực y tế sẽ tạo ra các hệ chẩn đoán
bệnh hỗ trợ bác sĩ trong vấn đề chẩn đoán bệnh cho bệnh nhân.
Các giai đoạn của quá trình khai phá dữ liệu [4]:
2.1.2.
Tìm hiểu nghiệp vụ và dữ liệu
a.
Giai đoạn này ta cần xác định vấn đề cần giải quyết, tìm hiểu kiến thức về bài
toán đang thực hiện bao gồm các tri thức của các chuyên gia trong lĩnh vực cần
nghiên cứu từ đó xác định chính xác nguồn dữ liệu để thu thập đồng thời phải hiểu
được cấu trúc dữ liệu, ý nghĩa và tầm quan trọng của nó để từ đó ta đưa ra bài toán
cụ thể để giải quyết vấn đề.
Chương 2 : CƠ SỞ LÝ THUYẾT
7
Chuẩn bị dữ liệu
b.
Giai đoạn này ta dùng các kỹ thuật tiền xử lý dữ liệu để xử lý dữ liệu đã thu
thập được sao cho các giải thuật KPDL có thể hiểu được. Tiền xử lý dữ liệu bao
gồm:
+
Xử lý dữ liệu bị thiếu hoặc mất: Các giá trị bị thiếu hoặc mất sẽ được
thay thế bằng các giá trị thích hợp hơn hoặc xóa những dữ liệu sai miền
giá trị và giải quyết sự không nhất quán.
+
Khử sự trùng lắp dữ liệu : Loại bỏ những dữ liệu bị trùng.
+
Giảm nhiễu dữ liệu: Các dữ liệu bị nhiễu sẽ được điều chỉnh hoặc loại ra
khỏi cơ sở dữ liệu.
+
Rời rạc hóa dữ liệu: Các dữ liệu số sẽ được rời rạc hóa ra dạng phù hợp
cho khai phá dữ liệu.
+
Giảm chiều: Loại bớt các thuộc tính chứa ít thông tin để tiết kiệm thời
gian và tài nguyên của máy tính.
Mô hình hóa dữ liệu
c.
Dùng các giải thuật của KPDL để tìm ra các qui luật của dữ liệu, quan trọng
nhất trong giai đoạn này là tìm được giải thuật phù hợp để giải quyết vấn đề đã đặt
ra.
Hậu xử lý và đánh giá mô hình
d.
Đây là giai đoạn biến đổi từ những luật rút ra được (của giai đoạn trước) từ tập
huấn luyện sang dạng phù hợp với nghiệp vụ của bài toán đang nghiên cứu. Đồng
thời cũng sẽ là giai đoạn đánh giá của các chuyên gia tư vấn dựa trên tập dữ liệu thử.
Dựa vào nhận xét và hỗ trợ của các chuyên gia khi đó sẽ điều chỉnh kịp thời các mô
hình của các giai đoạn trước. Các mô hình đạt yêu cầu với các chuyên gia sẽ được sử
dụng.
Chương 2 : CƠ SỞ LÝ THUYẾT
8
Triển khai mô hình
e.
Các mô hình đạt yêu cầu sẽ được xây dựng thành chương trình ứng dụng thực
tế nhằm hỗ trợ đưa ra quyết định theo yêu cầu của người dùng.
Tổng quan về hệ hỗ trợ ra quyết định
2.2.
Hệ hỗ trợ ra quyết định là một hệ thống thuộc hệ thống thông tin, có nhiệm vụ
cung cấp các thông tin hỗ trợ cho việc ra quyết định để tham khảo và giải quyết vấn
đề. Hệ hỗ trợ ra quyết định có thể dùng cho cá nhân hay tổ chức và có thể hỗ trợ gián
tiếp hoặc trực tiếp [13].
Trong lĩnh vực y tế, hệ hỗ trợ ra quyết định dựa vào tri thức đã học sẽ cung cấp
thông tin chẩn đoán bệnh cho nhân viên y tế. Thông tin này được trích lọc để cung
cấp một cách thông minh có giá trị cho quá trình chẩn đoán, theo dõi và điều trị bệnh
hiệu quả hơn, từ đó ta thấy một số lợi ích của hệ hỗ trợ ra quyết định trong y tế như
sau:
– Tăng cường chất lượng chẩn đoán, chăm sóc bệnh nhân.
– Giảm nguy cơ sai sót để tránh các tình huống nguy hiểm cho bệnh nhân.
– Tăng cường hiệu quả ứng dụng Công nghệ thông tin vào lĩnh vực y tế để
giảm bớt những thủ tục giấy tờ không cần thiết,…
Bài toán Phân lớp trong Khai phá dữ liệu
2.3.
Khái niệm về phân lớp
2.3.1.
Phân lớp là một hình thức phân tích dữ liệu nhằm rút ra những mô hình mô tả
những lớp trong dữ liệu. Những mô hình này gọi là mô hình phân lớp (classifier
hoặc classification model) được dùng để dự đoán những nhãn lớp có tính phân loại
(categorical), rời rạc và không có thứ tự cho những đối tượng dữ liệu mới.
Chương 2 : CƠ SỞ LÝ THUYẾT
9
Quá trình phân lớp dữ liệu
2.3.2.
Một quá trình phân lớp gồm 2 bước:
Bước thứ nhất: Học/Huấn luyện [11]
a.
Quá trình học nhằm xây dựng một mô hình phân lớp (Classifier) bao gồm các
lớp dữ liệu đã được khái niệm trước từ tập dữ liệu đầu vào. Bước học (hay giai đoạn
huấn luyện) dùng một giải thuật phân lớp (Classification Algorithms) để phân lớp
các bản ghi của dữ liệu huấn luyện. Trong đó tập huấn luyện là một tập dữ liệu
có cấu trúc với các thuộc tính và bộ dữ liệu tương ứng với các thuộc tính.
Bước thứ 2: Phân lớp (Classification) [11]
b.
Ở bước thứ hai (Hình 2.1), mô hình tìm được ở bước thứ nhất sẽ được dùng
cho việc phân loại những dữ liệu mới. Ta dùng một tập kiểm tra, bao gồm các bản
ghi kiểm tra và các nhãn lớp liên kết với chúng để so sánh kết quả đầu ra của bộ
phân lớp. Các bản ghi kiểm tra này chưa được dùng để xây dựng mô hình phân
lớp ở bước 1. Kết quả của mô hình phân lớp như sơ đồ sau:
Hình 2.1: Kết quả quá trình phân lớp [11] Chương 2 : CƠ SỞ LÝ THUYẾT
10
IF a = y and b = y then class x
IF a = n and c = y and d = y then class x
Ví dụ minh họa :
Bước 1 Xây dựng mô hình
Mục đích : Phân lớp bệnh nhân vào 2 lớp: “Dương tính” và “Âm tính” trong bộ phân
lớp có nhãn “KẾT QUẢ CHẨN ĐOÁN”. Mỗi bệnh nhân có các thuộc tính dùng để
phân lớp như sau: HCT, PLT, NS1. Sau khi huấn luyện, ta được mô hình phân lớp.
Hình 2.2: Xây dựng mô hình phân lớp
Chương 2 : CƠ SỞ LÝ THUYẾT
11
Bước 2: Phân lớp
Hình 2.3: Bước phân lớp
Đánh giá kết quả mô hình ở bước 1, ta dùng tập dữ liệu kiểm tra. Với một mẫu mới,
dùng bộ phân lớp để phân lớp mẫu này vào một trong các lớp được rút ra từ mô hình
ở bước 1. Trong dữ liệu kiểm tra của hình 2.3, bệnh nhân Khai có các giá trị : HCT =
59.3; PLT = 160.1; NS1 = “Dương tính” thì mô hình sẽ phân lớp cho trường hợp này
là “Kết quả chẩn đoán” = “Dương tính” (hình 2.3).
Một số vấn đề bộ phân lớp cần quan tâm giải quyết:
+ Độ chính xác: Độ tin cậy của một luật dựa vào độ chính xác khi phân lớp.
+ Tốc độ: Trong một số tình huống, tốc độ phân lớp được xem như là một yếu
tố quan trọng.
+ Dễ hiểu: Một bộ phân lớp dễ hiểu sẽ tạo cho người sử dụng tin tưởng hơn
vào hệ thống, đồng thời giúp cho người sử dụng tránh được việc hiểu lầm
kết quả của một luật được đưa ra bởi hệ thống.
+ Đơn giản: Kết quả đưa ra cây quyết định liên quan kích thước của nó.
Chương 2 : CƠ SỞ LÝ THUYẾT
12
+ Thời gian để học: Khi hệ thống hoạt động trong môi trường thay đổi thường
xuyên, điều đó yêu cầu hệ thống phải học rất nhanh một luật phân lớp hoặc
nhanh chóng điều chỉnh một luật đã được học cho phù hợp với thực tế.
Các kỹ thuật phân lớp :
+ Mô hình phân lớp dùng cây quyết định (Decision tree classification)
+ Phân lớp dùng mạng Neural
+ Phân lớp dùng mạng Bayesian
+ Phân lớp với K-nearest neighbor classifier
+ Phân tích thống kê
+ Các thuật toán di truyền
+ Phương pháp tập thô (Rough set Approach)
Phân lớp dữ liệu bằng cây quyết định
2.3.3.
Định nghĩa:
a.
Cây quyết định là kết quả của quá trình huấn luyện một tập dữ liệu với các bản
ghi đã có thuộc tính. Cây quyết định là một công cụ phổ biến trong KPDL và
phân lớp dữ liệu[14].
Đặc điểm của cây quyết định là một cây có cấu trúc kiểu lưu đồ, trong đó :
+ Gốc
:
Là nút trên cùng của cây.
+ Nút trong :
Biểu diễn một kiểm tra trên một thuộc tính đơn (hình
Oval).
+ Nhánh
:
Biểu diễn các kết quả của kiểm tra trên nút.
+ Nút lá
:
Biểu diễn lớp hay sự phân phối lớp (hình vuông hoặc chữ
nhật)
Chương 2 : CƠ SỞ LÝ THUYẾT
13
Ví dụ: ta có bảng dữ liệu về 14 đối tượng và 5 thuộc tính trong bảng 2.1. Trong đó
thuộc tính Play là thuộc tính phân lớp.
Bảng 2.1: Bảng dữ liệu về thời tiết [11]
Dựa vào quá trình phân lớp, ta có thể tạo cây quyết định như sau
Hình 2.4: Mô hình cây quyết định trong phân lớp dữ liệu về thời tiết [11]