10493_Nghiên cứu áp dụng kĩ thuật mạng nơron để dự báo khả năng theo học của học viên đào tạo từ xa

luanvantotnghiep.com

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC VÀ
CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Nguyễn Huy Tiến
NGHIÊN CỨU ÁP DỤNG KĨ THUẬT MẠNG NƠRON ĐỂ DỰ BÁO KHẢ
NĂNG THEO HỌC CỦA HỌC VIÊN ĐÀO TẠO TỪ XA
LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH
Hà Nội –2020

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC VÀ
CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Nguyễn Huy Tiến
NGHIÊN CỨU ÁP DỤNG KĨ THUẬT MẠNG NƠRON ĐỂ DỰ BÁO KHẢ
NĂNG THEO HỌC CỦA HỌC VIÊN ĐÀO TẠO TỪ XA
Chuyên ngành : Hệ thống thông tin
Mã số: 8 48 01 04
LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH
CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS. HOÀNG ĐỖ THANH TÙNG
Hoàng Đỗ Thanh Tùng
Hà Nội –2020
1

LỜI CAM ĐOAN

Tôi là Nguyễn Huy Tiến, học viên khóa I, ngành Công nghệ thông tin,
chuyên ngành Hệ thống thôn tin. Tôi xin cam đoan luận văn “Nghiên cứu áp
dụng kỹ thuật mạng nơron để dự báo khả năng theo học của học viên đào tạo
từ xa” này là do tôi nghiên cứu và dƣới sự hƣớng dẫn của TS. Hoàng Đỗ
Thanh Tùng. Những vấn đề, số liệu thông tin có trong luận văn đảm bảo có sự
chính xác và trung thực nhất. Các tài liệu đƣợc sử dụng đảm bảo có nguồn
gốc, xuất xứ rõ ràng.

Hà Nội – Tháng 10 năm 2020

Học viên

Nguyễn Huy Tiến

2

LỜI CẢM ƠN

Đầu tiên tôi xin gửi lời cảm ơn tới các thầy cô Học viện Khoa học và
Công nghệ Việt Nam đã tận tình giảng dạy và truyền đạt kiến thức cho tôi
trong suốt khóa học cao học vừa qua. Tôi cũng xin đƣợc gửi lời cảm ơn đến
các thầy cô trong Bộ môn Hệ thống thông tin cũng nhƣ Khoa công nghệ
thông tin đã mang lại cho tôi những kiến thức vô cùng quý giá và bổ ích trong
quá trình học tập tại trƣờng.

Đặc biệt xin chân thành cảm ơn thầy giáo, TS Hoàng Đỗ Thanh Tùng,
ngƣời đã định hƣớng, giúp đỡ, trực tiếp hƣớng dẫn và tận tình chỉ bảo tôi
trong suốt quá trình nghiên cứu, xây dựng và hoàn thiện luận văn này.

Tôi cũng xin đƣợc cảm ơn tới gia đình, những ngƣời thân, các đồng
nghiệp và bạn bè đã thƣờng xuyên quan tâm, động viên, chia sẻ king nghiệm,
cung cấp các tài liệu hữu ích trong thời gian học tập, nghiên cứu cũng nhƣ
trong suốt quá trình thực hiện luận văn tốt nghiệp.

Hà Nội – Tháng 10 năm 2020

Học viên

Nguyễn Huy Tiến

3

MỤC LỤC

LỜI CAM ĐOAN …………………………………………………………………………… 01
LỜI CẢM ƠN ………………………………………………………………………………… 02
MỤC LỤC
……………………………………………………………………………………… 03
DANH MỤC CÁC TỪ VIẾT TẮT …………………………………………………… 05
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ ……………………………………….. 06
LỜI NÓI ĐẦU ……………………………………………………………………………….. 08
CHƢƠNG 1. TIẾP CẬN VẤN ĐỀ THEO HỌC TRONG CÁC CƠ SỞ
ĐÀO TẠO TỪ XA
………………………………………………………………………….. 10
1.1. Nguyên nhân dẫn đến tình trạng thôi học ở các cơ sở đào tạo từ xa … 11
1.2. Tổng quan về khai phá dữ liệu
……………………………………………………. 13
1.3. Một số hƣớng giải quyết cho vấn đề theo học của học viên đào tạo từ
xa ………………………………………………………………………………………………….. 14
1.4. Phân tích khả năng theo học của các học viên hệ đào tạo từ xa ………. 15
CHƢƠNG 2. MẠNG NƠRON TRONG KHAI PHÁ DỮ LIỆU
…………… 17
2.1. Nguồn gốc, ý tƣởng của mạng Nơron
………………………………………….. 17
2.2. Mô hình và quá trình xử lý trong nơron nhân tạo …………………………. 18
2.2.1. Nơron nhân tạo
……………………………………………………………………… 18
2.2.2. Hàm truyền trong nơron
…………………………………………………………. 20
2.3. Cấu trúc và phân loại mạng nơron ……………………………………………… 25
2.4. Học và lan truyền trong mạng
……………………………………………………. 36
2.4.1. Học và tổng quát hoá …………………………………………………………….. 36
2.4.2. Phƣơng pháp học
……………………………………………………………………. 37
2.5. Thuật toán luyện mạng
………………………………………………………………. 43
2.6. Cách thức huấn luyện
………………………………………………………………… 45
2.7. Mạng Perceptron và qui tắc học Perceptron …………………………………. 45
4

2.8. Thuật toán lan truyền ngƣợc ………………………………………………………. 49
2.8.1 Mô tả thuật toán ……………………………………………………………………… 49
2.8. Sử dụng thuật toán lan truyền ngƣợc …………………………………………… 58
2.9. Đánh giá về mạng nơron ……………………………………………………………. 61
CHƢƠNG 3. KẾT QUẢ NGHIÊN CỨU VÀ PHÁT TRIỂN
……………….. 63
3.1. Thu thập dữ liệu ……………………………………………………………………….. 63
3.2. Các mô hình dự báo ………………………………………………………………….. 63
3.3. Sản ph m phần mềm và các bƣớc xử lý ………………………………………. 64
3.3.1 Khái niệm tiền xử lý tập dữ liệu
………………………………………………… 64
3.3.2 Các thao tác tiền xử lý
……………………………………………………………… 65
3.3.3 Mã hóa cột dữ liệu văn bản (Encoding Categorical Column ……. .66
3.3.4 Mã hóa cột dữ liệu Date/Time (Encoding Date/Time Columns….. 67
3.3.5 Sản ph m phần mềm ……………………………………………………………….. 68
3.4 Báo cáo phân tích dữ liệu
……………………………………………………………. 76
KẾT LUẬN VÀ KIẾN NGHỊ…………………………………………………………… 77
TÀI LIỆU THAM KHẢO
………………………………………………………………… 78
PHỤ LỤC
………………………………………………………………………………………. 80

5

DANH MỤC CÁC TỪ VIẾT TẮT

STT
TỪ VIẾT
TẮT
NGHĨA TIẾNG
VIỆT
TIẾNG ANH
1
KDD
Khám phá tri thức
trong các cơ sở dữ
liệu
Knowledge
discovery (mining)
in database
2
ANN
Mạng nơron nhân tạo Artficial Neural
Network
3
BNN
Mạng nơron sinh học
Biological Neural
Network
4
MLP
Mạng nhiều lớp
Multi Layer
Perceptrons Network
5
CSDL
Cơ sở dữ liệu
Data base
6
DM
Khai phá dữ liệu
Data mining

6

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1: Quá trình xử lý thông tin của một ANN …………………………………. 19
Hình 2: Đồ thị của hàm ngƣỡng
………………………………………………………… 21
Hình 3: Đồ thị của hàm ReLU ………………………………………………………….. 22
Hình 4: Đồ thị của hàm logistic sigmoid ……………………………………………. 23
Hình 5: Đồ thị của hàm hyperbolic tangent ………………………………………… 25
Hình 6: Một số ví dụ minh họa về giá trị đầu vào và đầu ra của hàm softmax
……………………………………………………………………………………………………… 25
Hình 7: Mô hình mạng Nơron một lớp ………………………………………………. 29
Hình 8: Mô hình mạng Nơron nhiều lớp…………………………………………….. 30
Hình 9: Mô hình mạng lan truyền tiến với một mức Nơron
…………………. 33
Hình 10: Mạng lan truyền tiến kết nối đầy đủ ……………………………………. 34
Hình 11: Mạng hồi quy không có nơron n và không có vòng lặp tự phản hồi
……………………………………………………………………………………………………… 35
Hình 12: Mạng qui hồi có các Nơron n
…………………………………………….. 35
Hình 13: Sơ đồ học có giám sát ………………………………………………………… 37
Hình 14: Học không có giám sát
……………………………………………………….. 39
Hình 15: Sơ đồ cấu trúc chung của quá trình học
………………………………… 39
Hình 16 : Mạng Perceptron ………………………………………………………………. 46
Hình 17: Mô hình mạng Perceptron nhiều lớp ……………………………………. 49
7

Hình 18: Kết quả xấp xỉ của mạng trong các trƣờng hợp i=1 ……………….. 59
Hình 19: Kết quả xấp xỉ của mạng trong các trƣờng hợp i=2 ……………….. 59
Hình 20: Kết quả xấp xỉ của mạng trong các trƣờng hợp i=4 ……………….. 60
Hình 21: Kết quả xấp xỉ của mạng trong các trƣờng hợp i=8 ……………….. 60
Hình 22: Kết quả xấp xỉ của mạng trong các trƣờng hợp i=8, số nơron lớp n
là 8 ………………………………………………………………………………………………… 61
Hình 23: Giao diện chính của chƣơng trình
………………………………………… 69
Hình 24: Chức năng phân tích tập dữ liệu ………………………………………….. 70
Hình 25: Chức năng tiền xử lý dữ liệu
……………………………………………….. 71
Hình 26: Tùy chỉnh tham số mạng
…………………………………………………….. 71
Hình 27: Đồ thị hàm lỗi của mạng trên các tập dữ liệu ………………………… 72
Hình 28: Thiết lập kiến trúc mạng …………………………………………………….. 72
Hình 29: Phần trăm đúng trên các tập dữ liệu tham gia luyện mạng
………. 73
Hình 30: Phần trăm đúng dựa trên dữ liệu xác minh ……………………………. 74
Hình 31: Phần trăm đúng dựa trên tập dữ liệu Test ……………………………… 74
Hình 32: Kết quả truy vấn 1
……………………………………………………………… 75
Hình 33: Kết quả truy vấn 2
……………………………………………………………… 76

8

LỜI NÓI ĐẦU
Mô hình đạo tạo từ xa đã có mặt tại Việt Nam một thời gian dài, phát
triển nhất vào năm 2012 với hơn 161 nghìn sinh viên đang theo học. Nhƣng
do những hạn chế về công nghệ và về giá trị văn bằng nên số lƣợng sinh viên
học từ xa càng ngày càng giảm. theo thống kê của bộ giáo dục thì năm 2015
nƣớc ta chỉ có khoảng 87 nghìn sinh viên đào tạo từ xa và đến năm 2018 thì
số lƣợng sinh viên chỉ còn 63 nghìn sinh viên.
Trái ngƣợc với số lƣợng sinh ngày càng giảm thì số lƣợng cơ sở đào
tạo từ xa lại tăng lên đáng kể, năm 2012 chỉ có 17 trƣờng mở hệ từ xa, nhƣng
sang năm 2015 số lƣợng đã tăng lên 20 trƣờng và năm 2018 là 22 trƣờng.
Nguyên nhân dẫn tới điều đó là do các cơ sở giáo dục đều nhận thấy một tiềm
lực to lớn của mô hình đào tạo từ xa vì thế đều bắt đầu triển khai mô hình đào
tạo từ xa, dự kiến đến năm 2020 thì số trƣờng có tuyển sinh đào tạo từ xa sẽ
lên tới 28 trƣờng. Một số khuyết điểm trƣớc kia của mô hình đào tạo từ xa
đang đƣợc khắc phục dần nhờ sự phát triển của công nghệ và các quy định
mới của Bộ giáo dục ví dụ nhƣ : Theo Luật giáo dục đại học số
34/2018/QH14 thì Bằng đại học từ xa có giá trị tương đương bằng chính quy
kể từ ngày 01/07/2019. Chính vì những thay đổi trên nên trong tƣơng lai mô
hình đào tạo từ xa sẽ phát triển mạnh và thu hút đƣợc rất nhiều sinh viên theo
học.
Thu hút đƣợc sinh viên là một vấn đề quan trọng và đã đƣợc giải quyết
phần nào nhờ những thay đổi trong chính sách đào tạo của bộ giáo dục nhƣng
vấn đề giữ sinh viên ở lại còn quan trọng hơn. Nhƣ thống kê ở trên số lƣợng
sinh viên đào tạo từ xa ở trên cho thấy lƣợng sinh viên sụt giảm đáng kể từ
năm 2012 đến năm 2018, một phần là hoàn thành quá trình học, lƣợng sinh
viên đăng ký mới ít hơn, còn một phần nữa là do có một số lƣợng sinh viên
bỏ học giữa chừng. Tình trạng sinh viên bỏ học này ảnh hƣởng rất lớn đến
9

quy mô phát triển, chất lƣợng, hiệu quả kinh tế, và độ uy tín của chƣơng trình
học. Vì thế vấn đề đƣợc đƣa ra là làm thế nào để có thể dự đoán đƣợc những
sinh viên nào có khả năng theo học, từ đó các cơ sở đào tạo có thể tƣ vấn cho
họ ngay từ giai đoạn nộp hồ sơ và trong suốt quá trình học giúp sinh viên có
thể định hƣớng tốt việc học tập trong tƣơng lai để có thể kết thúc đƣợc khóa
học, qua đó giảm thiểu tỷ lệ bỏ học giữa chừng của các sinh viên đào tạo từ
xa.

10

CHƯƠNG 1
TIẾP CẬN VẤN ĐỀ THEO HỌC TRONG CÁC CƠ SỞ ĐÀO
TẠO TỪ XA

Nhƣ đã nói ở trên, vấn đề theo học của các học viên gây ra những tác
động tiêu cực rất lớn đối với các lĩnh vực đào. Những tác động này ảnh hƣởng
không tốt đến các học viên, các cơ sở đào tạo . . . thực trạng này không chỉ có
ở riêng Việt Nam mà là trên cả thế giới. Hiện nay trên thế giới đã có rất nhiều
nghiên cứu về ảnh hƣởng tiêu cực của vấn đề theo học.

Đối với các cơ sở đào tạo, việc học viên thôi học dù là số lƣợng ít hay
nhiều thì cũng sẽ gây ra ảnh hƣởng rất lớn đến nhiều mặt của cơ sở đào tạo.
Đầu tiên là ảnh hƣởng đến thƣơng hiệu và danh tiếng của cơ sở đào tạo, từ đó
dẫn tới giảm khả năng thu hút học viên mới và đồng thời cũng ảnh hƣởng tới
tinh thần học tập của các học viên còn lại. Hậu quả là số lƣợng học viên theo
học sẽ sụt giảm dần theo từng năm. Song song với ảnh hƣởng đến thƣơng
hiệu và anh tiếng, thì việc học viên thôi học cũng gây ra rất nhiều vấn đề về
mặt tài chính của sơ sở đào tạo. Các trƣờng sẽ gặp nhiều khó khăn trong vấn
đề phân bổ tài chính vì nguồn thu không ổn định, nguồn thu sụt giảm hằng
năm.

Đối với những học viên có khả năng theo học thì việc không đƣợc tƣ
vấn và hỗ trợ kịp thời sẽ dẫn tới tâm lý tiêu cực trong việc học tập, từ đó làm
học viên càng suy nghĩ tới vấn đề thôi học. Đối với những học viên đã thôi
học thì việc thôi học gây hao tốn chi phí và thời gian nhƣng không đạt đƣợc
kết quả nhƣ mong muốn ban đầu. Đối với những học viên bình thƣờng, việc
11

trong lớp có nhiều học viên thôi học, hoặc nhiều học viên có ý tƣởng thôi học
sẽ ảnh hƣởng đến trạng thái học tập của họ, từ đó có khả năng nảy sinh tâm
trạng muốn thôi học nếu họ gặp phải một khó khăn nào đó trong cuộc sống.

Vấn đề thôi học ngoài ảnh hƣởng trực tiếp đến cơ sở đào tạo và học
viên thì cũng góp phần ảnh hƣởng tiêu cực đến xã hội. Đầu tiên là tình trạng
thôi học sẽ làm tăng chi phí đào tạo chung của toàn xã hội. Tiếp theo việc thôi
học dẫn tới nhiều học viên không hoàn thành đƣợc khóa học vì thế gây ra tình
trạng thiếu kiến thức và bằng cấp để phục vụ cho việc xin việc, làm giảm khả
năng kiếm việc làm của học viên, từ đó làm tình trạng thất nghiệp gia tăng.
Từ việc gia tang tình trạng thất nghiệp sẽ dẫn tới hệ quả là gia tăng các tệ nạn
và các vấn đề xã hội khác.
1.1 N u n n n n ến t n tr n t ọ ở sở o t o từ
Dựa theo một số nghiên cứu quốc tế [1] [2] [3] [4][5] về vấn đề thôi
học của học viên đào tạo từ xa thì có rất nhiều nguyên nhân dẫn tới việc thôi
học. Các nguyên nhân đó bắt nguồn từ cơ sở đào tạo, từ chính học viên và
một phần từ thực trạng xã hội.
Nguyên nhân từ sở o t o
– Quá trình học khác so với khi tƣ vấn tuyển sinh
– Chƣơng trình học không đầy đủ
– Chất lƣợng giảng viên không đạt tiêu chu n, thiếu kinh nghiệm
– Môi trƣờng học tập, điều kiện học tập và phƣơng pháp giảng dạy không
thu hút đƣợc học viên
– Tài liệu học tập không đầy đủ, đa dạng và thiếu tƣơng tác
– Thiếu giám sát, quản lý và hỗ trợ học viên
Nguyên nhân từ học viên
– Kiến thức của học viên không đủ để đáp ứng khóa học
– Không đáp ứng đƣợc vấn đề tài chính để tiếp tục khóa học
– Mục tiêu học tập của học viên không đúng với mục tiêu giáo dục của
khóa học
12

– Mục tiêu học tập của học viên thay đổi trong quá trình học
– Học viên không đạt đƣợc kỹ năng và kiến thức mà họ mong muốn
– Áp lực về mặt gia đình và công việc
– Gặp phải các vấn đề, sự cố ngoài mong muốn
– Thành tích học tập không nhƣ ý dẫn tới học viên thiếu niềm tin có thể
hoàn thành khóa học
– Không bố trí đƣợc thời gian học tập
Nguyên nhân từ xã hội
– Xu hƣớng nghề nghiệp trong xã hội bị thay đổi
– Chịu ảnh hƣởng từ các tác động bởi những quyết định và nghị định mới
của chính phủ.

Một số nghiên cứu quốc tế về vấn ề thôi học của họ v n o t o từ xa
T n s
o
T Tr ờn
Năm T m tắt ết qu
Dropout in
Distance
Education and
how to Prevent it
Cathrin Vogel, Jana
Hochberg, Sarah
Hackstein
2018
Nguyên nhân của
vấn đề thôi học của
học viên đào tạo từ
xa và cách phòng
tránh.
Alina Bockshecker, Theo
J. Bastiaens, Ulrike
Baumöl
FernUniversität in Hagen,
Germany
A study of
variables that
predict dropout
from distance
education
Parker, A
2009
Nghiên cứu về các
biến số trong dự
đoán tình trạng bỏ
học của học viên
đào tạo từ xa
International Journal of
Educational Technology

A study of
variables that
predict dropout
Youngju Lee, Jaeho Choi,
& Patrick McGuire
2010
Xác định đƣợc 3
nhóm nhân tố ảnh
hƣởng tới quyết
13

from distance
education
University of Virginia
định bỏ học của học
viên.Phân tích mức
độ ảnh hƣởng của
từng nhân tố. Phân
tích các chiến lƣợc
khắc phục drop-out.
Student dropout
analysis with
application of
data mining
methods
Johnelle Bryson Welsh,
A. G. S., B. S., M. S./
University Of North
Texas
2007
Xác định các nhân
tố để dự báo học
viên tốt nghiệp
trong chƣơng trình
từ xa trực tuyến.
Phân tích trên mẫu
dữ liệu gồm 926
học viên.

1.2. Tổng quan về khai phá dữ liệu
Khai phá dữ liệu ( Data mining ), để dễ hiểu hơn thì chúng ta có thể
tách “Data mining” thành 2 “Data” và “mining” để thuận tiện cho việc phân
tích. “Data” đơn giản là nguồn dữ liệu mà mỗi công ty, tổ chức thu thập đƣợc
đa dạng, từ các nguồn khác nhau [6]. Còn “Mining” trong tiếng Việt có nghĩa
là đào đất, đào mỏ để tìm vàng, dầu mỏ, những thứ có giá trị. Nhƣng khi
“data” và “mining” ghép lại với nhau, chúng ta không thể nói đây là quá trình
đào dữ liệu để tìm giá trị trong một tập hợp dữ liệu khổng lồ và phức tạp mà
phải nói là “khai phá dữ liệu”, ( bởi vì đào bới với khai phá đều có ý nghĩa là
tìm kiếm những thứ chúng ta chƣa từng biết đến). Vì thế, “Data mining”
chính là quá trình đi sâu vào bộ dữ liệu để phân tích và tìm kiếm các chi tiết,
các giá trị n bên trong từng dữ liệu. Hiểu cụ thể hơn chính là nếu chúng ta
muốn xác định, muốn biết xem bộ dữ liệu đó có thể cung cấp những thông tin
gì, những thông tin đó có ích hay không, thì chúng ta phải thực hành “Data
mining” [7].
Theo Data-Flair, đây là một trang web cung cấp các khóa học, các kiến
thức về Big Data và Data Science, họ đã định nghĩa Data mining nhƣ sau:
Data mining – khai phá dữ liệu, là một tập hợp, một hệ thống các
phƣơng pháp tính toán, thuật toán đƣợc áp dụng cho các cơ sở dữ liệu lớn và
phức tạp mục đích loại bỏ các chi tiết ngẫu nhiên, chi tiết ngoại lệ, khám phá
14

các mẫu, mô hình, quy luật tiềm n, các thông tin có giá trị trong bộ dữ liệu.
Data mining là thành quả công nghệ tiên tiến ngày nay, là quá trình khám phá
các kiến thức vô giá bằng cách phân tích khối lƣợng lớn dữ liệu đồng thời lƣu
trữ chúng ở nhiều cơ sở dữ liệu khác nhau” [8].
Cũng theo Data- Flair, Data mining là một trong những lợi thế các công
ty trong ngành sản xuất, kinh doanh, marketing nếu họ biết cách ứng dụng
hợp lý để tăng hiệu quả hoạt động. Do đó, nhu cầu xây dựng một hệ thống
Data mining tiêu chu n ngày càng cao. Các quy trình, mô hình Data mining
phải có độ tin cậy cao và tạo điều kiện để các nhà kinh doanh – những ngƣời
có thể không nắm rõ kiến thức chuyên môn về khoa học dữ liệu – có thể sử
dụng đƣợc.
Khai thác dữ liệu chính là là trích xuất thông tin từ các bộ dữ liệu
khổng lồ. Nói cách khác, khai thác dữ liệu là quy trình khai thác, tiếp thu kiến
thức từ dữ liệu. Chính vì lý do đó cho nên Data mining đã đƣợc ứng dụng vào
trong rất nhiều lĩnh vực.
Ngoài ra khai phá dữ liệu còn có một số tên gọi khác: Phân tích mẫu,
phân tích dữ liệu (Data/pattern analysis), trích rút tri thức (Knowledge
extraction), Khám phá tri thức trong các cơ sở dữ liệu (knowledge discovery
(mining) in database-KDD), data archaeoloogy (khảo cổ dữ liệu),
datadredging(nạo vét dữ liệu)…

1.3 Một số ớn qu ết o vấn ề t ọ ủ ọ v n o t o từ
xa
Chúng ta có thể chia các học viên từ xa thành 3 nhóm để có những phƣơng án
giải quyết riêng biệt gồm : học viên chu n bị đăng ký, học viên đang học và
học viên sắp hoặc đã nghỉ
Đối với các học viên sắp nghỉ hoặc đã nghỉ
– Tiếp tục tƣ vấn cho học viên
– Bảo lƣu lại các kết quả học tập
– Hỗ trợ chuyển đổi nghành học cho học viên
15

– Tối ƣu lại chƣơng trình đào tạo
– Hỗ trợ tƣ vấn tài chính
Đối với các học viên đang học
– Tổ chức các hoạt động tăng cƣờng tƣơng tác giữa học viên và học viên,
học viên và cơ sở đào tạo
– Hỗ trợ các học viên tằng cƣờng, rèn luyện thêm các kỹ năng học tập
– Định kỳ tƣ vấn, giải đáp các vấn đề của học viên
– Phân tích kết quả học tập và quá trình học tập để dự báo khả năng theo
học của học viên
Đối với các học viên chuẩn bị đăng ký
– Tƣ vấn chính xác mục tiêu của học viên
– Tƣ vấn và hỗ trợ về mặt tài chính
– Dự báo trƣớc khả năng theo học dựa trên thông tin trên hồ sơ của học
viên

1.4 Phân tích kh năn t eo ọc của các học viên hệ o t o từ xa
Tập dữ liệu học viên dùng trong đề tài này đƣợc phân chia thành bốn
lớp bao gồm: Học viên đang học, Học viên đã tốt nghiệp, học viên đã nghỉ
học, và học viên đang trong giai đoạn tƣ vấn. Do đó bản chất của bài toán mà
chúng ta gặp phải là bài toán phân lớp. Trong “phân lớp” có những kĩ thuật
nhƣ:

Mạng Noron

Mạng Bayes

Cây quyết định

Mô hình Markov n

Luật cơ sở

Trí nhớ dựa trên các nguyên nhân

Giải thuật di truyền
Đồng thời do mạng nơron có những ƣu điểm nhƣ :
– Có thể mô hình hóa các hàm tùy ý hơn ( ví dụ nhƣ các tƣơng tác phi
tuyến . . . ) do đó có thể đạt đƣợc kết quả chính xác hơn, với điều kiện
là có đủ dữ liệu để đào tạo.
– Mạng nơron cũng là hệ thống xử lý song song vì thế làm tăng tốc độ
tính toán, từ đó có thể đáp ứng đƣợc khả năng tính toán thời gian thực
và chính xác
16

– Là hệ học và thích nghi, khi mạng nơron đƣợc huấn luyện từ các dữ
liệu quá khứ, đồng thời cũng có thể khái quát hóa khi các dữ liệu không
đầy đủ hoặc có thiểu sót.
– Phù hợp với các kỹ thuật chu n đoán, các hệ thống nhận dạng . . .
Thực tiễn đã chứng minh rằng mô hình mạng nơ truyền thẳng nhiều
lớp, sử dụng thuật toán lan truyền ngƣợc khá mạnh và hiệu quả, nhất là
trong các bài toán về phân tích số liệu và dự báo ( ví dụ nhƣ dự báo về
kinh tế, dự báo thời tiết, các dự báo khả năng . . . ) Do đó chúng ta sẽ sử
dụng mạng nơron truyền thẳng nhiều lớp sử dụng thuật toán lan truyền
ngƣợc để giải quyết bài toán dự báo khả năng theo học của học viên đào
tạo từ xa.
Cho nên tôi lựa chọn sử dụng kỹ thuật mạng nơron và thuật toán lan
truyền ngƣợc để giải quyết bài toán : DỰ BÁO KHẢ NĂNG THEO HỌC
CỦA HỌC VIÊN ĐÀO TẠO TỪ XA

17

C n 2
MẠNG NƠRON TRONG KHAI PHÁ DỮ LIỆU

Khi đề cập đến vấn đề khai thác dữ liệu, ngƣời ta thƣờng hay đề cập
nhiều đến mạng nơron. Mặc dù mạng nơron có một vài hạn chế gây khó khăn
cho quá trình áp dụng và triển khai, nhƣng đồng thời nó cũng có những rất
nhiều ƣu điểm khác. Một trong số những ƣu điểm phải chính là mạng nơron
có khả năng tạo ra những mô hình dự đoán có độ chính xác cao, có thể áp
dụng cho rất nhiều loại bài toán khác nhau, đồng thời đáp ứng đƣợc những
nhiệm vụ đặt ra của khai phá dữ liệu ví dụ nhƣ phân lớp, mô hình hóa, phân
nhóm, dự báo các sự kiện phụ thuộc thời gian,….
2.1 N uồn ố , ý t ởn ủ m n N ron
Đã có rất nhiều nghiên cứu về bộ não con ngƣời đƣợc tiến hành từ hàng
nghìn năm nay. Theo sự phát triển ngày càng tiến bộ của khoa học kĩ thuật,
nhấtt là những tiến bộ vƣợt bậc trong ngành điện tử hiện đại, cho nên xu
hƣớng nghiên cứu về các nơron nhân tạo của con ngƣời là một xu hƣớng tất
nhiên. Việc nghiên cứu về nơron nhân tạo có thể tính bắt đầu từ nghiên cứu
của William (1890) về tâm lý học và sự liên kết của các noron thần kinh.
Nhƣng sự kiện đánh dấu sự ra đời của mạng nơron nhân tạo đầu tiên lại diễn
ra vào năm 1943 khi nhà toán học Walter Pitts và nhà thần kinh học Warren
McCulloch viết một bài báo mô tả lại cách thức các nơron hoạt động.
Thông qua các quá trình nghiên cứu về não bộ, chúng ta thấy rằng: bộ
não của con ngƣời đƣợc bao gồm khoảng 1011 nơron thần kinh, tham gia vào
khoảng 1015 kết nối trên các đƣờng truyền . Mỗi một đƣờng truyền này có độ
dài khoảng hơn một mét. Các nơron này có rất nhiều đặc điểm chung với các
18

tế bào khác bên trong cơ thể, đồng thời chúng còn có những khả năng khác
mà những tế bào khác không có. Đó là khả năng tiếp nhận, xử lý và truyền đi
các tín hiệu trên các đƣờng truyền nơron. Các đƣờng truyền này đã tạo nên hệ
thống giao tiếp của bộ não.
Trên cơ sở mạng nơron thần kinh, chúng ta có thể xây dựng mô hình
mạng nơron nhân tạo mô phỏng hoạt động của mạng nơron thần kinh.
Mô phỏng lại những hoạt động của các nơron thần kinh, mạng nơron
nhân tạo chính là hệ thống bao gồm rất nhiều phần tử với chức năng xử lý
đơn giản (nơron) đƣợc hoạt động song song. Tính năng của hệ thống mạng
nơron nhân tạo này tuỳ thuộc vào cấu trúc của hệ thống, của các trọng số liên
kết giữa các nơron và quá trình tính toán tại các nơron đơn lẻ.
Mỗi liên kết giữa các nơron đƣợc gắn với một trọng số, các trọng số
này đƣợc thêm vào trong quá trình mỗi khi tín hiệu đi qua liên kết đó. Các
trọng số này có thể dƣơng để thể hiện trạng thái kích thích, hoặc âm để thể
hiện trạng thái kiềm chế. Mỗi một nơron sẽ tính toán mức độ kích hoạt của
chúng bằng cách cộng tổng tất cả các đầu vào sau đó đƣa ra hàm chuyển. Nếu
nhƣ đầu ra của tất cả các nơron có trong một lớp mạng cụ thể đã thực hiện
xong tính toán của mình thì lớp tiếp theo có thể bắt đầu thực hiện quá trình
tính toán bởi vì đầu ra của lớp mạng hiện tại đã tạo ra đầu vào của lớp tiếp
theo. Khi tất cả các nơron đều đã thực hiện xong tính toán thì kết quả sẽ đƣợc
trả lại bởi các nơron đầu ra. Tuy nhiên, cũng có thể là sẽ đúng yêu cầu, khi đó
cần áp dụng một thuật toán huấn luyện để có thể điều chỉnh lại các tham số
của mạng [9][10].

2.2. Mô hình và quá trình xử lý tron n ron n n t o
2.2.1. Nơron nhân tạo
Nơron nhân tạo giống với các nơron sinh học, mỗi một nơron nhân tạo đều
đƣợc nối với rất nhiều nơron khác và đều đƣợc nhận tín hiệu từ các nơron đó
với các trọng số liên kết.
19

Quá trình xử lý thông tin của một ANN [11]

Hình 1 : Quá trình xử lý thông tin của một ANN
Inputs: Mỗi một Input sẽ tƣơng ứng với 1 thuộc tính (attribute) của dữ
liệu (patterns). Ví dụ nhƣ trong bài toán dự báo khả năng theo học của học
viên thì mỗi Input là một thuộc tính của các học viên nhƣ tuổi, tình trạng hôn
nhân, nghề nghiệp, thu nhập . . .
Output: Kết quả của một ANN là một giải pháp cho một vấn đề, ví dụ
đối với bài toàn dự báo trên thì output là yes (có khả năng) hoặc no (không có
khả năng).
Connection Weights (Trọng số liên kết) : Đây là chính thành phần vô
cùng quan trọng của mỗi một ANN, trọng số liên kết thể hiện mức độ quan
trọng (độ mạnh) của dữ liệu đầu vào đối với cả quá trình xử lý thông tin (quá
trình chuyển đổi dữ liệu từ Layer này sang layer khác). Quá trình học
(Learning Processing) của ANN chính là quá trình để điều chỉnh lại các trọng
số (Weight) của dữ liệu đầu vào để có đƣợc kết quả mong muốn.
Summation Function (Hàm tổng): Là hàm để tính tổng tất cả các trọng
số của tất cả các đầu vào đƣợc đƣa vào mỗi một nơron (phần tử xử lý PE).
Hàm tổng của một Nơron đối với n đầu vào input sẽ đƣợc tính dựa theo công
thức sau:
20

Hàm tổng của nhiều nơron ở trong cùng một Layer :

2.2.2. Hàm truyền trong nơron
a. Hàm ngưỡng
Hàm ngƣỡng (threshold function) là hàm không liên tục và miền giá trị
của hàm chỉ mang hai giá trị là 0 và 1. Hàm này đƣợc mô tả theo công thức
nhƣ sau

Trong kỹ thuật, hàm này còn đƣợc gọi là hàm bƣớc Heaviside
(Heaviside step function). Tƣơng ứng với hàm kích hoạt này, giá trị đầu ra yk
của nơron có nhãn k sẽ là:

Trong đó:
21

Hình 2: Đồ thị hàm ngưỡng
Trong thực tế, hiện nay hàm ngƣỡng ít đƣợc sử dụng do hàm này
không có đạo hàm tại điểm 0 và đạo hàm tại các điểm còn lại đều bằng 0, các
thuật toán dựa trên gradient đều không phù hợp khi sử dụng hàm ngƣỡng làm
hàm kích hoạt.

b. Hàm ReLU
Hàm ReLU (Rectified Linear Unit) đƣợc giới thiệu bởi Hahnloser vào
năm 2000 và hàm này đƣợc định nghĩa nhƣ sau:

Định nghĩa ở trên cũng có thể đƣợc viết lại nhƣ sau:
22

Hình 3: Đồ thị của hàm ReLU
Vào năm 2011, lần đầu tiên ngƣời ta đã chứng minh đƣợc rằng hàm
ReLU giúp cho việc huấn luyện các mạng nơron trở nên tốt hơn so với các
hàm kích hoạt khác đƣợc sử dụng rộng rãi trƣớc năm 2011. Do đó đây là một
hàm đƣợc sử dụng làm hàm kích hoạt phổ biến rộng rãi nhất trong các mạng
nơron cho đến hiện nay.

c. Hàm Logistic Sigmoid
Hàm logistic sigmoid có đồ thị là đƣờng cong hình chữ S đặc trƣng.
Hàm này cũng đƣợc định nghĩa nhƣ sau
23

Hình 4: Đồ thị của hàm logistic sigmoid
Hàm logistic sigmoid là hàm liên tục, có miền xác định là (-∞,∞) và có
miền giá trị là (-1,1) Nhìn vào đồ thị của hàm ở hình trên, chúng ta có thể thấy
rằng nếu đầu vào của hàm này càng lớn, giá trị đầu ra sẽ càng tiến gần đến 1
[6]. Với đầu vào có giá trị càng âm thì giá trị đầu ra của hàm càng tiến gần
đến 0. Trƣớc đây, hàm logistic sigmoid thƣờng đƣợc ƣu tiên sử dụng làm hàm
kích hoạt trong các mạng nơron do tính chất khả vi và có một đạo hàm đẹp
có thể đƣợc tính toán khá dễ dàng:

d. Hàm Hyperbolic Tangent
Hàm hyperbolic tangent cũng là một hàm liên tục, có miền xác định là
(-∞,∞) và có miền giá trị là (-1,1)

Đánh giá post

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *