Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
1
NguyӉn Trung HiӃu – 0112216
/ӠI CҦM ѪN
Chúng em xin gӣi lӡi cҧm ѫn chân thành nhҩt ÿӃn thҫy Hӗ Bҧo Quӕc, ngѭӡi ÿã
Wұn tình hѭӟng dүn, giúp ÿӥ chúng em trong suӕt thӡi gian thӵc hiӋn luұn văn này.
Chúng con cҧm ѫn Cha, Mҽ và gia ÿình, nhӳng ngѭӡi ÿã dҥy dӛ, khuyӃn khích,
ÿӝng viên chúng con trong nhӳng lúc khó khăn, tҥo mӑi ÿLӅu kiӋn cho chúng con
nghiên cӭu hӑc tұp.
Chúng em cҧm ѫn các thҫy, cô trong khoa Công NghӋ Thông Tin ÿã dìu dҳt,
giҧng dҥy chúng em, giúp chúng em có nhӳng kiӃn thӭc quý báu trong nhӳng năm hӑc
qua.
&ҧm ѫn chӏ Lê Thúy Ngӑc và các bҥn ÿã tұn tình ÿóng góp ý kiӃn cho luұn văn
Fӫa chúng tôi.
0һc dù rҩt cӕ gҳng nhѭng luұn văn cӫa chúng em không tránh khӓi sai sót,
mong nhұn ÿѭӧc sӵ thông cҧm và góp ý cӫa thҫy cô và các bҥn.
Tháng 7 năm 2005
Sinh viên
NguyӉn Thӏ Thanh Hà – NguyӉn Trung HiӃu
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
2
NguyӉn Trung HiӃu – 0112216
NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………….
……………………………………………………………………………………
Ngày…… tháng……năm 2005
Ký tên
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
3
NguyӉn Trung HiӃu – 0112216
NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………….
……………………………………………………………………………………
Ngày…… tháng……năm 2005
Ký tên
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
4
NguyӉn Trung HiӃu – 0112216
0ӨC LӨC
DANH SÁCH CÁC BҦNG………………………………………………………………………..8
DANH SÁCH CÁC HÌNH VӀ……………………………………………………………………8
Phҫn 1 : TÌM HIӆU LÝ THUYӂT………………………………………………………………..11
Chѭѫng 1: TӘNG QUAN Vӄ TÌM KIӂM THÔNG TIN……………………………..11
1. Giӟi thiӋu vӅ tìm kiӃm thông tin…………………………………………………………….11
1.1 Khái niӋm vӅ tìm kiӃm thông tin……………………………………………………….11
1.2 Mӝt sӕ vҩn ÿӅ trong viӋc tìm kiӃm thông tin: ………………………………………11
2. HӋ tìm kiӃm thông tin – IRS………………………………………………………………….12
3. Các thành phҫn cӫa mӝt hӋ tìm kiӃm thông tin [1.1]………………………………….13
4. So sánh IRS vӟi các hӋ thӕng thông tin khác ……………………………………………14
4.1 HӋ quҧn trӏ cѫ sӣ dӳ liӋu (DBMS)……………………………………………………..15
4.2 HӋ quҧn lý thông tin (IMS) ………………………………………………………………15
4.3 HӋ hӛ trӧ ra quyӃt ÿӏnh (DSS)…………………………………………………………..16
4.4 HӋ trҧ lӡi câu hӓi (QAS) ………………………………………………………………….16
4.5 So sánh IRS vӟi các hӋ thӕng thông tin khác……………………………………….17
Chѭѫng 2: XÂY DӴNG MӜT Hӊ THӔNG TÌM KIӂM THÔNG TIN…………18
1. KiӃn trúc cӫa hӋ tìm kiӃm thông tin. [1.3]………………………………………………..18
2. Mӝt sӕ mô hình ÿӇ xây dӵng mӝt hӋ tìm kiӃm thông tin [1.2]……………………..19
2.1 Mô hình không gian vector ………………………………………………………………19
2.2 Tìm kiӃm Boolean ………………………………………………………………………….21
2.3 Tìm kiӃm Boolean mӣ rӝng ……………………………………………………………..22
2.4 Mӣ rӝng trong viӋc thêm vào trӑng sӕ cӫa câu hӓi……………………………….23
2.4.1 Mӣ rӝng cho sӕ tӯ tuǤ ý …………………………………………………………….23
2.4.2 Thêm toán tӱ tӵÿӝng ………………………………………………………………..24
2.5 Mô hình xác suҩt…………………………………………………………………………….24
2.6 Ĉánh giá chung vӅ các mô hình ………………………………………………………..25
3. Các bѭӟc ÿӇ xây dӵng mӝt hӋ tìm kiӃm thông tin. [3.2]……………………………..25
3.1 Tách tӯ tӵÿӝng cho tұp các tài liӋu……………………………………………………25
3.2 Lұp chӍ mөc cho tài liӋu…………………………………………………………………..25
3.3 Tìm kiӃm ………………………………………………………………………………………26
3.4 Sҳp xӃp các tài liӋu trҧ vӅ (Ranking)………………………………………………….26
4. Nhӳng khó khăn trong viӋc xây dӵng mӝt hӋ thӕng tìm kiӃm thông tin tiӃng
ViӋt ………………………………………………………………………………………………………26
4.1 Khó khăn trong viӋc tách tӯ tiӃng ViӋt……………………………………………….27
4.2 Vҩn ÿӅ bҧng mã tiӃng ViӋt……………………………………………………………….27
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
5
NguyӉn Trung HiӃu – 0112216
4.3 Các khó khăn khác………………………………………………………………………….27
Chѭѫng 3: TÁCH TӮ TӴĈӜNG………………………………………………………………29
1. Tách tӯ trong TiӃng Anh ………………………………………………………………………29
2. Tách tӯ trong TiӃng ViӋt ………………………………………………………………………29
2.1 Mӝt sӕÿһc ÿLӇm chính vӅ tӯ tiӃng ViӋt [2.2]……………………………………….29
2.1.1 TiӃng………………………………………………………………………………………29
2.1.2 Tӯ ………………………………………………………………………………………….30
2.2 Tách tӯ tӵÿӝng tiӃng ViӋt ……………………………………………………………….30
3. Các phѭѫng pháp tách tӯ tiӃng ViӋt………………………………………………………..30
3.1 fnTBL (Fast Transformation-based learning) [3.1]……………………………….30
3.1.1 Mô tҧ………………………………………………………………………………………30
3.1.2 Áp dөng tách tӯ tiӃng ViӋt………………………………………………………….31
3.2 Longest Matching [1.4]……………………………………………………………………37
3.3 KӃt hӧp giӳa fnTBL và Longest Matching………………………………………….37
Chѭѫng 4: LҰP CHӌ MӨC ……………………………………………………………………….38
1. Khái quát vӅ hӋ thӕng lұp chӍ mөc………………………………………………………….38
2. Phѭѫng pháp lұp chӍ mөc [1.1]………………………………………………………………38
2.1 Xác ÿӏnh các tӯ chӍ mөc…………………………………………………………………..38
2.2 Các phѭѫng pháp tính trӑng sӕ cӫa tӯ………………………………………………..40
2.2.1 Tҫn sӕ tài liӋu nghӏch ÿҧo…………………………………………………………..40
2.2.2 Ĉӝ nhiӉu tín hiӋu (The Signal – Noise Ratio) ………………………………..40
2.2.3 Giá trӏ phân biӋt tӯ (The Term Discrimination Value) …………………….42
2.3 Lұp chӍ mөc tӵÿӝng cho tài liӋu tiӃng Anh…………………………………………43
3. Lұp chӍ mөc cho tài liӋu tiӃng ViӋt …………………………………………………………45
4. Tұp tin nghӏch ÿҧo tài liӋu …………………………………………………………………….46
4.1 Phân biӋt giӳa tұp tin nghӏch ÿҧo và tұp tin trӵc tiӃp…………………………….46
4.2 Tҥi sao sӱ dөng tұp tin nghӏch ÿҧo ÿӇ lұp chӍ mөc ……………………………….47
Phҫn 2 : PHÂN TÍCH VÀ THIӂT Kӂ…………………………………………………………..49
Chѭѫng 5: PHÂN TÍCH……………………………………………………………………………49
1. Sѫÿӗ UseCase hӋ thӕng……………………………………………………………………….49
2. Sѫÿӗ Lӟp…………………………………………………………………………………………..51
2.1 Sѫÿӗ các lӟp thӇ hiӋn……………………………………………………………………..51
2.2 Sѫÿӗ các lӟp xӱ lý …………………………………………………………………………52
3. Tách tӯ………………………………………………………………………………………………53
3.1 Sѫÿӗ UseCase……………………………………………………………………………….53
3.2 Sѫÿӗ Tuҫn tӵ ………………………………………………………………………………..53
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
6
NguyӉn Trung HiӃu – 0112216
3.3 Sѫÿӗ Cӝng tác……………………………………………………………………………….54
3.4 Sѫÿӗ Lӟp……………………………………………………………………………………..54
4. Lұp chӍ mөc………………………………………………………………………………………..55
4.1 Sѫÿӗ UseCase……………………………………………………………………………….55
4.2 Sѫÿӗ Tuҫn tӵ ………………………………………………………………………………..56
4.2.1 Tҥo mӟi chӍ mөc ………………………………………………………………………56
4.2.2 Cұp nhұt chӍ mөc………………………………………………………………………57
4.3 Sѫÿӗ Cӝng tác……………………………………………………………………………….58
4.3.1 Tҥo mӟi chӍ mөc ………………………………………………………………………58
4.3.2 Cұp nhұt chӍ mөc………………………………………………………………………59
4.4 Sѫÿӗ Lӟp……………………………………………………………………………………..60
5. Tìm kiӃm……………………………………………………………………………………………61
5.1 Sѫÿӗ UseCase……………………………………………………………………………….61
5.2 Sѫÿӗ Tuҫn tӵ ………………………………………………………………………………..61
5.3 Sѫÿӗ Cӝng tác……………………………………………………………………………….62
5.4 Sѫÿӗ Lӟp……………………………………………………………………………………..63
Chѭѫng 6: THIӂT Kӂ VÀ CÀI ĈҺT…………………………………………………………64
1. Cҩu trúc lѭu trӳ dӳ liӋu…………………………………………………………………………64
1.1 Tұp tin lѭu nӝi dung tài liӋu……………………………………………………………..64
1.1.1 Cҩu trúc DTD / XSD…………………………………………………………………64
1.1.2 Tài liӋu XML …………………………………………………………………………..66
1.2 Tұp tin sau khi tách tӯ tài liӋu …………………………………………………………..67
1.2.1 Cҩu trúc DTD / XSD…………………………………………………………………67
1.2.2 Tài liӋu XML …………………………………………………………………………..68
1.3 Tұp tin chӭa các tӯ không thӇ hiӋn nӝi dung cӫa văn bҧn (stop list)………..70
1.3.1 Cҩu trúc DTD / XSD…………………………………………………………………70
1.3.2 Tài liӋu XML …………………………………………………………………………..71
1.4 Tұp tin chӍ mөc ÿҧo ( Inverted ). ……………………………………………………….71
1.4.1 Cҩu trúc DTD / XSD…………………………………………………………………71
1.4.2 Tài liӋu XML …………………………………………………………………………..73
1.5 Tұp tin sau khi tách tӯ câu hӓi…………………………………………………………..74
1.5.1 Cҩu trúc DTD / XSD…………………………………………………………………74
1.5.2 Tài liӋu XML …………………………………………………………………………..75
1.6 Tұp tin chӭa các tӯ cӫa câu hӓi sau khi loҥi bӓ các tӯ trong danh sách
StopList ……………………………………………………………………………………………..76
1.6.1 Cҩu trúc DTD / XSD…………………………………………………………………76
1.6.2 Tài liӋu XML …………………………………………………………………………..77
1.7 Tұp tin chӭa các tӯ trong câu hӓi và các tài liӋu liên quan……………………..77
1.7.1 Cҩu trúc DTD / XSD…………………………………………………………………77
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
7
NguyӉn Trung HiӃu – 0112216
1.7.2 Tài liӋu XML …………………………………………………………………………..79
1.8 Tұp tin chӭa ÿӝ tѭѫng quan giӳa câu hӓi và các tài liӋu………………………..80
1.8.1 Cҩu trúc DTD / XSD…………………………………………………………………80
1.8.2 Tài liӋu XML …………………………………………………………………………..82
2. Chi tiӃt các lӟp ÿӕi tѭӧng ……………………………………………………………………..83
2.1 Các lӟp trong quá trình tách tӯ………………………………………………………….83
2.1.1 Sѫ ÿӗ các lӟp…………………………………………………………………………..83
2.1.2 Lӟp tách tӯ ghép……………………………………………………………………….83
2.1.3 Lӟp tách tӯ………………………………………………………………………………86
2.1.4 Lӟp giao diӋn tách tӯ…………………………………………………………………89
2.2 Các lӟp trong quá trình lұp chӍ mөc …………………………………………………..91
2.2.1 Sѫÿӗ các lӟp……………………………………………………………………………91
2.2.2 Lӟp lұp chӍ mөc………………………………………………………………………..92
2.2.3 Lӟp giao diӋn tҥo mӟi chӍ mөc ……………………………………………………94
2.2.4 Lӟp giao diӋn cұp nhұt chӍ mөc…………………………………………………..96
2.3 Các lӟp trong quá trình tìm kiӃm……………………………………………………….98
2.3.1 Sѫÿӗ các lӟp……………………………………………………………………………98
2.3.2 Lӟp tìm kiӃm……………………………………………………………………………99
2.3.3 Lӟp giao diӋn tìm kiӃm ……………………………………………………………105
3. Mӝt sӕ màn hình giao diӋn khác …………………………………………………………..109
3.1 Màn hình chính cӫa chѭѫng trình…………………………………………………….109
3.2 Màn hình tìm kiӃm nhiӅu câu hӓi…………………………………………………….110
3.3 Màn hình tìm kiӃm chính ( giao diӋn Web)……………………………………….112
3.4 Màn hình trҧ vӅ các tài liӋu tìm ÿѭӧc ( giao diӋn Web) ……………………….113
3.5 Màn hình chi tiӃt cӫa mӝt tài liӋu ( giao diӋn Web)…………………………….114
Phҫn 3 : TӘNG KӂT………………………………………………………………………………….115
1. Chѭѫng trình thӱ nghiӋm…………………………………………………………………….115
2. Ĉánh giá kӃt quҧÿҥt ÿѭӧc …………………………………………………………………..115
3. Hѭӟng phát triӇn………………………………………………………………………………..116
TÀI LIӊU THAM KHҦO ………………………………………………………………………117
1. Sách…………………………………………………………………………………………………117
2. Luұn văn…………………………………………………………………………………………..117
3. Website ……………………………………………………………………………………………117
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
8
NguyӉn Trung HiӃu – 0112216
DANH SÁCH CÁC BҦNG
%ҧng 1-1 So sánh IRS vӟi các hӋ thӕng thông tin khác ………………………………………………….17
%ҧng 4-1 Cách tұp tin nghӏch ÿҧo lѭu trӳ…………………………………………………………………….47
%ҧng 4-2 Cách tұp tin trӵc tiӃp lѭu trӳ………………………………………………………………………..47
%ҧng 4-3 Thêm mӝt tài liӋu mӟi vào tұp tin nghӏch ÿҧo…………………………………………………48
%ҧng 5-1 Danh sách các Actor…………………………………………………………………………………..50
%ҧng 5-2 Danh sách các UseCase………………………………………………………………………………50
DANH SÁCH CÁC HÌNH VӀ
Hình 1-1 Môi trѭӡng cӫa hӋ tìm kiӃm thông tin……………………………………………………………13
Hình 1-2 Tәng quan vӅ chӭc năng cӫa mӝt hӋ tìm kiӃm thông tin……………………………………14
Hình 2-1 HӋ tìm kiӃm thông tin tiêu biӇu…………………………………………………………………….18
Hình 3-1 Quá trình hӑc…………………………………………………………………………………………….35
Hình 3-2 Giai ÿRҥn xác ÿӏnh tӯ cho tài liӋu mӟi……………………………………………………………36
Hình 4-1 Các tӯÿѭӧc sҳp theo thӭ tӵ …………………………………………………………………………39
Hình 4-2 Quá trình chӑn tӯ làm chӍ mөc……………………………………………………………………..45
Hình 5-1 Sѫÿӗ Use-case cӫa hӋ thӕng………………………………………………………………………..49
Hình 5-2 Sѫÿӗ các lӟp thӇ hiӋn…………………………………………………………………………………51
Hình 5-3 Sѫÿӗ các lӟp xӱ lý…………………………………………………………………………………….52
Hình 5-4 Sѫÿӗ Use-case tách tӯ………………………………………………………………………………..53
Hình 5-5 Sѫÿӗ tuҫn tӵ tách tӯ…………………………………………………………………………………..53
Hình 5-6 Sѫÿӗ cӝng tác tách tӯ…………………………………………………………………………………54
Hình 5-7 Sѫÿӗ lӟp tách tӯ………………………………………………………………………………………..54
Hình 5-8 Sѫÿӗ use-case lұp chӍ mөc ………………………………………………………………………….55
Hình 5-9 Sѫÿӗ tuҫn tӵ tҥo mӟi chӍ mөc ……………………………………………………………………..56
Hình 5-10 Sѫÿӗ tuҫn tӵ cұp nhұt chӍ mөc ………………………………………………………………….57
Hình 5-11 Sѫÿӗ cӝng tác tҥo mӟi chӍ mөc ………………………………………………………………….58
Hình 5-12 Sѫÿӗ cӝng tác cұp nhұt chӍ mөc …………………………………………………………………59
Hình 5-13 Sѫÿӗ lӟp lұp chӍ mөc ……………………………………………………………………………….60
Hình 5-14 Sѫÿӗ use-case tìm kiӃm ……………………………………………………………………………61
Hình 5-15 Sѫÿӗ tuҫn tӵ tìm kiӃm………………………………………………………………………………61
Hình 5-16 Sѫÿӗ cӝng tác tìm kiӃm ……………………………………………………………………………62
Hình 5-17 Sѫÿӗ lӟp tìm kiӃm …………………………………………………………………………………..63
Hình 6-1 Sѫÿӗ lӟp tách tӯ………………………………………………………………………………………..83
Hình 6-2 Lӟp tách tӯ ghép………………………………………………………………………………………..83
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
9
NguyӉn Trung HiӃu – 0112216
Hình 6-3 Lӟp tách tӯ……………………………………………………………………………………………….86
Hình 6-4 Lӟp giao diӋn tách tӯ………………………………………………………………………………….89
Hình 6-5 Màn hình tách tӯ………………………………………………………………………………………..89
Hình 6-6 Màn hình chi tiӃt tách tӯ……………………………………………………………………………..90
Hình 6-7 Sѫÿӗ lӟp lұp chӍ mөc …………………………………………………………………………………91
Hình 6-8 Lӟp lұp chӍ mөc…………………………………………………………………………………………92
Hình 6-9 Lӟp giao diӋn tҥo mӟi chӍ mөc……………………………………………………………………..94
Hình 6-10 Màn hình tҥo mӟi chӍ mөc …………………………………………………………………………95
Hình 6-11 Lӟp Màn hình cұp nhұt chӍ mөc………………………………………………………………….96
Hình 6-12 Màn hình cұp nhұt chӍ mөc ………………………………………………………………………..97
Hình 6-13 Sѫÿӗ lӟp tìm kiӃm …………………………………………………………………………………..98
Hình 6-14 Lӟp xӱ lý tìm kiӃm…………………………………………………………………………………..99
Hình 6-15 Lӟp giao diӋn tìm kiӃm……………………………………………………………………………105
Hình 6-16 Màn hình tìm kiӃm …………………………………………………………………………………106
Hình 6-17 Xem tӯ khóa câu hӓi……………………………………………………………………………….106
Hình 6-18 Xem tӯ khóa tài liӋu ……………………………………………………………………………….107
Hình 6-19 Màn hình chính………………………………………………………………………………………109
Hình 6-20 Màn hình tìm kiӃm nhiӅu câu hӓi………………………………………………………………110
Hình 6-21 Giao diӋn tìm kiӃm trên Web……………………………………………………………………112
Hình 6-22 Giao diӋn các tài liӋu trҧ vӅ sau khi tìm kiӃm………………………………………………113
Hình 6-23 Giao diӋn chi tiӃt nӝi dung cӫa tài liӋu ……………………………………………………….114
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
10 NguyӉn Trung HiӃu – 0112216
0ӢĈҪU
Trong thӡi ÿҥi bùng nә thông tin nhѭ hiӋn nay, thông tin ÿѭӧc lѭu trӳ trên máy
tính ngày càng nhiӅu do ÿó viӋc tìm kiӃm thông tin chính xác là nhu cҫu thiӃt yӃu ÿӕi
Yӟi mӑi ngѭӡi trong mӑi lƭnh vӵc. Internet hiӋn nay ÿã trӣ thành mӝt kho tѭ liӋu khәng
Oӗ mà viӋc tìm kiӃm thông tin trên kho tѭ liӋu này cҫn phҧi ÿѭӧc hӛ trӧ bӣi các công cө
tìm kiӃm (search engine) tӕt. Các hӋ thӕng tìm kiӃm thông tin thông dөng nhѭ Google,
Yahoo Search ÿã ÿáp ӭng ÿѭӧc phҫn nào nhu cҫu ÿó cӫa mӑi ngѭӡi. Tuy nhiên, các hӋ
thӕng này ÿѭӧc xây dӵng ÿӇ xӱ lý và tìm kiӃm các văn bҧn tiӃng Châu Âu, chúng chѭa
thұt sӵ phù hӧp cho các văn bҧn tiӃng ViӋt. Do ÿó nhu cҫu phҧi có mӝt công cө tìm
kiӃm “hiӇu” và xӱ lý tӕt các văn bҧn tíӃng ViӋt.
Các hӋ tìm kiӃm thông tin ÿӅu phҧi thӵc hiӋn giai ÿRҥn lұp chӍ mөc (indexing)
cho văn bҧn ÿӇ trích các tӯ chӍ mөc (index term) biӇu diӉn tӕt nhҩt nӝi dung cӫa văn
Eҧn. Giai ÿRҥn này phө thuӝc vào ngôn ngӳ cӫa văn bҧn và phѭѫng pháp xӱ lý tӵÿӝng
ngôn ngӳÿó. HiӋn nay chѭa có nhiӅu hӋ thӕng tìm kiӃm thông tin trên kho tài liӋu
tiӃng ViӋt có khai thác các ÿһc trѭng cӫa tiӃng ViӋt cho viӋc lұp chӍ mөc.
Vì vұy mөc tiêu cӫa luұn văn này nhҵm xây dӵng mӝt hӋ thӕng tìm kiӃm thông
tin bҵng tiӃng ViӋt có sӱ dөng các kӃt quҧ cӫa xӱ lý ngôn ngӳ tӵ nhiên tӵÿӝng ÿӇ xác
ÿӏnh ÿѭӧc các chӍ mөc là các tӯ (word) hay tӯ ghép (compound word) cӫa tiӃng ViӋt.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
11 NguyӉn Trung HiӃu – 0112216
Phҫn 1 : TÌM HIӆU LÝ THUYӂT
Chѭѫng 1: 7ӘNG QUAN Vӄ TÌM KIӂM THÔNG TIN
1. Giӟi thiӋu vӅ tìm kiӃm thông tin
1.1 Khái niӋm vӅ tìm kiӃm thông tin
Tìm kiӃm thông tin là tìm kiӃm trong mӝt tұp tài liӋu ÿӇ lҩy ra các thông tin mà
ngѭӡi tìm kiӃm quan tâm.
1.2 0ӝt sӕ vҩn ÿӅ trong viӋc tìm kiӃm thông tin:
.Ӈ tӯ nhӳng năm 40, các vҩn ÿӅ trong viӋc lѭu trӳ thông tin và tìm kiӃm thông
tin ÿã thu hút sӵ chú ý rҩt lӟn. Vӟi mӝt lѭӧng thông tin khәng lӗ thì viӋc tìm kiӃm
chính xác và nhanh chóng càng trӣ nên khó khăn hѫn. Vӟi sӵ ra ÿӡi cӫa máy tính, rҩt
nhiӅu ý tѭӣng lӟn ÿѭӧc ÿѭa ra nhҵm cung cҩp mӝt hӋ thӕng tìm kiӃm thông minh và
chính xác. Tuy nhiên, vҩn ÿӅ tìm kiӃm sao cho hiӋu quҧ vүn chѭa ÿѭӧc giҧi quyӃt.
9Ӆ nguyên tҳc, viӋc lѭu trӳ thông tin và tìm kiӃm thông tin thì ÿѫn giҧn. Giҧ sӱ
có mӝt kho chӭa các tài liӋu và mӝt ngѭӡi muӕn tìm các tài liӋu liên quan ÿӃn yêu cҫu
Fӫa mình. Ngѭӡi ÿó có thӇÿӑc tҩt cҧ các tài liӋu trong kho, giӳ lҥi các tài liӋu liên quan
và bӓÿi các tài liӋu không liên quan. Rõ ràng giҧi pháp này không thӵc tӃ bӣi vì tӕn rҩt
nhiӅu thӡi gian.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
12 NguyӉn Trung HiӃu – 0112216
9ӟi sӵ ra ÿӡi cӫa máy vi tính tӕc ÿӝ cao, máy tính có thӇ “ÿӑc” thay cho con
ngѭӡi ÿӇ trích ra các tài liӋu có liên quan trong toàn bӝ tұp dӳ liӋu. Tuy nhiên vҩn ÿӅ
lúc này là làm sao ÿӇ xác ÿӏnh ÿѭӧc tài liӋu nào liên quan ÿӃn câu hӓi. Mөc ÿích cӫa
Pӝt hӋ thӕng tìm kiӃm thông tin tӵÿӝng là truy lөc ÿѭӧc tҩt cҧ các tài liӋu có liên quan
ÿӃn yêu cҫu.
2. +Ӌ tìm kiӃm thông tin – IRS
Sau ÿây là ÿӏnh nghƭa vӅ hӋ thӕng tìm kiӃm thông tin cӫa mӝt sӕ tác giҧ: [2.1]
Salton (1989):
“HӋ thӕng tìm kiӃm thông tin xӱ lý các tұp tin lѭu trӳ và nhӳng yêu cҫu vӅ
thông tin, xác ÿӏnh và tìm tӯ các tұp tin nhӳng thông tin phù hӧp vӟi nhӳng yêu cҫu vӅ
thông tin. ViӋc truy tìm nhӳng thông tin ÿһc thù phө thuӝc vào sӵ tѭѫng tӵ giӳa các
thông tin ÿѭӧc lѭu trӳ và các yêu cҫu, ÿѭӧc ÿánh giá bҵng cách so sánh các giá trӏ cӫa
các thuӝc tính ÿӕi vӟi thông tin ÿѭӧc lѭu trӳ và các yêu cҫu vӅ thông tin.”
Kowalski (1997) :
“HӋ thӕng truy tìm thông tin là mӝt hӋ thӕng có khҧ năng lѭu trӳ, truy tìm và
duy trì thông tin. Thông tin trong nhӳng trѭӡng hӧp này có thӇ bao gӗm văn bҧn, hình
ҧnh, âm thanh, video và nhӳng ÿӕi tѭӧng ÿa phѭѫng tiӋn khác.”
HiӇu ÿѫn giҧn KӋ thӕng tìm kiӃm thông tin là mӝt hӋ thӕng hӛ trӧ cho ngѭӡi
Vӱ dөng tìm kiӃm thông tin mӝt cách nhanh chóng và dӉ dàng. Ngѭӡi sӱ dөng có
thӇÿѭa vào nhӳng câu hӓi, nhӳng yêu cҫu (dҥng ngôn ngӳ tӵ nhiên) và hӋ thӕng sӁ tìm
kiӃm trong tұp các tài liӋu (dҥng ngôn ngӳ tӵ nhiên) ÿã ÿѭӧc lѭu trӳÿӇ tìm ra nhӳng
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
13 NguyӉn Trung HiӃu – 0112216
tài liӋu có liên quan, sau ÿó sӁ sҳp xӃp các tài liӋu theo mӭc ÿӝ liên quan giҧm dҫn và
trҧ vӅ cho ngѭӡi sӱ dөng.
3. Các thành phҫn cӫa mӝt hӋ tìm kiӃm thông tin [1.1]
*ӗm: tұp các tài liӋu (DOCS) ÿã ÿѭӧc lѭu trӳ trong kho dӳ liӋu, tұp các yêu cҫu
(REQS) cӫa ngѭӡi dùng, và mӝt sӕ phѭѫng pháp tính ÿӝ tѭѫng quan (SIMILAR) ÿӇ
xác ÿӏnh các tài liӋu ÿáp ӭng cho các yêu cҫu.
Hình 1-1 Môi trѭӡng cӫa hӋ tìm kiӃm thông tin
Theo lý thuyӃt thì mӕi liên hӋ giӳa các câu hӓi và các tài liӋu có thӇ so sánh mӝt
cách trӵc tiӃp. Nhѭng trên thӵc tӃ thì ÿLӅu này không thӇÿѭӧc vì các câu hӓi và các tұp
tài liӋu ÿӅu ӣ dҥng văn bҧn, chӍ có con ngѭӡi ÿӑc vào thì thҩy ngay ÿѭӧc mӕi liên hӋ
giӳa chúng, nhѭng ӣÿây chӍ là mӝt hӋ thӕng máy móc không thӇ suy luұn nhѭ con
ngѭӡi ÿѭӧc. Chính vì thӃÿӇ xác ÿӏnh ÿѭӧc mӕi liên hӋ giӳa các câu hӓi và các tұp tài
liӋu phҧi qua mӝt bѭӟc trung gian.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
14 NguyӉn Trung HiӃu – 0112216
Hình 1-2 Tәng quan vӅ chӭc năng cӫa mӝt hӋ tìm kiӃm thông tin
Trѭӟc hӃt chuyӇn ÿәi các câu hӓi thành các tӯ riêng biӋt ÿӫÿӇ biӇu hiӋn cho nӝi
dung cӫa câu hӓi gӑi là ngôn ngӳ chӍ mөc (Indexing language – LANG). Tách tӯ trong
các tұp tài liӋu và lұp chӍ mөc cho tài liӋu. Lúc này có thӇ so sánh trӵc tiӃp giӳa các tӯ
Fӫa câu hӓi và các tӯ chӍ mөc cӫa tұp tài liӋu. Và tӯÿó ta sӁ dӉ dàng hѫn ÿӇ xác ÿӏnh
ÿӝ tѭѫng quan giӳa các câu hӓi và tұp tài liӋu.
4. So sánh IRS vӟi các hӋ thӕng thông tin khác
+Ӌ thӕng tìm kiӃm thông tin cNJng tѭѫng tӵ nhѭ nhiӅu hӋ thӕng xӱ lý thông tin
khác. HiӋn nay các hӋ thӕng thông tin quan trӑng nhҩt là: hӋ quҧn trӏ cѫ sӣ dӳ liӋu
(DBMS), hӋ quҧn lý thông tin (MIS), hӋ hӛ trӧ ra quyӃt ÿӏnh (DSS), hӋ trҧ lӡi câu hӓi
(QAS) và hӋ tìm kiӃm thông tin (IR).
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
15 NguyӉn Trung HiӃu – 0112216
4.1 +Ӌ quҧn trӏ cѫ sӣ dӳ liӋu (DBMS)
%ҩt cӭ hӋ thӕng thông tin tӵÿӝng nào cNJng dӵa trên mӝt tұp các mөc ÿѭӧc lѭu
trӳ (gӑi là F˯ sͧ dͷ li͏u) cҫn thiӃt cho viӋc truy cұp. Do ÿó hӋ quҧn trӏ cѫ sӣ dӳ liӋu
ÿѫn giҧn là mӝt hӋ thӕng ÿѭӧc thiӃt kӃ nhҵm thao tác và duy trì ÿLӅu khiӇn cѫ sӣ dӳ
liӋu.
DBMS tә chӭc lѭu trӳ các dӳ liӋu cӫa mình dѭӟi dҥng các bҧng. Mӛi mӝt cѫ sӣ
Gӳ liӋu ÿѭӧc lѭu trӳ thành nhiӅu bҧng khác nhau. Mӛi mӝt cӝt trong bҧng là mӝt thuӝc
tính, và mӛi mӝt dòng là mӝt bӝ dӳ liӋu cө thӇ. Trong mӛi mӝt bҧng có mӝt thuӝc tính
duy nhҩt ÿҥi diӋn cho bҧng, nó không ÿѭӧc trùng lҳp và ta gӑi ÿó là khoá chính. Các
Eҧng có mӕi liên hӋ vӟi nhau thông qua các khoá ngoҥi. DBMS có mӝt tұp các lӋnh ÿӇ
Kӛ trӧ cho ngѭӡi sӱ dөng truy vҩn ÿӃn dӳ liӋu cӫa mình. Vì vұy muӕn truy vҩn ÿӃn
CSDL trong DBMS ta phҧi hӑc hӃt các tұp lӋnh này. Nhѭng ngѭӧc lҥi nó sӁ cung cҩp
cho ta các dӳ liӋu ÿҫy ÿӫ và hoàn toàn chính xác. HiӋn nay DBMS ÿѭӧc sӱ dөng rӝng
rãi trên thӃ giӟi. Mӝt sӕ DBMS thông dөng : Access, SQL Server, Oracle.
4.2 +Ӌ quҧn lý thông tin (IMS)
+Ӌ quҧn lý thông tin là hӋ quҧn trӏ cѫ sӣ dӳ liӋu nhѭng có thêm nhiӅu chӭc
nhѭng vӅ viӋc quҧn lý. Nhӳng chӭc năng quҧn lý này phө thuӝc vào giá trӏ cӫa nhiӅu
kiӇu dӳ liӋu khác nhau. Nói chung bҩt kǤ hӋ thӕng nào có mөc ÿích ÿһc biӋt phөc vө
cho viӋc quҧn lý thì ta gӑi nó là hӋ quҧn lý thông tin.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
16 NguyӉn Trung HiӃu – 0112216
4.3 +Ӌ hӛ trӧ ra quyӃt ÿӏnh (DSS)
+Ӌ hӛ trӧ ra quyӃt ÿӏnh sӁ dӵa vào các tұp luұt ÿѭӧc hӑc, tӯ nhӳng luұt ÿã hӑc
rút ra nhӳng luұt mӟi, sau khi gһp mӝt vҩn ÿӅ nó sӁ căn cӭ vào vào tұp các luұt ÿӇÿѭa
ra nhӳng quyӃt ÿӏnh thay cho con ngѭӡi.
+Ӌ thӕng này ÿang ÿѭӧc áp dөng nhiӅu cho công viӋc nhұn dҥng và chuҭn ÿóan
EӋnh.
4.4 +Ӌ trҧ lӡi câu hӓi (QAS)
+Ӌ trҧ lӡi câu hӓi cung cҩp viӋc truy cұp ÿӃn các thông tin bҵng ngôn ngӳ tӵ
nhiên. ViӋc lѭu trӳ cѫ sӣ dӳ liӋu thѭӡng bao gӗm mӝt sӕ lѭӧng lӟn các vҩn ÿӅ liên
quan ÿӃn các lƭnh vӵc riêng biӋt và các kiӃn thӭc tәng quát. Câu hӓi cӫa ngѭӡi dùng có
thӇӣ dҥng ngôn ngӳ tӵ nhiên. Công viӋc cӫa hӋ trҧ lӡi câu hӓi là phân tích câu truy
Yҩn cӫa ngѭӡi dùng, so sánh vӟi các tri thӭc ÿѭӧc lѭu trӳ, và tұp hӧp các vҩn ÿӅ có liên
quan lҥi ÿӇÿѭa ra câu trҧ lӡi thích hӧp.
Tuy nhiên, hӋ trҧ lӡi câu hӓi chӍ còn ÿang thӱ nghiӋm. ViӋc xác ÿӏnh ý nghƭa
Fӫa ngôn ngӳ tӵ nhiên dѭӡng nhѭ vүn là chѭӟng ngҥi lӟn ÿӇ có thӇ sӱ dөng rӝng rãi hӋ
thӕng này.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
17 NguyӉn Trung HiӃu – 0112216
4.5 So sánh IRS vӟi các hӋ thӕng thông tin khác
IRS
DBMS
QAS
MIS
Tìm kiӃm
1ӝi dung
trong các tài
liӋu.
Các phҫn tӱ
có kiӇu dӳ
liӋu ÿã ÿѭӧc
ÿӏnh nghƭa.
Các sӵ kiӋn
rõ ràng.
/ѭu trӳ
Các văn bҧn
ngôn ngӳ tӵ
nhiên.
Các phҫn tӱ
Gӳ liӋu ӣ
Gҥng bҧng.
Các sӵ kiӋn
rõ ràng và các
kiӃn thӭc
Wәng quát.
;ӱ lý
Các câu truy
Yҩn không
chính xác.
Các câu truy
Yҩn có cҩu
trúc.
Các câu truy
Yҩn không
giӟi hҥn.
Giӕng DBMS
nhѭng hӛ trӧ
thêm nhӳng
thӫ tөc( Tính
Wәng, tính
trung bình,
phép chiӃu…)
%ҧng 1-1 So sánh IRS vӟi các hӋ thӕng thông tin khác
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
18 NguyӉn Trung HiӃu – 0112216
Chѭѫng 2: XÂY DӴNG MӜT Hӊ THӔNG TÌM KIӂM
THÔNG TIN
1. KiӃn trúc cӫa hӋ tìm kiӃm thông tin. [1.3]
0ӝt hӋ thӕng thông tin tiêu biӇu nhѭ sau:
Hình 2-1 HӋ tìm kiӃm thông tin tiêu biӇu
+Ӌ thӕng tìm kiӃm thông tin gӗm có 3 bӝ phұn chính : bӝ phұn phân tích văn
Eҧn, bӝ phұn lұp chӍ mөc, bӝ phұn so khӟp và sҳp xӃp các tài liӋu trҧ vӅ.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
19 NguyӉn Trung HiӃu – 0112216
(1) %ӝ phұn phân tích văn bҧn: bӝ phұn này có nhiӋm vө phân tích các văn
Eҧn thu thұp ÿѭӧc thành các tӯ riêng biӋt. Tѭѫng tӵ, khi ngѭӡi dùng nhұp câu truy vҩn
thì câu truy vҩn cNJng ÿѭӧc phân tích thành các tӯ riêng biӋt.
(2) %ӝ phұn lұp chӍ mөc : các tӯ trích ÿѭӧc tӯ các văn bҧn thu thұp ÿѭӧc sӁ
ÿѭӧc bӝ phұn này lӵa chӑn ÿӇ làm các tӯ chӍ mөc. Các tӯ chӍ mөc phҧi là các tӯ thӇ
hiӋn ÿѭӧc nӝi dung cӫa văn bҧn.
(3) %ӝ phұn so khӟp và sҳp xӃp các tài liӋu trҧ vӅ: Các tӯ trích ÿѭӧc tӯ câu
truy vҩn và các tӯ chӍ mөc cӫa văn bҧn sӁÿѭӧc so khӟp vӟi nhau ÿӇ tìm ra các tài liӋu
liên quan ÿӃn câu truy vҩn. Mӛi tài liӋu có mӝt ÿӝ tѭѫng quan vӟi câu hӓi. Các tài liӋu
này sӁÿѭӧc sҳp xӃp theo ÿӝ tѭѫng quan giҧm dҫn và trҧ vӅ cho ngѭӡi sӱ dөng.
2. 0ӝt sӕ mô hình ÿӇ xây dӵng mӝt hӋ tìm kiӃm thông tin [1.2]
0өc tiêu cӫa các hӋ thӕng tìm kiӃm thông tin là trҧ vӅ các tài liӋu càng liên
quan ÿӃn câu hӓi càng tӕt. Vì thӃ ngѭӡi ta ÿã ÿѭa ra rҩt nhiӅu mô hình tìm kiӃm nhҵm
tính toán mӝt cách chính xác ÿӝ tѭѫng quan này. Sau ÿây là mӝt sӕ mô hình tìm kiӃm
Fѫ bҧn:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán ÿӝ tѭѫng quan giӳa câu hӓi và tài liӋu bҵng
cách ÿӏnh nghƭa mӝt vector biӉu diӉn cho mӛi tài liӋu, và mӝt vector biӇu diӉn cho câu
Kӓi [ Salton, 1875]. Mô hình dӵa trên ý tѭӣng chính là ý nghƭa cӫa mӝt tài liӋu thì phө
thuӝc vào các tӯÿѭӧc sӱ dөng bên trong nó. Vector tài liӋu và vector câu hӓi sau ÿó sӁ
ÿѭӧc tính toán ÿӇ xác ÿӏnh ÿӝ tѭѫng quan giӳa chúng. Ĉӝ tѭѫng quan càng lӟn chӭng
Wӓ tài liӋu ÿó càng liên quan ÿӃn câu hӓi.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
20 NguyӉn Trung HiӃu – 0112216
Giҧ sӱ mӝt tұp tài liӋu chӍ gӗm có hai tӯ là t1 và t2. Vector xây dӵng ÿѭӧc sӁ
Jӗm có 2 thành phҫn: thành phҫn thӭ nhҩt biӇu diӉn sӵ xuҩt hiӋn cӫa t1, và thành phҫn
thӭ hai biӇu diӉn cho sӵ xuҩt hiӋn cӫa t2. Cách ÿѫn giҧn nhҩt ÿӇ xây dӵng vector là
ÿánh 1 vào thành phҫn tѭѫng ӭng nӃu tӯÿó xuҩt hiӋn, và ÿánh 0 nӃu tӯÿó không xuҩt
hiӋn. Giҧ sӱ tài liӋu chӍ gӗm có 2 tӯ t1. Ta biӇu diӉn cho tài liӋu này bӣi vector nhӏ
phân nhѭ sau: <1,0> Tuy nhiên, biӇu diӉn nhѭ vұy không cho thҩy ÿѭӧc tҫn sӕ xuҩt
hiӋn cӫa mӛi tӯ trong tài liӋu. Trong trѭӡng hӧp này, vector nên ÿѭӧc biӉu diӉn nhѭ
sau: <2,0>
Ĉӕi vӟi mӝt câu hӓi ÿã cho, thay vì chӍ căn cӭ so sánh các tӯ trong tài liӋu vӟi
Wұp các tӯ trong câu hӓi, ta nên xem xét ÿӃn tҫm quan trӑng cӫa mӛi tӯ. Ý tѭӣng chính
là mӝt tӯ xuҩt hiӋn tұp trung trong mӝt sӕ tài liӋu thì có trӑng sӕ cao hѫn so vӟi mӝt tӯ
phân bӕ trong nhiӅu tài liӋu. Trӑng sӕÿѭӧc tính dӵa trên tҫn sӕ tài liӋu nghӏch ÿҧo
(Inverse Document Frequency) liên quan ÿӃn các tӯÿѭӧc cho:
n: sӕ tӯ phân biӋt trong tұp tài liӋu
tfij : sӕ lҫn xuҩt hiӋn cӫa tӯ tj trong tài liӋu Di (tҫn sӕ)
dfj : sӕ tài liӋu có chӭa tӯ tj
idfj =
10
log
j
d
df trong ÿó d là tәng sӕ tài liӋu
Vector ÿѭӧc xây dӵng cho mӛi tài liӋu gӗm có n thành phҫn, mӛi thành phҫn là
giá trӏ trӑng sӕÿã ÿѭӧc tính toán cho mӛi tӯ trong tұp tài liӋu. Các tӯ trong tài liӋu
ÿѭӧc gán trӑng sӕ tӵÿӝng dӵa vào tҫn sӕ xuҩt hiӋn cӫa chúng trong tұp tài liӋu và sӵ
xuҩt hiӋn cӫa mӛi tӯ trong mӝt tài liӋu riêng biӋt. Trӑng sӕ cӫa mӝt tӯ tăng nӃu tӯÿó
xuҩt hiӋn thѭӡng xuyên trong mӝt tài liӋu và giҧm nӃu tӯÿó xuҩt hiӋn thѭӡng xuyên
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
21 NguyӉn Trung HiӃu – 0112216
trong tҩt cҧ các tài liӋu. ĈӇ tính trӑng sӕ cӫa tӯ thӭ tj trong tài liӋu Di, dӵa vào công
thӭc:
dij = tfij * idfj
dij : là trӑng sӕ cӫa tӯ tj trong tài liӋu Di
Ĉӕi vӟi hӋ thӕng tìm kiӃm thông tin theo mô hình vector, mӛi tài liӋu là mӝt
vector có dҥng : Di(di1, di2 , …, din ) . Tѭѫng tӵ, câu truy vҩn Q cNJng là mӝt vector có
Gҥng : Q(wq1, wq2, …, wqn)
wqj : là trӑng sӕ cӫa tӯ tj trong câu truy vҩn Q.
Ĉӝ tѭѫng quan (SC: similarity coeficient) giӳa câu truy vҩn Q và tài liӋu Di
ÿѭӧc tính nhѭ sau:
SC(Q,Di) =
ij
1
w
*
n
qj
j
d
=
∑
2.2 Tìm kiӃm Boolean
Mô hình tìm kiӃm Boolean khá ÿѫn giҧn. Câu hӓi ÿѭa vào phҧi ӣ dҥng biӇu thӭc
Boolean. Nghƭa là phҧi thӓa:
Ø
Ngӳ nghƭa rõ ràng
Ø
Hình thӭc ngҳn gӑn
Do các tӯ hoһc xuҩt hiӋn hoһc là không xuҩt hiӋn, nên trӑng sӕ wij ε {0,1}
Giҧ sӱÿѭa vào mӝt câu hӓi dҥng biӇu thӭc Boolean nhѭ sau: t1 and t2. Sau khi tìm
kiӃm ta xác ÿӏnh ÿѭӧc các tài liӋu liên quan ÿӃn t1 là { d1, d3, d5} và các tài liӋu liên
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
22 NguyӉn Trung HiӃu – 0112216
quan ÿӃn t2 là {d3, d5, d7}. Nhѭ vұy vӟi phép and, các tài liӋu thӓa yêu cҫu cӫa ngѭӡi
dùng là {d3, d5}. Phѭѫng pháp này có mӝt sӕ khuyӃt ÿLӇm nhѭ sau:
Ø
Các tài liӋu trҧ vӅ không ÿѭӧc sҳp xӃp (ranking)
Ø
Câu hӓi tìm kiӃm ÿòi hӓi phҧi ÿúng ÿӏnh dҥng cӫa biӇu thӭc Boolean gây
khó khăn cho ngѭӡi dùng
Ø
.Ӄt quҧ trҧ vӅ có thӇ là quá ít hoһc quá nhiӅu tài liӋu
2.3 Tìm kiӃm Boolean mӣ rӝng
Mô hình tìm kiӃm Boolean không hӛ trӧ viӋc sҳp xӃp kӃt quҧ trҧ vӅ bӣi vì các
tài liӋu hoһc thӓa hoһc không thӓa yêu cҫu Boolean. Tҩt cҧ các tài liӋu thӓa mãn ÿӅu
ÿѭӧc trҧ vӅ, nhѭng không có sӵѭӟc lѭӧng nào ÿѭӧc tính toán cho sӵ liên quan cӫa
chúng ÿӕi vӟi câu hӓi.
Mô hình tìm kiӃm Boolean mӣ rӝng ra ÿӡi nhҵm hӛ trӧ viӋc sҳp xӃp (ranking)
NӃt quҧ trҧ vӅ dӵa trên ý tѭӣng cѫ bҧn là ÿánh trӑng sӕ cho mӛi tӯ trong câu hӓi và
trong tài liӋu. Giҧ sӱ mӝt câu hӓi yêu cҫu (t1 OR t2) và mӝt tài liӋu D có chӭa t1 vӟi
trӑng sӕ w1 và t2 vӟi trӑng sӕ w2 . NӃu w1 và w2ÿӅu bҵng 1 thì tài liӋu nào có chӭa cҧ
hai tӯ này sӁ có thӭ tӵ sҳp xӃp cao nhҩt. Tài liӋu nào không chӭa mӝt trong hai tӯ này
VӁ có thӭ tӵ sҳp xӃp thҩp nhҩt. Ý tѭӣng ÿѫn giҧn là tính khoҧng cách Eclide tӯÿLӇm
(w1, w2) tӟi gӕc:
SC(Q,Di) =
2
2
1
2
(w )
(w )
+
9ӟi trӑng sӕ 0.5 và 0.5, SC(Q,Di) =
2
2
(0.5)
(0.5)
+
=0.707
SC cao nhҩt nӃu w1 và w2ÿӅu bҵng 1. Khi ÿó:
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
23 NguyӉn Trung HiӃu – 0112216
SC(Q,Di) =
2 = 1.414
ĈӇÿѭa SC vào khoҧng [0,1], SC ÿѭӧc tính nhѭ sau:
SC( Q t1 v t2 , di) =
2
2
1
2
(w )
(w )
2
+
Công thӭc này giҧ sӱ là câu hӓi chӍ có toán tӱ OR . Ĉӕi vӟi toán tӱ AND, thay
vì tính khoҧng cách tӟi gӕc, ta sӁ tính khoҧng cách ÿӃn ÿLӇm (1,1). Câu hӓi nào càng
Jҫn ÿӃn ÿLӇm (1,1) thì nó càng thoҧ yêu cҫu cӫa toán tӱ AND:
SC(Q t1 ^ t2, di) = 1-
2
2
1
2
(1-w )
(1
w )
2
+
−
2.4 0ӣ rӝng trong viӋc thêm vào trӑng sӕ cӫa câu hӓi
1Ӄu câu hӓi có trӑng sӕ là q1 và q2 thì ÿӝ tѭѫng quan sӁÿѭӧc tính nhѭ sau:
SC(Q q1 v q2, di) =
2
2
2
2
1
1
2
2
2
2
1
2
q w
q w
q
q
+
+
SC(Q q1 ^ q2, di) = 1- (
2
2
2
2
1
1
2
2
2
2
1
2
q (1-w )
(1
)
q
w
q
q
+
−
+
)
2.4.1 0ӣ rӝng cho sӕ tӯ tuǤ ý
ĈӇ tính khoҧng cách Euclide trong không gian ÿa chiӅu, tham sӕ p ÿѭӧc sӱ
Gөng. Tham sӕ p chӍ sӵ biӃn ÿәi tҫm quan trӑng cӫa trӑng sӕ trong viӋc ÿánh giá ÿӝ
thích hӧp.
Ĉӝ tѭѫng quan SC tәng quát nhѭ sau:
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
24 NguyӉn Trung HiӃu – 0112216
SC(D, Q ( q i v q j ) ) =
1
p
p
p
p
p
i
i
j
j
p
p
i
j
q w
q
q
q w
+
+
SC(D, Q ( q i ^ q j ) ) = 1 –
1
p
p
p
p
p
i
i
j
j
p
p
i
j
q (1-w )
q (1 w )
q
q
+
−
+
1Ӄu p →∞ : chuyӇn vӅ hӋ thӕng Boolean thông thѭӡng (không có trӑng sӕ)
1Ӄu p = 1 : chuyӇn vӅ hӋ thӕng không gian vector
2.4.2 Thêm toán tӱ tӵÿӝng
Các chiӃn lѭӧc tìm kiӃm không ÿòi hӓi ngѭӡi dùng nhұn biӃt các toán tӱ phӭc
Wҥp. Trӑng sӕ có thӇÿѭӧc gán tӵÿӝng và tài liӋu ÿѭӧc sҳp xӃp bҵng cách chèn toán tӱ
OR vào giӳa các tӯ. Bҩt kǤ tài liӋu nào có chӭa ít nhҩt mӝt tӯ trong câu hӓi sӁÿѭӧc sҳp
thӭ tӵ vӟi mӝt sӕÿLӇm lӟn hѫn 0.
2.5 Mô hình xác suҩt
Mô hình tìm kiӃm xác suҩt tính toán ÿӝ tѭѫng quan giӳa câu hӓi và tài liӋu dӵa
vào xác suҩt mà tài liӋu ÿó liên quan ÿӃn câu hӓi. Các lý thuyӃt vӅ xác suҩt ÿѭӧc áp
Gөng ÿӇ tính toán ÿӝ liên quan giӳa câu hӓi và tài liӋu. Các tӯ trong câu hӓi ÿѭӧc xem
là ÿҫu mӕi ÿӇ xác ÿӏnh tài liӋu liên quan. Ý tѭӣng chính là tính xác suҩt cӫa mӛi tӯ
trong câu hӓi và sau ÿó sӱ dөng chúng ÿӇ tính xác suҩt mà tài liӋu liên quan ÿӃn câu
Kӓi.
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng ViӋt dӵa trên các chӍ mөc là các tӯ ghép
NguyӉn Thӏ Thanh Hà – 0112215
25 NguyӉn Trung HiӃu – 0112216
2.6 Ĉánh giá chung vӅ các mô hình
Ø
Mô hình Boolean ÿѭӧc xem là mô hình yӃu nhҩt trong các mô hình bӣi vì
nhѭÿã trình bày nó còn rҩt nhiӅu khuyӃt ÿLӇm.
Ø
Theo kinh nghiӋm cӫa Salton và Buckley thì nhìn chung mô hình vector
làm tӕt hѫn mô hình xác suҩt.
Luұn văn cӫa chúng em sӱ dөng mô hình không gian vectorÿӇ xây dӵng mӝt
KӋ thӕng tìm kiӃm thông tin tiӃng ViӋt.
3. Các bѭӟc ÿӇ xây dӵng mӝt hӋ tìm kiӃm thông tin. [3.2]
3.1 Tách tӯ tӵÿӝng cho tұp các tài liӋu
Ĉӕi vӟi tiӃng Anh, ta tách tӯ dӵa vào khoҧng trҳng. Tuy nhiên ÿӕi vӟi tiӃng
ViӋt, giai ÿRҥn này tѭѫng ÿӕi khó khăn. Cҩu trúc tiӃng ViӋt rҩt phӭc tҥp, không chӍÿѫn
thuҫn dӵa vào khoҧng trҳng ÿӇ tách tӯ. HiӋn nay có rҩt nhiӅu công cө dùng ÿӇ tách tӯ
tiӃng ViӋt, mӛi phѭѫng pháp có ѭu, khuyӃt ÿLӇm riêng. Các phѭѫng pháp này sӁÿѭӧc
trình bày chi tiӃt hѫn ӣ chѭѫng III : Tách tӯ tӵÿӝng.
3.2 /ұp chӍ mөc cho tài liӋu
Sau khi có ÿѭӧc tұp các tӯÿã ÿѭӧc trích, ta sӁ chӑn các tӯÿӇ làm tӯ chӍ mөc.
Tuy nhiên, không phҧi tӯ nào cNJng ÿѭӧc chӑn làm tӯ chӍ mөc. Các tӯ có khҧ năng ÿҥi
diӋn cho tài liӋu sӁÿѭӧc chӑn, các tӯ này ÿѭӧc gӑi là key word, do ÿó trѭӟc khi lұp chӍ
Pөc sӁ là giai ÿRҥn tiӅn xӱ lý ÿӕi vӟi các tӯ trích ÿѭӧc ÿӇ chӑn ra các key word thích
Kӧp. Ta sӁ loҥi bӓ danh sách các tӯ ít có khҧ năng ÿҥi diӋn cho nӝi dung văn bҧn dӵa