TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
TP. HCM, NĂM 2005
1
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN – 0112267
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
GIÁO VIÊN HѬӞNG DҮN
Th.S PHҤM PHҤM TUYӂT TRINH
NIÊN KHÓA 2001 – 2005
2
/ӡi cҧm ѫn
/ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc
tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này.
Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt
nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa
Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp
trong trѭӡng.
Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong gia ÿình
ÿã tҥo mӑi ÿLӅu kiӋn tӕt nhҩt cho con hӑc tұp và ÿӝng viên, khích lӋ con trong quá trình
thӵc hiӋn luұn văn.
Và cuӕi cùng, tôi xin gӱi lӡi cҧm ѫn ÿӃn tҩt cҧ bҥn bè, ÿһc biӋt là anh Toàn, bҥn
Sinh, bҥn Khѭѫng …, nhӳng ngѭӡi ÿã hӛ trӧ và giúp tôi hoàn thiӋn luұn văn này.
0һc dù em ÿã cӕ gҳng hoàn thành luұn văn trong phҥm vi và khҧ năng cho phép
nhѭng chҳc chҳn sӁ không tránh khӓi nhӳng thiӃu sót. Em kính mong nhұn ÿѭӧc sӵ
Fҧm thông và tұn tình chӍ bҧo cӫa quý Thҫy Cô và các bҥn.
TP. Hӗ Chí Minh, tháng 7 năm 2005
Phan Quӕc Lân – 0112267
3
NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên hѭӟng dүn
Th.S Phҥm Phҥm TuyӃt Trinh
4
NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên phҧn biӋn
TS. Ĉinh ĈLӅn
/ӠI NÓI ĈҪU
Chӳ viӃt tiӃng ViӋt cӫa chúng ta có 1 ÿһc ÿLӇm rҩt hay là có sӵ xuҩt hiӋn cӫa các
Gҩu thanh cNJng nhѭ dҩu cӫa các ký tӵ. ĈLӅu này giúp cho tiӃng ViӋt “thêm thanh, thêm
ÿLӋu”. Tuy nhiên, cNJng chính viӋc “thêm thanh, thêm ÿLӋu” ÿó làm cho viӋc gõ tiӃng
ViӋt trӣ nên tӕn nhiӅu thӡi gian hѫn. 1 vҩn ÿӅ khác, khi viӋc sӱ dөng Internet trӣ nên
thông dөng, 1 tiӋn ích ÿѭӧc mӑi ngѭӡi ѭa chuӝng là dӏch vө Email. Nhѭng, cho ÿӃn
hiӋn nay, hҫu hӃt các mail server vүn chѭa hӛ trӧ tӕt tiӃng ViӋt, do ÿó, tình trҥng các lá
mail trên mҥng hҫu nhѭ không có dҩu. ViӋc phát triӇn 1 công cө giúp thêm dҩu tiӃng
ViӋt vào văn bҧn không dҩu là viӋc rҩt cҫn thiӃt và thú vӏ.
ĈӅ tài này hѭӟng ÿӃn viӋc giҧi quyӃt bài toán thêm dҩu tiӃng ViӋt theo mӝt
Kѭӟng mӟi, do ÿó, chѭѫng trình không chú trӑng chuyên sâu vào lƭnh vӵc nào. ViӋc
thêm chӭc năng hӛ trӧ các lƭnh vӵc chuyên sâu khác không ҧnh hѭӣng nhiӅu ÿӃn cҩu
trúc cӫa mô hình mà chѭѫng trình áp dөng.
Luұn văn ÿѭӧc tә chӭc thành 5 chѭѫng vӟi nӝi dung nhѭ sau :
§
Chѭѫng 1 giӟi thiӋu tәng quan vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn
không dҩu, và các công trình ÿã có liên quan ÿӃn ÿӅ tài.
§
Chѭѫng 2 giӟi thiӋu các cѫ sӣ lý thuyӃt _ tin hӑc cҫn sӱ dөng.
§
Chѭѫng 3 nhұn xét các mô hình ÿã có trѭӟc ÿây, và ÿѭa ra mô hình cài ÿһt
chính.
§
Chѭѫng 4 cө thӇ hóa mô hình cài ÿһt.
§
Chѭѫng 5 tәng kӃt và ÿӅ ra hѭӟng phát triӇn .
6
0ӨC LӨC
Chѭѫng 1.7ӘNG QUAN…………………………………………………………..9
1.1.
Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu…….10
1.1.1.
Phát biӇu bài toán……………………………………………………………………………..10
1.1.2.
Ĉһc ÿLӇm ………………………………………………………………………………………….10
1.1.3.
+ѭӟng giҧi quyӃt………………………………………………………………………………11
1.2.
Giӟi thiӋu các công trình ÿã có…………………………………………………………11
1.2.1.
AMPad…………………………………………………………………………………………….11
1.2.2.
VietPad ……………………………………………………………………………………………12
1.2.3.
www.EasyVn.com……………………………………………………………………………..13
1.2.4.
VnMark …………………………………………………………………………………………..14
Chѭѫng 2.&Ѫ SӢ LÝ THUYӂT TIN HӐC………………………………15
2.1.
Lý thuyӃt vӅ ngôn ngӳ hӑc……………………………………………………………….16
2.1.1.
Âm tiӃt (còn gӑi là “tiӃng”) ………………………………………………………………..16
2.1.1.1.
Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt ……………………………………….16
2.1.1.2.
Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt ………………………………………16
2.1.1.3.
Tҥi sao lҥi phҧi dùng dҩu thanh ?……………………………………………………17
2.1.2.
7ӯ……………………………………………………………………………………………………18
2.1.2.1.
Các quan niӋm vӅ tӯ …………………………………………………………………….18
2.1.2.2.
Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt…………………………………………………..18
2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc ………………………………………………………..19
2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung …………………………………………………………19
2.2.
Tách tӯ…………………………………………………………………………………………..20
2.2.1.
Khӟp tӕi ÿa (LRMM – Left Right Max Matching)……………………………….21
2.2.2.
Mô hình mҥng WFST và mҥng nѫ-ron ……………………………………………….22
2.3.
Tách câu…………………………………………………………………………………………22
2.3.1.
Tách câu bҵng Heristics. ……………………………………………………………………23
2.3.1.1.
Xӱ lý dҩu chҩm. ………………………………………………………………………….23
2.3.1.2.
Xӱ lý dҩu chҩm trong ngoһc. …………………………………………………………24
Chѭѫng 3.MÔ HÌNH CÀI ĈҺT………………………………………………25
3.1.
Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng……………………………………………26
3.1.1.
VietPad ……………………………………………………………………………………………26
3.1.1.1.
Mô hình thêm dҩu tiӃng ViӋt …………………………………………………………26
3.1.1.1.1. TiӅn xӱ lý………………………………………………………………………………..26
3.1.1.1.2. Tách token……………………………………………………………………………….27
3.1.1.1.3. Lҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu……………………………27
3.1.2.
VnMark …………………………………………………………………………………………..28
7
3.1.2.1.
Mô hình thêm dҩu tiӃng ViӋt …………………………………………………………28
3.1.2.1.1. TiӅn xӱ lý………………………………………………………………………………..30
3.1.2.1.2. Tách câu ………………………………………………………………………………….30
3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu…………………………………………30
3.1.2.2.
Mô hình huҩn luyӋn……………………………………………………………………..31
3.2.
Mô hình ÿӅ xuҩt………………………………………………………………………………32
3.2.1.
Mô hình……………………………………………………………………………………………32
3.2.1.1.
Tách câu…………………………………………………………………………………….33
3.2.1.2.
Tách tӯ bҵng phѭѫng pháp LRMM…………………………………………………34
3.2.1.3.
Chӑn tӯ thích hӧp ………………………………………………………………………..34
3.2.2.
Mô hình huҩn luyӋn ………………………………………………………………………….36
3.2.2.1.
Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ………………………………………………….36
3.2.2.1.1. Xây dӵng kho ngӳ liӋu……………………………………………………………….36
3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ……………………………………………….37
3.2.2.1.3. Tҥo tӯÿLӇn chuyӇn ÿәi ………………………………………………………………38
3.2.2.2.
Trích xuҩt các cөm tӯ thѭӡng sӱ dөng …………………………………………….39
3.2.3.
So sánh mô hình này vӟi 2 mô hình trên ……………………………………………..41
Chѭѫng 4.CÀI ĈҺT THӰ NGHIӊM………………………………………43
4.1.
Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ………………………………………………………44
4.1.1.
Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ…………………………………………..44
4.1.2.
Tách câu…………………………………………………………………………………………..48
4.1.3.
Tách tӯ và thӕng kê…………………………………………………………………………..50
4.2.
7ҥo tұp tin tӯÿLӇn chính………………………………………………………………….52
4.3.
7ҥo tұp tin tӯÿLӇn cөm tӯ ……………………………………………………………….55
4.3.1.
7ҥo kho dӳ liӋu tinh giҧn mӟi…………………………………………………………….55
4.3.2.
7ҥo tұp tin tӯÿLӇn cөm tӯ …………………………………………………………………58
4.4.
Chѭѫng trình chính…………………………………………………………………………58
4.4.1.
Chѭѫng trình VietEditor……………………………………………………………………59
4.4.2.
Chѭѫng trình thêm dҩu qua Clipboard……………………………………………….60
4.5.
Thӱ nghiӋm ……………………………………………………………………………………62
Chѭѫng 5..ӂT QUҦ, HѬӞNG PHÁT TRIӆN ………………………..63
5.1.
+ҥn chӃ và hѭӟng phát triӇn ……………………………………………………………64
5.2.
.Ӄt luұn …………………………………………………………………………………………64
Phө lөc : Cҩu trúc kho ngӳ liӋu ………………………………………………67
8
DANH MӨC HÌNH
Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t tÿ͡ng b̹ng AMPad………………………………………………12
Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad…………………………………………………….12
Hình 1.2.2-3 : Văn b̫n sau khi thc hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad………..13
Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn……………………………………………………..14
Hình 1.2.3-5 : Văn b̫n sau khi tÿ͡ng thêm ḓu trên EasyVn ……………………………………….14
Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t…………………………………………………………………..17
Hình 3.1.1-7 : L˱u ÿ͛ thc hi͏n cͯa mô hình ͱng dͭng trong VietPad……………………………..26
Hình 3.1.2-8 : L˱u ÿ͛ thc hi͏n cͯa mô hình n-gram ……………………………………………………29
Hình 3.2-9: L˱u ÿ͛ thc hi͏n cͯa mô hình ÿ͉ xṷt ……………………………………………………….33
Hình 3.2-10 : T̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ………………………………………………….38
Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt………………………………………………………………..39
Hình 3.2-12 : Trích t̵p tin CumTu.txt…………………………………………………………………………41
Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT……………………………………………………..44
Hình 4.1.1-14: C̭u hình cͯa ch˱˯ng trình HTML2TXT…………………………………………………45
Hình 4.1.1-15 : M͡t trang báo thanh niên……………………………………………………………………47
Hình 4.1.1-16 : ‘ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên……………………………………………48
Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu…………………………………………………………49
Hình 4.1.2-18: Tͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu……………………………………..49
Hình 4.1.2-19: N͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu …………………………………..50
Hình 4.1.3-20: Giao di͏n module tách tͳ…………………………………………………………………….51
Hình4.1.3-21: N͡i dung t̵p tin th˱ mͭc ngu͛n…………………………………………………………….51
Hình 4.1.3-22: N͡i dung t̵p tin tͳÿL͋n ………………………………………………………………………52
Hình 4.1.3-23: N͡i dung t̵p tin k͇t qu̫………………………………………………………………………52
Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính……………………………………………….53
Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt……………………………………………………………..54
Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt………………………………………………………..54
Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt……………………………………………………………………..55
Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n…………………………………….56
Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt……………………………………………………………..57
Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt…………………………………………………57
Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ ……………………………………………..58
Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor ……………………………………………….59
Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard ………………………………….60
Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard…………………………………………………..61
Hình 5.2-35 : T̵p tin kho ngͷ li͏u m̳u ………………………………………………………………………69
Chѭѫng 1.
7ӘNG QUAN
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
10
1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào
Yăn bҧn không dҩu
1.1.1.
Phát biӇu bài toán
Bài toán có thӇÿѭӧc phát biӇu nhѭ sau : Cho mӝt văn bҧn tiӃng ViӋt không
Gҩu. ChuyӇn văn bҧn không dҩu này thành có dҩu vӟi ÿӝ chính xác cao.
ChӍ sӱ dөng tӯÿLӇn tӯ và kho ngӳ liӋu thô làm ÿҫu vào.
Khái niӋm tӯӣÿây là “tӯ tӯÿLӇn” – tӭc là các tӯÿѫn, tӯ ghép và cөm tӯ
ÿѭӧc lѭu trong tӯÿLӇn.
ChӍ xӱ lý các văn bҧn tiӃng ViӋt có mã Unicode.
1.1.2.
Ĉһc ÿLӇm
Chӳ viӃt tiӃng ViӋt có 1 ÿһc ÿLӇm rҩt hay là sӵ xuҩt hiӋn cӫa các dҩu thanh
FNJng nhѭ dҩu cӫa các ký tӵ. ViӋc có dҩu thanh và dҩu cӫa ký tӵ này làm phong
phú thêm cho ngôn tӯ tiӃng ViӋt, và cNJng góp phҫn tăng ÿӝ biӇu cҧm cӫa tiӃng
ViӋt.
‘ҩu thanh là 1 thành phҫn “bҩt khҧ phân” trong âm tiӃt tiӃng ViӋt [8]. Khi
loҥi bӓ dҩu thanh, viӋc hiӇu nghƭa cӫa tӯ, gӗm 1 hay nhiӅu âm tiӃt kӃt hӧp vӟi
nhau, trӣ nên khó khăn và dӉ gây hiӇu lҫm.
ĈӇ thêm dҩu, trѭӟc tiên, ta cҫn phҧi xác ÿӏnh ranh giӟi tӯ. Bài toán xác
ÿӏnh ranh giӟi tӯÿӕi vӟi văn bҧn tiӃng ViӋt có dҩu ÿã là 1 viӋc thӱ thách, thì khi
không có dҩu, viӋc nhұn diӋn ranh giӟi tӯ càng trӣ nên khó khăn hѫn. Vҩn ÿӅ
này lҥi càng khó khăn, khi ranh giӟi tӯ trong tiӃng ViӋt cNJng nhѭ 1 sӕ ngôn ngӳ
Châu Á khác, mӝt tӯ chính tҧ có thӇ không tѭѫng ӭng vӟi mӝt “tӯ” trên văn
Eҧn. Ĉӕi vӟi các thӭ tiӃng Châu Âu, ta có thӇ dӉ dàng nhұn ra mӝt tӯ, do các tӯ
ÿѭӧc phân cách bӣi khoҧng trҳng. ĈLӅu này lҥi không ÿúng vӟi tiӃng ViӋt.
Trong tiӃng ViӋt, các tiӃng _ hay còn gӑi là âm tiӃt _ ÿѭӧc phân cách bӣi
khoҧng trҳng, chӭ không phҧi tӯ.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
11
Sau khi ÿã nhұn diӋn ÿѭӧc ranh giӟi tӯ, ta cҫn phҧi xác ÿӏnh cho ÿúng tӯ có
Gҩu nào có dҥng thӇ hiӋn không dҩu nhѭ vұy. ViӋc xác ÿӏnh này cNJng gây nhiӅu
khó khăn, khi 1 tӯ không dҩu có thӇ có nhiӅu tӯ có dҩu tѭѫng ӭng vӟi nó.
Ví dͭ 1-1 : Tӯ không dҩu “toi” có 3 tӯ có dҩu tѭѫng ӭng là “tôi”, “tӟi” và
“tӕi”.
Do ÿó, sau khi ÿã giҧi quyӃt xong bài toán tách tӯ tiӃng ViӋt không dҩu, ta
Fҫn phҧi giҧi quyӃt thêm bài toán xác ÿӏnh tӯ có dҩu thích hӧp vӟi tӯ không dҩu
ÿó. Ĉây chính là 2 bài toán cҫn giҧi quyӃt chính cӫa mô hình.
1.1.3.
+ѭӟng giҧi quyӃt
Ĉӕi vӟi tách tӯ có dҩu, có nhiӅu mô hình ÿѭӧc sӱ dөng và ÿҥt kӃt quҧ cao
nhѭ MM (Maximum Matching : forward / backward hay còn gӑi là LRMM:
Left Right); giҧi thuұt hӑc cҧi biӃn TBL; mҥng chuyӇn dӏch trҥng thái hӳu hҥn
có trӑng sӕ WFST (Weighted finite-state Transducer); giҧi thuұt dӵa trên nén
(compression) [1] …. Hѭӟng giҧi quyӃt ÿѭӧc ÿӅ xuҩt là sӱ dөng phѭѫng pháp
tách tӯ LRMM [1][7] kӃt hӧp vӟi mô hình Bigram ÿã giҧi quyӃt khá hiӋu quҧ 2
Yҩn ÿӅ cӫa bài toán này. Phѭѫng pháp chӍ mӟi ÿѭӧc áp dөng cho mô hình thêm
Gҩu offine, nhѭng có thӇÿѭӧc cài ÿһt ÿӇ gán dҩu online.
1.2. Giӟi thiӋu các công trình ÿã có
1.2.1.
AMPad
AMPad [12] (tên version cNJ và thông dөng vӟi mӑi ngѭӡi là AutoMark)
Fӫa tác giҧ Trҫn TriӃt Tâm là sҧn phҭm ÿҫu tiên nghiên cӭu vӅ lƭnh vӵc này.
Chѭѫng trình ÿã ÿѭӧc nhiӅu ngѭӡi biӃt ÿӃn và ÿѭӧc sӱ dөng rӝng rãi. ĈLӅu này
cho thҩy viӋc phát triӇn ӭng dөng hoàn thiӋn hѫn nӳa vӅ thêm dҩu tiӃng ViӋt là
có nhu cҫu, và nhu cҫu này sӁ ngày càng tăng cao. Chѭѫng trình AMPad có
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
12
ÿLӇm hay là viӋc áp dөng mô hình xӱ lý thêm dҩu ӣ chӃÿӝ online, tҥo sӵ trӵc
quan, thân thiӋn cho ngѭӡi sӱ dөng.
Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t tÿ͡ng b̹ng AMPad
1.2.2.
VietPad
Vietpad [11] là trình soҥn thҧo hӛ trӧ tiӃng ViӋt Unicode, ÿѭӧc phát triӇn
Eӣi Quân NguyӉn và nhóm phát triӇn trên http://vietpad.sourceforge.net. Ngoài
chӭc năng thêm dҩu tӵÿӝng offline mà luұn văn ÿang nghiên cӭu, VietPad còn
là 1 trình soҥn thҧo tiӃng ViӋt hӛ trӧ rҩt tӕt Unicode và là mã nguӗn mӣ.
Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
13
Hình 1.2.2-3 : Văn b̫n sau khi thc hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad
1.2.3.
www.EasyVn.com
Trang web www.easyvn.com [10] cung cҩp dӏch vө email ÿLӋn tӱ miӉn phí
trên mҥng, vӟi sӵ hӛ trӧ ngѭӡi dùng rҩt tӕt vӅ ngôn ngӳ ViӋt. 1 chӭc năng nәi
Eұt cӫa www.easyvn.com là : sau khi soҥn thҧo xong bӭc mail, ngѭӡi dùng có
thӇ chӑn chӭc năng Thêm dҩu tiӃng ViӋt ÿӇ biӃn văn bҧn không dҩu thành có
Gҩu. Do ÿây là dӏch vөÿѭӧc cung cҩp và thu phí trên NET (cho sӱ dөng thӱ
trong 2 tháng), mô hình thêm dҩu tӵÿӝng cӫa www.easyvn.comÿѭӧc giӳ kín.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
14
Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn
Hình 1.2.3-5 : Văn b̫n sau khi tÿ͡ng thêm ḓu trên EasyVn
1.2.4.
VnMark
VnMark [2] ÿѭӧc tác giҧ NguyӉn Văn Toàn phát triӇn. Do tác giҧÿã làm
thҩt lҥc chѭѫng trình, do ÿó, không có hình ҧnh minh hoҥ chѭѫng trình.
Chѭѫng 2.
&Ѫ SӢ LÝ THUYӂT
TIN HӐC
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
16
2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc
2.1.1.
Âm tiӃt (còn gӑi là “tiӃng”)
2.1.1.1.
Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt
“TiӃng” là “ÿѫn vӏ cѫ bҧn” trong tiӃng ViӋt [1]. Mӝt “tiӃng” trong tiӃng
ViӋt ÿѭӧc nói lên là mӝt ÿѫn vӏ ngӳ âm, và cNJng là mӝt ÿѫn vӏ ngӳ pháp.
0ӝt “tiӃng” là mӝt ÿѫn vӏ phát ngôn, và là mӝt ÿѫn vӏ cӫa lӡi nói ÿӇ tҥo ra
nhӳng kӃt cҩu lӡi nói trong hoҥt ÿӝng nói năng giao tiӃp. Ĉһc tính này cӫa
tiӃng chính là mӝt tính cách loҥi hình cӫa tiӃng ViӋt, trong ÿó mӛi ÿѫn vӏ
phát âm trùng khít vӟi ÿѫn vӏ ngӳ pháp (hình vӏ, và tӯ). Khi xét trên bình
diӋn ngӳ âm, tiӃng là mӝt ÿѫn vӏ cӫa ngӳ âm, tӭc là mӝt âm tiӃt [9].
ViӋc nhұn diӋn “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là ÿLӅu quá dӉ dàng, tӵ nhiên
ÿӕi vӟi mӑi ngѭӡi mà không cҫn mӝt trình ÿӝ ngôn ngӳ gì cao, vì : trong lӡi
nói (mһt ngӳ âm), mӛi “tiӃng” bao giӡ cNJng phát ra mӝt hѫi, nghe thành mӝt
tiӃng, và có mang mӝt thanh ÿLӋu nhҩt ÿLӋu; còn trong chӳ viӃt (mһt chính
Wҧ), mӛi tiӃng bao giӡ cNJng ÿѭӧc viӃt rӡi thành tӯng chӳ (ngăn cách bҵng
khoҧng trҳng hay các dҩu ngҳt). Ĉѫn vӏ “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là mӝt
ÿѫn vӏ tӵ nhiên, khái niӋm “tiӃng” ÿã có tӯ lâu và ÿѭӧc ngѭӡi bҧn ngӳ sӱ
Gөng nó trѭӟc khi hiӇu và sӱ dөng khái niӋm “tӯ”.
Ví dͭ 2-1:
Câu “Cái bàn này hình bán nguyӋt” có 6 tiӃng
2.1.1.2.
Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt
Khi phát âm tiӃng ViӋt, chúng ta phát âm tӯng ÿѫn vӏ lӡi nói cҳt rӡi nhau,
Jӑi là âm tiӃt. Khi phát âm chұm mӝt âm tiӃt, có thӇ nhұn thҩy khá rõ là mӛi
âm tiӃt ÿӅu có thӇ kӃt hӧp nhiӅu nhҩt là ba ÿѫn vӏ phát âm : âm ÿҫu + âm
chính + âm cuӕi. Ba thành phҫn trên gӗm nhӳng âm vӏ xuҩt hiӋn tѭѫng ÿӕi
theo thӭ tӵ trѭӟc sau, nên gӑi là nhӳng âm vӏ tuyӃn tính.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
17
Ngoài ra, mӛi âm tiӃt ÿѭӧc ÿӏnh mӝt bұc cao thҩp, gӑi là thanh ÿLӋu.
Trong lӡi nói, mӛi âm tiӃt tiӃng ViӋt ÿӅu mang mӝt thanh. Thanh này xuҩt
hiӋn lұp tӭc khi âm tiӃt ÿѭӧc phát ra, cho nên có thӇ nói rҵng thanh là mӝt
thành phҫn bҩt khҧ phân cӫa âm tiӃt. Thanh là thành phҫn âm vӏ phi tuyӃn
tính cӫa mӝt âm tiӃt tiӃng ViӋt. Thanh là mӝt sҳc thái cӫa âm thanh các âm
tiӃt, qua ÿó khi phát âm sӁÿӏnh bұc cao thҩp khác nhau cӫa mӛi ÿѫn vӏ cӫa
chuӛi lӡi nói. Có sáu thanh làm tiêu chuҭn ÿӏnh bұc cao thҩp khác nhau,
thѭӡng gӑi là ngang, hӓi, sҳc, huyӅn, ngã, nһng.
Nhѭ vұy thì mӛi âm tiӃt tiӃng ViӋt ÿҫy ÿӫ có tӕi ÿa bӕn ÿѫn vӏ cҩu thành.
7ӕi thiӇu thì mӛi âm tiӃt cNJng phҧi có hai thành phҫn : âm chính + thanh.
Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t
2.1.1.3.
7ҥi sao lҥi phҧi dùng dҩu thanh ?
Các ngôn ngӳ dùng bҧng chӳ cái Latin không dùng thêm kí hiӋu chӍ
thanh, mà chӍ ghi lҥi các âm vӏ tuyӃn tính bҵng các ÿӗ vӏ là con chӳ. HӋ
thӕng chӳ viӃt khӕi vuông nhѭ chӳ Hán và chӳ Nôm cNJng không có kí hiӋu
chӍ thanh. Nhѭng trѭӡng hӧp chӳ quӕc ngӳ có khác. Khi dùng bҧng chӳ cái
Latin, các ÿӗ vӏ con chӳ chѭa ÿӫÿӇ phân biӋt ý nghƭa mӝt tӯÿѭӧc viӃt ra, vì
có ÿӃn sáu thanh phҧi phân biӋt. Ðã ÿành thanh chӍ là yӃu tӕ ngӳ âm không
thuӝc vӅ thành phҫn âm vӏ tuyӃn tính, nhѭng thanh tiӃng ViӋt không hҷn chӍ
là mӝt yӃu tӕ ngôn ÿLӋu mang tính cách hoa mƭ cho âm tiӃt, mà là mӝt thành
phҫn không thӇ thiӃu ÿѭӧc khi phát âm mӝt âm tiӃt. Nói cách khác, âm tiӃt
tiӃng ViӋt chѭa hoàn chӍnh khi chѭa ÿѭӧc ÿӏnh thanh. Có lӁ các nhà sáng chӃ
ra chӳ viӃt theo bҧng chӳ cái Latin mà ta thѭӡng gӑi quen là “chӳ quӕc ngӳ”
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
18
ÿã hiӇu rҩt rõ tính cách bҩt khҧ phân cӫa thanh ÿӕi vӟi âm tiӃt tiӃng ViӋt, cho
nên các vӏÿã dùng ÿӃn nhӳng kí hiӋu ÿӇ chӍ thӏ các bұc thanh tѭѫng ӭng. Và
ÿây cNJng là ÿһc ÿLӇm nәi bұt cӫa tiӃng ViӋt.
2.1.2.
7ӯ
2.1.2.1.
Các quan niӋm vӅ tӯ
Có 1 sӕÿӏnh nghƭa ÿLӇn hình vӅ tӯ nhѭ sau [1] :
– Theo L.Bloomfield, thì tӯ là ³P͡t hình thái t do nh͗ nh̭W´.
– Theo Solncev thì ³7ͳ là ÿ˯n v͓ ngôn ngͷ có tính hai m̿t: âm và nghƭa.
7ͳ có kh̫ năng ÿ͡c l̵p v͉ cú pháp khi s͵ dͭng trong lͥL´.
– Theo B.Golovin, thì tӯ là ³ÿ˯n v͓ nh͗ nh̭t có nghƭa cͯa ngôn ngͷ, ÿ˱ͫc
Y̵n dͭng ÿ͡c l̵p, tái hi͏n t do trong lͥi nói ÿ͋ xây dng nên câu´. Ĉây
FNJng chính là ÿӏnh nghƭa mà trong ngôn ngӳ hӑc ÿҥi cѭѫng hay sӱ dөng.
Trong nӝi dung luұn văn này, ta quan tâm tӟi 3 thuұt ngӳ trong ngôn ngӳ
ÿҥi cѭѫng ÿӇ nhұn diӋn tӯ :
1.
7ͳ ngͷ âm : ÿó là nhӳng ÿѫn vӏÿѭӧc thӕng nhҩt vӟi hiӋn tѭӧng
ngӳ âm nào ÿó. Ĉӕi vӟi tiӃng ViӋt, ÿó chính là nhӳng âm tiӃt, hay
còn gӑi là “tiӃng”, “tiӃng mӝt”.
2.
7ͳ chính t̫ : ÿó là nhӳng khoҧng cách giӳa 2 chӛ trên văn tӵ, tӭc là
nhӳng ÿѫn vӏÿѭӧc viӃt liӅn thành khӕi, ÿӕi vӟi tiӃng ViӋt, ÿó chính
là “chӳ”
3.
7ͳ tͳÿL͋n h͕c : ÿó là ÿѫn vӏ mà căn cӭ vào ÿһc ÿLӇm ý nghƭa cӫa
nó phҧi xӃp riêng trong tӯÿLӇn.
2.1.2.2.
Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt
7ӯ rҩt nhiӅu quan niӋm cNJng nhѭ các ÿӏnh nghƭa vӅ “tӯ tiӃng ViӋt”, ta có
thӇ rút ra tiêu chuҭn mà các nhà ViӋt ngӳ hӑc ÿã dӵa vào ÿó khi nhұn diӋn tӯ
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
19
tiӃng ViӋt [3]. Các tiêu chuҭn này chung qui ta có thӇ phân thành : các tiêu
chuҭn vӅ hình thӭc và các tiêu chuҭn vӅ nӝi dung.
2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc
Tính c͙ÿ͓nh : tính vӳng chҳc vӅ cҩu tҥo, không thӇ chêm – xen ÿѭӧc
Tính ÿӝc lұp : các nhà ViӋt ngӳ hӑc hay dùng tiêu chuҭn tính ÿӝc lұp ÿӇ
phân biӋt tӯ (ÿѫn vӏ có nghƭa và ÿӝc lұp) vӟi hình vӏ (ÿѫn vӏ có nghƭa và
không ÿӝc lұp). Tính ÿӝc lұp còn ÿѭӧc gӑi là khҧ năng kӃt hӧp (tӵ do – hҥn
chӃ)
Tính tͳ lo̩i và quan h͏ cú pháp : trong ngӳ/câu, tӯ ÿҧm nhұn nhӳng
chӭc năng cú pháp nhҩt ÿӏnh, nên mӑi tӯÿӅu phҧi mang mӝt tӯ loҥi nào ÿó,
còn hình vӏ thì không có tính chҩt tӯ loҥi. Quan hӋ giӳa các tӯ là quan hӋ cú
pháp, còn quan hӋ giӳa các hình vӏ cӫa tӯ không phҧi là quan hӋ cú pháp.
2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung
Chͱc năng ÿ͓nh danh : chӭc năng này ÿѭӧc dùng ÿӇ xác ÿӏnh tѭ cách cӫa
Wӯ (tӯ thӵc), coi ÿó là ÿһc trѭng phân biӋt giӳa “tӯ” vӟi “hình vӏ”
Bi͋u th͓ khái ni͏m : vì tӯ vӟi khái niӋm không phҧi là mӝt: có nhӳng khái
niӋm cҫn biӇu thӏ bҵng nhiӅu tӯ, và có nhӳng tӯ không biӇu thӏ khái niӋm.
Ý nghƭa bi͋u ni͏m : vì ý nghƭa cӫa tӯ và khái niӋm không trùng nhau, vì
Yұy, ngѭӡi ta cҫn phân biӋt ý nghƭa tӯ vӵng và ý nghƭa ngӳ pháp.
Hoàn ch͑nh v͉ nghƭa : ÿây là tiêu chuҭn quan trӑng, ÿѭӧc ÿa sӕ các nhà
ViӋt ngӳ hӑc chҩp nhұn trong viӋc xác ÿӏnh tѭ cách cӫa tӯ. Tiêu chuҭn này
liên quan ÿӃn tính thành ngӳ và tính võ ÿoán.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
20
2.2. Tách tӯ
Bài toán tách tӯ cho ngôn ngӳÿѫn lұp ÿã ÿѭӧc ÿһt ra tӯ lâu, chӫ yӃu ÿӇ giҧi quyӃt
cho tiӃng Trung Quӕc, tiӃng Nhұt. Các thuұt toán tách tӯ có thӇÿѭӧc phân loҥi nhѭ
sau:
v ‘ӵa theo luұt. Bao gӗm các cách sau:
–
Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan
Rarurom, 1991).
–
Mô hình khӟp tӕi ÿa. Mô hình này ÿѭӧc chia thành “Khӟp tӕi ÿa tiӃn và khӟp tӕi
ÿa lùi”. Ĉӕi vӟi phѭѫng pháp này thì mӝt tӯÿLӇn hoàn chӍnh là không thӇ thiӃu.
0ӝt tӯÿLӇn không hoàn chӍnh sӁ giҧm hiӋu suҩt cӫa thuұt toán. Tuy nhiên, dӉ
thҩy là khó có thӇ có mӝt tӯÿLӇn hoàn chӍnh (ÿһc biӋt khi các ngôn ngӳ vүn còn
ÿѭӧc tiӃp tөc phát triӇn hҵng ngày trong thӡi ÿҥi ngày nay). Mô hình này tuǤ
thuӝc nhiӅu vào tӯÿLӇn.
v Dùng thӕng kê:
Giҧi pháp này dӵa vào ngӳ cҧnh tӯ xung quanh ÿӇÿѭa ra quyӃt ÿӏnh thích hӧp.
Có hai vҩn ÿӅ cҫn ÿѭӧc giҧi quyӃt ÿӕi vӟi giҧi pháp này : ÿӝ rӝng ngӳ cҧnh, và cách áp
Gөng thӕng kê. Ngӳ cҧnh càng rӝng thì thuұt toán càng phӭc tҥp.
Cho dù ÿӝ rӝng ngӳ cҧnh thӃ nào, luôn có thӇ áp dөng mô hình first-order HMM.
Tuy nhiên giҧi pháp này phө thuӝc rҩt nhiӅu vào ngӳ liӋu huҩn luӷӋn. KӃt quҧ huҩn
luyӋn trên ngӳ liӋu chính trӏ khó có thӇ áp dөng trên các tài liӋu văn hӑc và ngѭӧc lҥi.
Thêm vào ÿó, có nhӳng tӯ có xác suҩt rҩt cao, nhung chӍ có thӇ chӭc năng vӅ mһt ngӳ
pháp, làm giҧm vai trò cӫa xác suҩt.
v Cách khác:
+ҫu hӃt các giҧi pháp khác là sӵ lai tҥo giӳa các mô hình trên và các mô hình
ngôn ngӳ hӑc nhѭ WFST, TBL. Thӡi gian xӱ lý các giҧi pháp này trӣ nên ÿáng kӇ,
nhѭng ÿӝ chính xác ÿҥt ÿѭӧc khá cao.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
21
Tri thӭc vӅ ngôn ngӳ, thѭӡng áp dөng cho các mô hình dӵa trên luұt, hiӃm khi
ÿѭӧc áp dөng cho nhӳng mô hình trên.
‘ѭӟi ÿây là mô tҧ 2 phѭѫng pháp tách tӯ thѭӡng sӱ dөng :
2.2.1.
Khӟp tӕi ÿa (LRMM – Left Right Max Matching)
Thuұt toán so khӟp tӕi ÿa hoҥt ÿӝng nhѭ tên cӫa chính nó. Thuұt toán giҧi quyӃt
bài toán tách tӯ nào có nhiӅu tӯ nhҩt (so khӟp ÿѭӧc nhiӅu nhҩt). Thuұt toán ÿѭӧc áp
Gөng ÿӇ xây dӵng chѭѫng trình tách tӯ tiӃng Trung Quӕc MMSEG. Thuұt toán này có
nhiӅu biӃn thӇ khác nhau.
Ø ‘ҥng ÿѫn giҧn, ÿѭӧc dung ÿӇ giҧi quyӃt vҩn ÿӅ nhұp nhҵng tӯÿѫn. Giҧ sӱ có
Pӝt chuӛi ký tӵ (tѭѫng ÿѭѫng vӟi chuӛi tiӃng ViӋt trong tiӃng ViӋt) C1, C2
,…C3. Ta bҳt ÿҫu tӯÿҫu chuӛi. Ĉҫu tiên, kiӇm tra xem C1 có phҧi là tӯ không,
sau ÿó kiӇm tra xem C1C2 có phҧi là tӯ hay không. TiӃp tөc làm cho ÿӃn khi tìm
ÿѭӧc tӯ dài nhҩt. Tӯ có vӁ hӧp lý nhҩt là tӯ dài nhҩt. Chӑn tӯÿó, sau ÿó tìm tiӃp
nhѭ trên trên nhӳng tӯ còn lҥi, cho ÿӃn khi xác ÿӏnh ÿѭӧc toàn bӝ chuӛi dӳ liӋu.
Ø ‘ҥng phӭc tҥp. Quy tҳc cӫa dҥng này là phân ÿRҥn có vӁ hӧp lý nhҩt là ÿRҥn 3
Wӯ vӟi chiӅu dài tӕi ÿa. Thuұt toán bҳt ÿҫu nhѭ dҥng ÿѫn giҧn. NӃu phát hiӋn ra
nhӳng cách tách tӯ gây nhұp nhҵng (ví dө C1 là tӯ và C1C2 FNJng là tӯ), ta xem
các chӳ kӃ tiӃp ÿӇ tìm tҩt cҧ các ÿRҥn ba tӯ có thӇ có bҳt ÿҫu vӟi C1 hoһc C1C2.
Ví dͭ 2-2 : ta ÿѭӧc nhӳng ÿRҥn sau:
– C1 C2 C3C4.
– C1C2 C3C4 C5
– C1C2 C3C4 C5C6
Chuӛi dài nhҩt sӁ là chuӛi thӭ ba. Vұy tӯÿҫu tiên cӫa chuӛi thӭ ba (C1C2) sӁ
ÿѭӧc chӑn. Thӵc hiӋn lҥi các bѭӟc cho ÿӃn khi ÿѭӧc chuӛi tӯ hoàn chӍnh. Cách này ÿҥt
ÿѭӧc ÿӝ chính xác 99.69%.
Mô hình sӱ dөng phѭѫng pháp tách tӯ LRMM dҥng ÿѫn giҧn. Mô hình này vӯa
ÿѫn giҧn, nhѭng mang lҥi ÿӝ chính xác cao.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
22
2.2.2.
Mô hình mҥng WFST và mҥng nѫ-ron
WFST ÿã ÿѭӧc áp dөng ÿӇ tách tӯ tiӃng Trung Quӕc. Ý tѭӣng cѫ bҧn là áp dөng
WFST kӃt hӧp vӟi trӑng sӕ là xác suҩt xuҩt hiӋn cӫa mӛi tӯ trong ngӳ liӋu. Dùng
WFST ÿӇ duyӋt qua câu cҫn xét. Cách duyӋt có trӑng sӕ lӟn nhҩt sӁ là cách tách tӯ
ÿѭӧc chӑn. Giҧi pháp này cNJng ÿã ÿѭӧc áp dөng trong [5] kèm vӟi mҥng nѫ-ron ÿӇ
khӱ nhұp nhҵng.
Mô hình tách tӯ trong VnMark sӱ dөng chính là mô hình WFST này (Xem chi tiӃt
Kѫn trong [1] trang 99-104, hay trong [5])
2.3. Tách câu
Trong mӝt văn bҧn tiӃng Anh hay bҵng bҩt kǤ mӝt ngôn ngӳ thông dөng nào
khác, thông thѭӡng thì ta chӍ dùng dҩu chҩm (.), chҩm than (!), chҩm hӓi(?) và mӝt sӕ
Gҩu khác nӳa ÿӇ nhұn biӃt kӃt thúc câu. (Ta gӑi nhӳng dҩu này là nhӳng dҩu báo hiӋu
NӃt thúc câu hay dҩu chҩm câu). Tuy nhiên, do tính nhұp nhҵng cӫa dҩu báo hiӋu kӃt
thúc câu (chҷng hҥn nhѭ dҩu kӃt thúc câu trong tӯ viӃt tҳt,…) nên viӋc xác ÿӏnh ranh
giӟi câu không ÿѫn giҧn nhѭ chúng ta nghƭ. Ví dө nhѭ dҩu chҩm, nó có thӇ biӇu thӏ nhѭ
Pӝt dҩu chҩm thұp phân, mӝt cөm tӯ kӃt thúc, sӵ kӃt thúc câu văn hoһc ngay cҧ tӯ viӃt
Wҳt nҵm ӣ cuӕi câu. Mӝt dҩu chҩm hӓi hay dҩu chҩm than có thӇ xuҩt hiӋn trong dҩu
ngoһc ÿѫn, ngoһc kép hay cNJng nhѭӣ cuӕi câu. Sӵ mұp mӡ cӫa các dҩu câu này ÿѭӧc
thӇ hiӋn qua các ví dө sau:
Ví dͭ 2-3:
1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.
2. “This issue crosses party lines and crosses philosophical lines!” said Rep.
John Rowland (R., Conn.).
3. It was due Friday 5 p.m. Saturday would be too late.
4. She has an appointment at 5 p.m. Saturday to get her car fixed.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
23
Trong trѭӡng hӧp 1 và 2, tӯ nҵm ngay trѭӟc hoһc nҵm ngay sau dҩu chҩm câu cho ta
nhӳng thông tin quan trӑng vӅ vai trò cӫa dҩu trong câu. Tuy nhiên, bӝ phұn tách câu
Fҫn phҧi có nhiӅu thông tin vӅ ngӳ cҧnh hѫn trong trѭӡng hӧp viӋc chҩm câu xuҩt hiӋn
ӣ mӝt câu con trong dҩu ngoһc ÿѫn hoһc ngoһc kép, nhѭ trong trѭӡng hӧp 2; hay khi
chӳ viӃt tҳt xuҩt hiӋn ӣ cuӕi câu nhѭ trong trѭӡng hӧp 3, 4. ĈӇ nhұn diӋn dҩu chҩm
câu, ngѭӡi ta có thӇ dùng các heuristics hoһc các mô hình hӑc phӭc tҥp hѫn, nhѭ :
Pҥng neural, TBL, Maximum Entropy.
2.3.1.
Tách câu bҵng Heristics.
Sau khi nhұn ÿRҥn văn bҧn ÿã ÿѭӧc lӑc các ký tӵ dѭ thӯa, các ký tӵ phө, bӝ
phұn tách câu bҳt ÿҫu phân tích dӵa trên cách chҩm câu và ngӳ nghƭa mӝt sӕ tӯÿӇ tách
ra các câu riêng biӋt.
2.3.1.1.
;ӱ lý dҩu chҩm.
‘ҩu chҩm “.” là dҩu có nhiӅu trѭӡng hӧp mѫ hӗ nhҩt. Sau ÿây là các trѭӡng hӧp
Gҩu chҩm xuҩt hiӋn:
1. ‘ҩu chҩm kӃt thúc câu.
2. ‘ҩu chҩm thұp phân trong chӳ sӕ (1,234.567)
3. ‘ҩu chҩm biӇu thӏ sӵ viӃt tҳt (Mr., Dr., …)
4. ‘ҩu chҩm trong các trѭӡng hӧp khác nhѭ sӕ tài khoҧn, email
(abcd@yahoo.com), dҩu chҩm trong các ÿӏa chӍ website (www.is-
edu.hcmuns.edu.vn).
ĈӇ có thӇ phân biӋt ÿѭӧc các trѭӡng hӧp trên, ta có thӇ dӵa vào mӝt sӕÿһc trѭng
riêng trong cách trình bày cӫa tӯng trѭӡng hӧp.
1. 1Ӄu dҩu chҩm câu không thuӝc các trѭӡng hӧp còn lҥi (2,3,4) thì dҩu hiӋu ÿӇ
nhұn biӃt kӃt thúc câu sӁ là : “luôn luôn có ít nhҩt mӝt khoҧng trҳng sau dҩu
chҩm và ký tӵ tiӃp theo sӁ là chӳ cái sӁÿѭӧc viӃt hoa”.
2. Ta có thӇ nhұn biӃt dҩu chҩm thұp phân bҵng cách ÿӑc toàn bӝ phҫn liӅn trѭӟc
và phҫn liӅn sau dҩu chҩm ÿӇ phát hiӋn sӕ có dҩu chҩm thұp phân.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
24
3. ĈӇ nhұn biӃt dҩu chҩm trong trѭӡng hӧp các tӯ viӃt tҳt, ta xây dӵng mӝt danh
sách các tӯ viӃt tҳt ÿӇ tra cӭu khi cҫn.
4. Trѭӡng hӧp này là trѭӡng hӧp có các cách trình bày ÿa dҥng nhҩt, nhѭng vүn có
tính chҩt chung là dҩu chҩm không bao giӡ nҵm cuӕi tӯ, luôn ӣ giӳa hai ký tӵ
nào ÿó (nghƭa là không có khoҧng trҳng liӅn sau) nên có thӇ dӉ dàng phân biӋt
ÿѭӧc.
Nhӳng qui luұt trên ÿây là nhӳng qui luұt chung nhҩt trong cách trình bày văn bҧn
tiӃng Anh. Ĉӕi vӟi văn bҧn tiӃng ViӋt, các trѭӡng hӧp cNJng gҫn nhѭ thӃ. Do dӵa chӫ
\Ӄu vào cách trình bày văn bҧn nên có ÿLӇm yӃu là dӉ nhҫm lүn khi văn bҧn ÿѭa vào có
cách trình bày khác chuҭn và do không hiӇu nghƭa câu nên không thӇ phân biӋt mӝt sӕ
trѭӡng hӧp mѫ hӗ nhѭ trong ví dө sau:
1. It was due Friday 5p.m. Saturday would be too late.
2. She has an appointment at 5 p.m. Saturday to get her car fixed.
ĈӇ xác ÿӏnh ÿѭӧc dҩu chҩm (in ÿұm) trong 2 trѭӡng hӧp trên có phҧi là dҩu chҩm
KӃt câu hay không cNJng là mӝt viӋc không ÿѫn giҧn ÿӕi vӟi máy. Thұm chí ÿӕi vӟi
ngѭӡi mà trình ÿӝ tiӃng Anh chѭa vӳng. Trong cҧ hai trѭӡng hӧp, tӯ ngay trѭӟc hoһc
ngay sau dҩu chҩm câu cho ta nhӳng thông tin quan trӑng vӅ vai trò cӫa dҩu trong câu.
Tuy nhiên, bӝ phұn tách câu sӁ phҧi cҫn nhiӅu thông tin vӅ ngӳ cҧnh và cú pháp hѫn
trong trѭӡng hӧp sӵ chҩm câu xuҩt hiӋn ӣ mӝt câu con nhѭ trong trѭӡng hӧp 1.
2.3.1.2.
;ӱ lý dҩu chҩm trong ngoһc.
Khi bӝ tách câu gһp dҩu mӣ ngoһc ÿѫn, hoһc ngoһc kép, thì nó sӁ quét trong
ÿRҥn văn ÿang xét ÿӇ tìm dҩu ÿóng tѭѫng ӭng. NӃu tìm thҩy, toàn bӝ phҫn trong ngoһc
VӁÿѭӧc giӳ nguyên và tìm dҩu kӃt thúc câu tiӃp theo ngoài dҩu ngoһc. NӃu không tìm
thҩy dҩu ÿóng tѭѫng ӭng, dҩu mӣ sӁ bӏ bӓ qua và xӱ lý tiӃp ký tӵ sau dҩu mӣ nhѭ bình
thѭӡng.