BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
——————————-
ISO 9001:2015
ĐỒ ÁN TỐT NGHIỆP
NGÀNH: CÔNG NGHỆ THÔNG TIN
Sinh viên : Lê Minh Quý
Giảng viên hướng dẫn: TS. Ngô Trường Giang
HẢI PHÒNG – 2018
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
———————————–
KỸ THUẬT ĐỐI SÁNH HÌNH DẠNG SỬ DỤNG ĐẶC TRƯNG
DỰA TRÊN ĐƯỜNG BAO ĐỐI TƯỢNG
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
NGÀNH: CÔNG NGHỆ THÔNG TIN
Sinh viên : Lê Minh Quý
Giảng viên hướng dẫn: TS. Ngô Trường Giang
HẢI PHÒNG – 2018
Lê Minh Quý – CT1802
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
————————————–
NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP
Sinh viên: Lê Minh Quý Mã SV: 1412101051
Lớp: CT1802 Ngành: Công nghệ thông tin
Tên đề tài: Kỹ thuật đối sánh hình dạng sử dụng đặc trưng dựa trên
đường bao đối tượng
Lê Minh Quý – CT1802
2
MỤC LỤC
LỜI CẢM ƠN …………………………………………………………………………………… 4
LỜI MỞ ĐẦU …………………………………………………………………………………… 5
DANH MỤC HÌNH VẼ……………………………………………………………………… 6
CHƯƠNG 1:
TỔNG QUAN VỀ PHÁT HIỆN BIÊN VÀ ĐỐI SÁNH ẢNH ……………. 7
1.1 Biên và phát hiện biên ………………………………………………………………. 7
1.1.1
Khái niệm về biên
……………………………………………………………… 7
1.1.2
Phân loại các kỹ thuật phát hiện biên
……………………………………. 8
1.1.3
Quy trình phát hiện biên trực tiếp ………………………………………… 9
1.1.4
Một số phương pháp phát hiện biên
……………………………………..10
1.2 Mô tả hình dạng dựa trên đường bao
…………………………………………..15
1.2.1
Mô tả theo tiếp cận toàn cục ……………………………………………….16
1.2.2
Mô tả theo tiếp cận cấu trúc
………………………………………………..18
1.3 Đối sánh ảnh
……………………………………………………………………………24
1.3.1
Giới thiệu về đối sánh ảnh ………………………………………………….24
1.3.2
Đối sánh ảnh dựa trên đặc trưng ………………………………………….27
CHƯƠNG 2:
ĐỐI SÁNH HÌNH DẠNG SỬ DỤNG NGỮ CẢNH HÌNH DẠNG …….30
2.1 Giới thiệu………………………………………………………………………………..30
2.2 Độ đo khoảng cách hình dạng ……………………………………………………30
2.2.1
Khoảng cách min-max
……………………………………………………….30
2.2.2
Khoảng cách Euclid
…………………………………………………………..31
2.2.3
Khoảng cách toàn phương ………………………………………………….31
2.2.4
Khoảng cách Chi Squared distance………………………………………31
2.2.5
Khoảng cách Hausdorff ……………………………………………………..31
2.2.6
Độ đo khoảng cách trong ……………………………………………………32
2.3 Mô tả ảnh sử dụng ngữ cảnh hình dạng (Shape context) ………………..35
2.4 Đối sánh hình dạng ngữ cảnh …………………………………………………….36
2.4.1
Đối sánh shape sử dụng quy hoạch động ………………………………36
2.4.2
Đối sánh hình dạng dựa trên đồ thị ………………………………………37
CHƯƠNG 3:
THỰC NGHIỆM ………………………………………………………………44
Lê Minh Quý – CT1802
3
3.1 Môi trường thực nghiệm
……………………………………………………………44
3.1.1
Phần cứng ………………………………………………………………………..44
3.1.2
Phần mềm ………………………………………………………………………..44
3.2 Đối sánh ảnh dựa trên ngữ cảnh hình dạng sử dụng opencv
…………..45
3.2.1
Tìm đường bao và lấy mẫu các điểm trên đường bao ……………..45
3.2.2
Tìm khoảng cách và đối sánh giữa hai đường bao đã được lấy
mẫu
……………………………………………………………………………………….49
KẾT LUẬN ………………………………………………………………………………………54
TÀI LIỆU THAM KHẢO………………………………………………………………….55
Lê Minh Quý – CT1802
4
LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy cô trong khoa công nghệ thông tin
trong Trường ĐHDL Hải Phòng đã tận tình giảng dạy, truyền đạt những kiến
thức và kinh nghiệm vô cùng quý báu trong những năm học vừa qua.
Em xin gửi lời cảm ơn chân thành tới thầy giáo TS. Ngô Trường Giang,
Thầy đã tận tình hướng dẫn và giúp đỡ em trong suốt quá trình làm đồ án,
giúp em hoàn thành báo cáo đúng kế hoạch. Với sự chỉ bảo của thầy, em đã
có những định hướng tốt trong việc triển khai và thực hiện các yêu cầu trong
quá trình làm đồ án tốt nghiệp.
Ngoài ra, em cũng xin gửi lời cảm ơn tới tất cả bạn bè, đặc biệt là các
bạn trong lớp CT1802 đã luôn gắn bó, cùng học tập và giúp đỡ em trong
những năm qua và trong suốt quá trình thực hiện đồ án này.
Em xin chân thành cảm ơn.
Hải Phòng, ngày 3 tháng 11 năm 2018
Sinh viên
Lê Minh Quý
Lê Minh Quý – CT1802
5
LỜI MỞ ĐẦU
Phát hiện biên của ảnh là một trong những nhiệm vụ quan trọng trong
xử lý ảnh. Nhận dạng ảnh dùng máy tính liên quan tới việc nhận dạng và phân
loại các đối tượng trong bức ảnh do đó phát hiện biên là một công cụ quan
trọng. Phát hiện biên sẽ làm giảm một cách đáng kể khối lượng dữ liệu cần xử
lý và loại bỏ các thông tin không cần thiết trong khi vẫn đảm bảo các thuộc
tính quan trọng về cấu trúc của ảnh. Có rất nhiều kỹ thuật phát hiện biên hiện
đang được sử dụng, mỗi kỹ thuật này thường làm việc một cách có hiệu quả
cao đối với một loại đường biên cụ thể.
Còn nghiên cứu hình dạng được thúc đẩy chủ yếu bởi sự nhận dạng đối
tượng, các kỹ thuật mô tả và biểu diễn hình dạng này chủ yếu dựa vào các
ứng dụng cụ thể. Trong đó, sự hiệu quả và chính xác là mối quan tâm chính
của những kỹ thuật này. Hình dạng (Shape) là một đặc trưng quan trọng của
việc phân đoạn vùng của ảnh, và tính hiệu quả và thiết thực của nó đóng vai
trò quan trọng trong việc tra cứu ảnh. Phép biểu diễn hình dạng sử dụng
đường cong rời rạc để làm đơn giản hóa đường viền giúp cho thuận lợi việc
lọc nhiễu đã được hai tác giả Latecki và Lakamper nghiên cứu, ngoài ra việc
sử dụng đường cong rời rạc còn loại bỏ được các đặc trưng hình dạng không
thích hợp. Một phương pháp mô tả hình dạng để đo độ tương tự đó chính là
sử dụng Shape Context để đối sánh hình dạng, phương pháp này đã được đề
xuất bởi tác giả Belongie, ưu điểm của phương pháp này là nó khá tối ưu,
đơn giản nhưng hiệu quả mang lại chưa cao cho việc liên quan đến biến đổi
hình học và tra cứu dựa trên hình dạng.
Trong phạm vi đề tài này, em sẽ tập trung tìm hiểu về các kỹ thuật phát
hiện biên, mô tả các điểm đặc trưng sử dụng ngữ cảnh hình dạng và đối sánh
tập đặc trưng để ước lượng khoảng cách giữa hai ảnh hình dạng đối tượng.
Lê Minh Quý – CT1802
6
DANH MỤC HÌNH VẼ
Hình 1-1: Một số kiểu đường biên thông dụng
………………………………………… 8
Hình 1-2: Toán tử Sobel …………………………………………………………………….. 11
Hình 1-3: Toán tử Prewitt…………………………………………………………………… 11
Hình 1-4: Toán tử Roberts
………………………………………………………………….. 12
Hình 1-5: Kỹ thuật Laplace ………………………………………………………………… 13
Hình 1-6: Toán tử Laplacian ………………………………………………………………. 15
Hình 1-7: Minh họa độ lệch tâm của hình dạng……………………………………… 16
Hình 1-8: Các hướng của đoạn thẳng đơn vị: (a): 4 hướng, (b): 8 hướng
….. 20
Hình 1-9: Biểu diễn của một chuỗi mã ( theo 4 hướng và 8 hướng)………….. 20
Hình 1-10: Biểu diễn hình dạng sử dụng shape number.
…………………………. 21
Hình 1-11: Các bước tính toán shape number. ………………………………………. 22
Hình 1-12: Phân tích đường cong mịn
………………………………………………….. 23
Hình 1-13: Ảnh gốc
…………………………………………………………………………… 29
Hình 1-14: Phát hiện cạnh ………………………………………………………………….. 29
Hình 2-1: Ví dụ khoảng cách trong ……………………………………………………… 32
Hình 2-2: Ví dụ về khoảng cách trong của x và y trong hình O ……………….. 33
Hình 2-3: Quá trình biểu diễn khoảng cách trong của đối tượng
………………. 34
Hình 2-4: Tính toán ngữ cảnh hình dạng
………………………………………………. 36
Hình 3-1: Hình được hiển thị Shape …………………………………………………….. 46
Hình 3-2: Kết quả tìm biên bằng phương pháp Canny từ ảnh đầu vào
………. 47
Hình 3-3: Kết quả tìm đường bao và lấy mẫu………………………………………… 49
Lê Minh Quý – CT1802
7
CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN BIÊN VÀ ĐỐI SÁNH ẢNH
1.1 Biên và phát hiện biên
1.1.1 Khái niệm về biên
Biên là một phần chủ yếu trong phân tích ảnh vì các kỹ thuật phân đoạn
ảnh chủ yếu dựa vào biên. Một điểm ảnh có thể coi là điểm biên nếu ở đó có
sự thay đổi đột ngột về mức xám. Tập hợp các điểm biên tạo thành biên hay
đường bao ảnh của ảnh. Ví dụ, trong một ảnh nhị phân, một điểm có thể gọi là
biên nếu đó là điểm đen và có ít nhất một điểm trắng là lân cận.
Để hình dung tầm quan trọng của biên ta xét ví dụ sau: Khi người hoạ
sĩ vẽ một cái bàn gỗ, chỉ cần vài nét phác thảo về hình dáng như cái mặt bàn,
chân bàn mà không cần thêm các chi tiết khác, người xem đã có thể nhận ra
nó là một cái bàn, nếu ứng dụng của ta là phân lớp nhận diện đối tượng, thì
coi như nhiệm vụ đã hoàn thành. Tuy nhiên nếu đòi hỏi thêm về các chi tiết
khác như vân gỗ hay màu sắc,v.v. thì với chừng ấy thông tin là chưa đủ.
Nhìn chung về mặt toán học người ta coi điểm biên của ảnh là điểm có
sự biến đổi đột ngột về độ xám. Đường biên là tập các điểm biên. Một số kiểu
đường biên hay gặp trên thực tế được minh họa trên hình 1-1.
Trong đó:
a) Biên dạng nhẩy bậc
b) Biên dốc
c) Biên dạng xung vuông
d) Biên dạng hình nón
Lê Minh Quý – CT1802
8
Hình 1-1: Một số kiểu đường biên thông dụng
Phát hiện biên là một công cụ quan trọng trong xử lý ảnh số. Phương
pháp phát hiện biên làm giảm một cách đáng kể khối lượng dữ liệu cần tính
toán, chỉ giữ lại một số ít những thông tin cần thiết đồng thời vẫn bảo toàn
được những cấu trúc quan trọng trong bức ảnh. Như vậy phát hiện biên một
cách lý tưởng là xác định được tất cả các đường bao trong các đối tượng.
Định nghĩa toán học của biên ở trên là cơ sở cho các kỹ thuật phát hiện biên.
Điều quan trọng là sự biến thiên mức xám giữa các ảnh trong một vùng thường
là nhỏ, trong khi đó biến thiên mức xám của điểm vùng giáp ranh (khi qua biên)
lại khá lớn.
1.1.2 Phân loại các kỹ thuật phát hiện biên
Xuất phát từ định nghĩa toán học của biên người ta thường sử dụng hai
phương pháp phát hiện biên là phương pháp phát hiện biên trực tiếp và
phương pháp phát hiện biên gián tiếp. Các phương pháp này sẽ được trình bày
trong các phần dưới đây.
Lê Minh Quý – CT1802
9
1.1.2.1 Phương pháp phát hiện biên trực tiếp
Phương pháp này nhằm làm nổi biên dựa vào sự biến thiên về giá trị độ
sáng của điểm ảnh. Kỹ thuật chủ yếu dùng phát hiện biên ở đây là kỹ thuật
đạo hàm. Nếu lấy đạo hàm bậc nhất của ảnh ta có phương pháp Gradient; nếu
lấy đạo hàm bậc hai ta có kỹ thuật Laplace. Hai phương pháp trên được gọi là
phương pháp dò biên cục bộ. Ngoài ra người ta còn sử dụng phương pháp “đi
theo đường bao” gọi là phương pháp dò biên tổng thể dựa vào nguyên lý quy
hoạch hoạt động.
1.1.2.2 Phương pháp gián tiếp
Nếu bằng cách nào đấy, ta phân được ảnh thành các vùng thì đường
phân ranh giữa các vùng đó chính là biên. Việc phân vùng ảnh thường dựa
vào kết cấu (texture) bề mặt của ảnh.
Cũng cần lưu ý rằng, kỹ thuật dò biên và phân vùng ảnh là hai bài toán
đối ngẫu của nhau. Thực vậy, dò biên để thực hiện phân lớp đối tượng và một
khi đã phân lớp xong có nghĩa là đã phân vùng được ảnh. Và ngược lại, khi
phân vùng, ảnh đã phân lập được thành các đối tượng, ta có thể phát hiện
được biên. Phương pháp dò biên trực tiếp tỏ ra khá hiệu quả vì ít chịu ảnh
hưởng của nhiễu song nếu sự biến thiên độ sáng không đột ngột, phương pháp
này lại kém hiệu quả. Phương pháp dò biên gián tiếp tuy có khó cài đặt xong
lại áp dụng khá tốt khi sự biến thiên độ sáng nhỏ.
1.1.3 Quy trình phát hiện biên trực tiếp
Bước 1: Khử nhiễu ảnh
Vì ảnh thu nhận thường có nhiễu, nên bước đầu tiên là phải khử nhiễu,
việc khử nhiễu được thực hiện bằng các kỹ thuật khử nhiễu khác nhau.
Bước 2: Làm nổi biên
Tiếp theo là làm nổi biên bởi các toán tử đạo hàm.
Bước 3: Định vị điểm biên
Lê Minh Quý – CT1802
10
Vì các kỹ thuật làm nổi biên có hiệu ứng phụ là tăng nhiễu, do vậy sẽ có
một số điểm biên giả cần loại bỏ.
Bước 4: Liên kết và trích chọn biên
Như đã nói, phát hiện biên và phân vùng ảnh là một bài toán đối ngẫu,
vì thế cũng có thể phát hiện biên thông qua việc phân vùng ảnh.
1.1.4 Một số phương pháp phát hiện biên
Các phương pháp phát hiện biên truyền thống thường dựa trên kết quả
của phép tích chập (convolution) giữa bức ảnh cần nghiên cứu và một bộ lọc
2D (filter) thường được gọi là mặt nạ (mask).
Cấu trúc và giá trị của các toán tử phát hiện biên sẽ xác định hướng đặc
trưng mà toán tử nhạy cảm với biên. Có một số toán tử thích hợp cho các
đường biên có hướng nằm ngang, một số toán tử lại thích hợp cho việc tìm
kiếm biên dạng thẳng đứng hay theo hướng đường chéo.
Hiện nay thì có nhiều phương pháp phát hiện biên đang được sử dụng,
tuy nhiên có hai phương pháp phát hiện biên cơ bản đó là: Phương pháp
Gradient và phương pháp Laplace.
1.1.4.1 Phương pháp Gradient
Đạo hàm bậc nhất theo hướng ngang và dọc được tính theo công thức
sau:
x
y
f
G
x
f
f
G
y
(1.1)
Biên độ của gradient vector hay độ lớn tổng cộng của giá trị đạo hàm
nằm tại biên là kết hợp của cả hai giá trị này theo công thức:
2
2
x
y
f
f
G
G
(1.2)
Hướng của gradient vector được xác định theo:
Lê Minh Quý – CT1802
11
1
tan
x
y
G
f
G
(1.3)
Hướng của biên sẽ vuông góc với hướng của gradient vector này.
1.1.4.1.1
Toán tử sobel
Trên thực tế Sobel sử dụng hai mặt nạ có kích thước [3 x 3] trong đó
một mặt nạ chỉ đơn giản là sự quay của mặt nạ kia đi một góc 900 như ở
hình1- 2. Các mặt nạ này được thiết kế để tìm ra các đường biên theo chiều
đứng và chiều ngang một cách tốt nhất. Khi thực hiện phép convolution giữa
ảnh và các mặt nạ này ta nhận được các gradient theo chiều đứng và chiều
ngang Gx, Gy. Toán tử Sobel có dạng như hình 1-2.
Hình 1-2: Toán tử Sobel
1.1.4.1.2
Toán tử Prewitt
Phương pháp Prewitt gần giống với Sobel. Đây là phương pháp lâu đời
nhất, cổ điển nhất. Toán tử Prewitt được mô tả trên hình 1-3.
Hình 1-3: Toán tử Prewitt
1.1.4.1.3
Toán tử Roberts
Tương tự như Sobel, ta tính đường biên ngang và dọc một cách riêng rẽ
dùng hai mặt nạ như hình 1-4, sau đó tổng hợp lại để cho đường biên thực của
ảnh. Tuy nhiên do mặt nạ của Robert khá nhỏ nên kết quả là bị ảnh hưởng khá
nhiều của nhiễu.
Lê Minh Quý – CT1802
12
Hình 1-4: Toán tử Roberts
1.1.4.1.4
Phương pháp Canny
Phương pháp này sử dụng hai mức ngưỡng cao và thấp. Ban đầu ta
dùng mức ngưỡng cao để tìm điểm bắt đầu của biên, sau đó chúng ta xác định
hướng phát triển của biên dựa vào các điểm ảnh liên tiếp có giá trị lớn hơn
mức ngưỡng thấp. Ta chỉ loại bỏ các điểm có giá trị nhỏ hơn mức ngưỡng
thấp. Các đường biên yếu sẽ được chọn nếu chúng được liên kết với các
đường biên khỏe.
Phương pháp Canny bao gồm các bước sau:
Bước 1. Trước hết dùng bộ lọc Gaussian để làm mịn ảnh.
2
2
2
‘
2
( )
x
x
G x
e
(1.4)
Bước 2. Sau đó tính toán gradient (1.5) và (1.6) của đường biên của ảnh
đã được làm mịn.
2
2
2
2
2
[ , ]
x
y
x
j
C x y
e
(1.5)
2
2
2
2
2
[ , ]
x
y
y
i
C x y
e
(1.6)
Bước 3. Tiếp theo là loại bỏ những điểm không phải là cực đại.
Bước 4. Bước cuối cùng là loại bỏ những giá trị nhỏ hơn mức ngưỡng.
Phương pháp này hơn hẳn các phương pháp khác do ít bị tác động của
nhiễu và cho khả năng phát hiện các biên yếu. Nhược điểm của phương pháp
này là nếu chọn ngưỡng quá thấp sẽ tạo ra biên không đúng, ngược lại nếu
Lê Minh Quý – CT1802
13
chọn ngưỡng quá cao thì nhiều thông tin quan trọng của biên sẽ bị loại bỏ.
Căn cứ vào mức ngưỡng đã xác định trước, ta sẽ quyết định những điểm
thuộc biên thực hoặc không thuộc biên. Nếu mức ngưỡng càng thấp, số đường
biên được phát hiện càng nhiều (nhưng kèm theo là nhiễu và số các đường
biên giả cũng xuất hiện càng nhiều). Ngược lại nếu ta đặt mức ngưỡng càng
cao, ta có thể bị mất những đường biên mờ hoặc các đường biên sẽ bị đứt
đoạn.
Các ưu điểm của phương pháp Canny là:
Cực đại hóa tỷ số tín hiệu trên nhiễu làm cho việc phát hiện các biên
thực càng chính xác.
Đạt được độ chính xác cao của đường biên thực.
Làm giảm đến mức tối thiểu số các điểm nằm trên đường biên nhằm tạo
ra các đường biên mỏng, rõ.
1.1.4.2 Phương pháp Laplace
Các phương pháp đánh giá Gradient ở trên làm việc khá tốt khi mà độ
sáng thay đổi rõ nét. Khi mức sáng thay đổi chậm, miền chuyển tiếp trải rộng,
phương pháp cho hiệu quả hơn đó là sử dụng phương pháp đạo hàm bậc hai
gọi là phương pháp Laplace. Kết quả nghiên cứu cho thấy phương pháp
Gradient rất nhạy cảm với nhiễu và thường tạo nên biên kép. Toán tử Laplace
dùng nhiều kiểu mặt nạ khác nhau để xấp xỉ đạo hàm bậc hai. Dưới đây là 3
kiểu mặt nạ hay dùng.
Hình 1-5: Kỹ thuật Laplace
Kỹ thuật Laplace cho đường biên mảnh, tức là đường biên có độ rộng
bằng một điểm ảnh. Tuy nhiên, kỹ thuật này rất nhạy cảm với nhiễu vì đạo
hàm bậc hai thường không ổn định.
Lê Minh Quý – CT1802
14
1.1.4.3 Phương pháp Laplacian
Dùng phương pháp Gradient sẽ cho kết quả là ảnh nhận được có cấu
trúc không rõ nét do tạo nên những đường biên dày, không sắc nét. Để nhận
được các đường biên mỏng và rõ nét, ta phải tiến hành các bước xử lý tiếp
theo như loại bỏ những điểm không phải là cực trị đồng thời áp dụng kỹ thuật
liên kết biên. Ngoài ra ta còn gặp phải vấn đề là làm thế nào để xác định được
mức ngướng một cách chính xác. Việc chọn đúng giá trị ngưỡng phụ thuộc rất
nhiều vào nội dung của từng bức ảnh. Nếu ta tăng gấp đôi kích thước của một
bức ảnh mà không thay đổi giá trị cường độ của các điểm ảnh, ta sẽ nhận
được gradients bị suy giảm đi một nửa. Mặt khác kích thước của mặt nạ
(masks) cũng ảnh hưởng nhiều đến giá trị của Gradient trong ảnh.
Phương pháp Gradient chỉ thích hợp cho các vùng ảnh độ tương phản
thay đổi có tính nhảy bậc, điều này gây khó khăn cho phát hiện các đường
thẳng. Để khắc phục nhược điểm này ta thường dùng đạo hàm bậc hai.
Phương pháp Laplacian cho phép xác định đường biên dựa vào giá trị 0 của
đạo hàm bậc hai của ảnh. Laplacian của một ảnh tại điểm I(x, y) được tính
theo (1.7):
2
2
2
2
( , )
I
I
L x y
x
y
(1.7)
Laplacian được kết hợp với bộ lọc làm mịn ảnh để tìm biên.Xét công
thức sau:
2
2
2
( )
r
h r
e
(1.8)
Ở đây r2=x2+y2và là độ lệch chuẩn. Nếu thực hiện phép tích chập
của hàm này với ảnh cần tìm biên, kết quả là ảnh sẽ bị mờ đi, mức độ mờ phụ
thuộc vào giá trị của . Laplacian của h tức đạo hàm bậc hai của h theo r là:
2
2
2
2
2
2
4
( )
r
r
h r
e
(1.9)
Lê Minh Quý – CT1802
15
Hàm này thường được gọi là Laplacian of a Gaussian (LoG) do (1.8) có
dạng Gaussian. Trong phương pháp này, bộ lọc Gaussian được kết hợp với
Laplacian cho phép hiển thị những vùng ảnh có cường độ thay đổi nhanh do
đó làm tăng hiệu quả phát hiện biên. Nó cho phép làm việc với một diện tích
rộng hơn xung quanh điểm ảnh đang được nghiên cứu nhằm phát hiện chính
xác hơn vị trí của đường biên. Nhược điểm của phương pháp này là không
xác định được hướng của biên do sử dụng hai bộ lọc Laplacian quá khác nhau
có dạng như trên hình 1-6.
Hình 1-6: Toán tử Laplacian
1.2 Mô tả hình dạng dựa trên đường bao
Mô tả hình dạng dựa trên biên sẽ chỉ khai thác thông tin biên của đường
bao đối tượng được mô tả. Có hai kiểu phương pháp tiếp cận để mô tả đường
bao hình dạng đó là phương pháp tiếp cận toàn cục và phương pháp tiếp cận
cấu trúc.
Phương pháp tiếp cận toàn cục không phân chia hình dạng thành các
phần mà dùng một vector xác định đường bao để mô tả hình dạng đặc trưng
từ đường biên được sử dụng để mô tả hình dạng. Độ đo khoảng cách giữa các
vector đặc trưng thường được sử dụng để đo độ tương tự hình dạng.
Phương pháp tiếp cận cấu trúc thì phân tách các đường bao của hình
dạng thành các đoạn dựa trên các điều kiện phân tách. Biểu diễn cuối cùng
của nó thường sử dụng các xâu, một chuỗi hoặc một đồ thị, các biện pháp
tương tự được thực hiện bằng cách kết hợp chuỗi hoặc đồ thị một cách phù
hợp. Theo hướng tiếp cận này thì các chuỗi, đồ thị hoặc cây sẽ được biểu diễn
để đạt được những kết quả cuối cùng. Các thuật toán đối sánh chuỗi hoặc đối
sánh đồ thị sẽ được dùng để đo độ tương tự hình dạng.
Lê Minh Quý – CT1802
16
1.2.1 Mô tả theo tiếp cận toàn cục
Kỹ thuật biểu diễn đường bao hình dạng toàn cục nó thường tính toán
vector đặc trưng đa chiều từ các thông tin đường bao của hình dạng. Việc đối
sánh giữa hai hình dạng với nhau là một quá trình đơn giản thường xây dựng
bằng cách sử dụng một độ đo khoảng cách, chẳng hạn như khoảng cách
Euclide, hoặc khoảng cách cityblock, và nó cũng thường được sử dụng trong
các ứng dụng thực tế.
Mô tả hình dạng toàn cục đơn giản nhỏ gọn, tuy nhiên mô tả hình dạng
không được chính xác, nó chỉ có thể được kết hợp với mô tả hình dạng khác
để tạo ra các mô tả hình dạng chính xác.
1.2.1.1 Mô tả hình dạng đơn giản(Simple shape descriptors)
Mô tả hình dạng đơn giản nhất có thể được biểu diễn bằng các yếu tố
như: diện tích, vùng, hướng trục chính, độ tròn (perimeter2/area), độ uốn, độ
lệch tâm. Những mô tả toàn cục thường chỉ có thể phân biệt hình dạng có sự
khác biệt lớn, do đó chúng thường được sử dụng để lọc, để loại bỏ những cái
sai hoặc kết hợp với các mô tả hình dạng khác để phân biệt hình dạng. Chúng
không phù hợp với các mô tả hình dạng độc lập. Ví dụ, độ lệch tâm của hình
dạng trong hình 1-7(a) là gần tới 1 vì (a=b), do đó nó không mô tả đúng về
hình dạng bởi vì theo quan sát thì nó một hình thon dài. Trong trường hợp
này, độ tròn sẽ mô tả tốt hơn. Hai hình dạng trong hình 1-7(b) và 1-7(c) có độ
tròn tương tự nhau vì (a=2b), tuy nhiên, chúng là những hình dạng rất khác
nhau. Trong trường hợp này, độ lệch tâm là mô tả tốt hơn.
(a) (b) (c)
Hình 1-7: Minh họa độ lệch tâm của hình dạng
Lê Minh Quý – CT1802
17
1.2.1.2 Dấu hiệu đặc trưng hình dạng
Dấu hiệu đặc trưng hình dạng mô tả hình dạng bởi hàm một chiều thu
được từ điểm biên của hình dạng. Dấu hiệu đặc trưng hình dạng bao gồm:
khoảng cách tâm, tọa độ cực, tọa độ phức hợp, góc tiếp tuyến, góc tích lũy,
độ cong, chiều dây dài, dây cung và diện tích.
Dấu hiệu đặc trưng hình dạng không bị tác động bởi dịch chuyển và co
dãn hình dạng. Dấu hiệu hình dạng có thể được lượng tử hóa thành một biểu
đồ dấu hiệu, biểu đồ này có thể sử dụng cho đối sánh và bất biến với phép
quay. Dấu hiệu hình dạng thường nhạy cảm với nhiễu và những thay đổi trên
đường bao, do vậy nó có thể gây ra những lỗi trong việc đối sánh hình dạng.
Vậy nên, dấu hiệu đặc trưng hình dạng thường không sử dụng trực tiếp để mô
tả hình dạng.
1.2.1.3 Momen đường bao
Momen biên có thể được dùng để giảm kích thước của các biểu diễn
trên đường bao. Giả sử biên hình dạng đã được biểu diễn bởi một dấu hiệu
hình dạng Z(i), khi đó momen thứ r là mr và momen tâm là µr, có công thức
ước tính như sau:
1
1
[ ( )]
N
r
r
i
m
z i
N
(1.10)
Và
1
1
[ ( )
]
N
r
r
i
i
z i
m
N
(1.11)
Trong đó, N là số các điểm biên
Chuẩn hóa các momen:
/2
2
/ (
)r
r
r
m
m
M
Và
/2
2
/ (
)r
r
r
M
M
M
Để mô tả bất biến với các phép dịch chuyển, phép quay và co dãn của
hình dạng.
Lê Minh Quý – CT1802
18
Ưu điểm của mô tả momen đường bao chính là nó dễ dàng được thực
hiện tuy nhiên rất khó để gán những momen bậc cao hơn với các giải thích
liên quan tới vật lý.
1.2.2 Mô tả theo tiếp cận cấu trúc
Một phương pháp khác trong phân tích hình dạng là biểu diễn hình
dạng cấu trúc. Với cách tiếp cận cấu trúc, hình dạng được chia thành các đoạn
đường bao và sau đó được mã hóa thành các chuỗi tổng quát: S=S1, S2, ….Sn.
Ở đây Si là các phần tử của mã xích, một cạnh của đa giác, hình vuông
hoặc là một mặt spline. Si có thể chứa một số thuộc tính ví dụ như chiều dài,
độ cong trung bình, độ cong lớn nhất, khả năng uốn,v.v. Các chuỗi có thể sử
dụng trực tiếp để mô tả hoặc có thể sử dụng như là một đầu vào. Dưới đây là
một vài mô tả biểu diễn dưới dạng cấu trúc.
1.2.2.1 Biểu diễn mã xích
Mã xích mô tả đường biên đối tượng bằng một chuỗi các đoạn thẳng
đơn vị với các hướng đã được xác định. Nền tảng này đã được giới thiệu vào
năm 1961 bởi Freeman, ông đã mô tả một phương pháp cho phép mã hóa các
cấu hình hình học theo ý muốn. Trong phương pháp này, một đường cong bất
kỳ được biểu diễn bởi một chuỗi các vector đơn vị chiều dài và thiết lập một
giới hạn các hướng cho phép, do đó gọi là phương pháp vector đơn vị. Trong
thực hiện, một hình ảnh được đặt chồng lên một lưới, từ đó các điểm biên lấy
xấp xỉ với điểm lưới gần nhất, sau đó lấy mẫu của hình ảnh thu được. Từ một
điểm khởi đầu được lựa chọn trên biên, một mã xích có thể được tạo ra bằng
cách mã hóa các đoạn thẳng biểu diễn biên. Các đoạn thẳng đơn vị có thể định
hướng theo 4 hướng, 8 hướng hoặc N hướng (với N> 8 và N = 2k), mã xích
sử dụng đoạn thẳng đơn vị định hướng theo N hướng được gọi là mã xích
tổng quát.
Mã xích dùng để biểu diễn hình dạng phải không phụ thuộc vào sự lựa
chọn điểm ảnh biên bắt đầu trong chuỗi. Một khả năng để chuẩn hóa chuỗi mã
Lê Minh Quý – CT1802
19
xích là tìm các điểm ảnh trong trình tự biên mà kết quả mô tả là các số nguyên
tối thiểu, sau đó chúng được sử dụng như là các điểm ảnh bắt đầu. Ngoài ra,
biên có thể được biểu diễn bởi sự khác biệt về các chỉ thị tiếp theo trong chuỗi
mã thay vì biểu diễn cho biên theo chỉ số tương đối. Sự chuẩn hóa sự khác
biệt chuỗi mã được gọi là Shape number, Shape number sẽ được sử dụng để
biểu diễn hình dạng đối tượng.
Dùng mã xích biểu diễn hình dạng và đối sánh có nhiều hạn chế, mã
xích bị ảnh hưởng bởi nhiễu đường biên và biến dạng, thêm vào đó là kích
thước của chuỗi mã dài. Mã xích mà thường được sử dụng là đầu vào của
những phân tích ở mức độ cao, ví dụ như xấp xỉ đa giác và tìm điểm uốn.
Mã xích biểu diễn đường biên đối tượng bằng một chuỗi kết nối của
các phân đoạn đường thẳng có độ dài quy định và định hướng. Thông thường,
biểu diễn này dựa trên 4 hoặc 8 hướng kết nối của các phân đoạn đường
thẳng. Hướng của mỗi phân đoạn được mã hóa bằng cách sử dụng một lược
đồ số như được hiển thị trong hình 1-8. Những hình ảnh kỹ thuật số thường
được xử lý với định dạng lưới với khoảng cách bình đẳng với các hướng x và
y. Một chuỗi mã có thể tạo ra bằng cách định hướng các phân đoạn đường
thẳng dọc theo biên theo chiều kim đồng hồ như minh họa trong hình 1-8.
Vấn đề đặt ra là một chuỗi mã phụ thuộc vào điểm bắt đầu và giải pháp
được đưa ra là coi chuỗi mã như một chuỗi kín và xác định điểm bắt đầu để
chuỗi kết quả không phụ thuộc vào sự lựa chọn điểm bắt đầu đó. Chúng ta có
thể chuẩn hóa mã xích với phép quay bằng cách sử dụng sự khác biệt đầu tiên
(first difference) của mã xích thay vì bản thân mã. Sự khác biệt này thu được
bằng cách đếm số lượng các hướng thay đổi giữa 2 yếu tố liền kề.
Lê Minh Quý – CT1802
20
Hình 1-8: Các hướng của đoạn thẳng đơn vị: (a): 4 hướng, (b): 8 hướng
Hình 1-9: Biểu diễn của một chuỗi mã ( theo 4 hướng và 8 hướng)
1.2.2.2 Shape number
Shape number của một biểu diễn đường biên được định nghĩa là sự
khác biệt đầu tiên của cường độ nhỏ nhất. Trình tự n của một Shape number
Lê Minh Quý – CT1802
21
là số lượng các chữ số được biểu diễn. Hình 1-10 minh họa hình dạng của
trình tự 4, 6, 8.
Hình 1-10: Biểu diễn hình dạng sử dụng Shape number
Lê Minh Quý – CT1802
22
Hình 1-11: Các bước tính toán shape number
Chúng ta xét một ví dụ cụ thể, giả sử n=18 được quy định cụ thể cho
biên như hình 1-11(a). Để có được một Shape number của trật tự này đòi hỏi
phải làm theo các bước sau: Bước đầu tiên là tìm các hình chữ nhật cơ bản
như trong hình 1-11(b). Hình chữ nhật gần nhất của trật tự 18 là hình chữ nhật
3×6, yêu cầu phải chia nhỏ hình chữ nhật cơ bản như trong hình 1-11(c). Cuối
cùng có được chuỗi mã và sử dụng điểm khác biệt đầu tiên (first difference)
để tính toán shape number.
1.2.2.3 Phân tích đa giác
Trong phương pháp này, đường biên được chia nhỏ thành các đoạn bởi
xấp xỉ đa giác. Các đỉnh đa giác được sử dụng như một đối tượng ban đầu.
Đặc trưng của mỗi đối tượng ban đầu được mô tả như một chuỗi bao gồm bốn
yếu tố: góc nội tiếp, khoảng cách đến đỉnh tiếp theo, các tọa độ x và y.Các đặc
Lê Minh Quý – CT1802
23
trưng này được tổ chức thành một cây nhị phân hoặc m-arytree. Đối sánh hình
dạng có hai bước: Bước đầu tiên đối sánh đặc trưng với đặc trưng, bước thứ
hai, đối sánh hình dạng với hình dạng. Trong bước đầu tiên, chúng ta thu
được dữ liệu đặc trưng của các hình dạng truy vấn. Các đặc trưng này được
tìm kiếm thông qua chỉ số cây, nếu một mẫu đặc trưng cụ thể trong cơ sở dữ
liệu được tìm thấy tương tự như dữ liệu đặc trưng thì danh sách các hình dạng
liên quan đến mô hình đặc trưng được lấy ra. Trong bước thứ hai, đối sánh
giữa hình dạng truy vấn và mẫu thu được, việc đối sánh được thực hiện dựa
vào khoảng cách biến đổi giữa hai chuỗi các đối tượng ban đầu.
1.2.2.4 Kỹ thuật làm mịn đường cong
Phân tích đường cong mịn như mô tả hình dạng. Phân đoạn giữa các
điểm uốn độ cong từ một điểm biên được làm phẳng, được gọi là các mã
thông báo. Tính năng cho mỗi mã thông báo là độ cong tối đa và hướng của
nó. Trong hình 1-12, số đầu tiên trong ngoặc đơn là độ cong tối đa của nó và
số thứ hai là hướng của nó.
Hình 1-12: Phân tích đường cong mịn
Trong đó: (a) θ là định hướng của mã thông báo này; (b) một ví dụ về
phân hủy đường cong mịn.