11877_Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

luận văn tốt nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
——————————-

ISO 9001:2015

ĐỒ ÁN TỐT NGHIỆP

NGÀNH: CÔNG NGHỆ THÔNG TIN

Sinh viên : Vũ Lê Minh Hoàng
Giảng viên hướng dẫn: TS. Ngô Trường Giang

HẢI PHÒNG – 2018
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
———————————–

ƯỚC LƯỢNG TẬP ĐIỂM TƯƠNG ĐỒNG GIỮA HAI ẢNH
DỰA TRÊN ĐỐI SÁNH ĐẶC TRƯNG SIFT

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
NGÀNH: CÔNG NGHỆ THÔNG TIN

Sinh viên : Vũ Lê Minh Hoàng
Giảng viên hướng dẫn: TS. Lê Trường Giang

HẢI PHÒNG – 2018

Sinh viên: Bùi Thị Bích Phương – QT1805K 3
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
————————————–

NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP

Sinh viên: Vũ Lê Minh Hoàng Mã SV: 1412101034
Lớp: CT1802 Ngành: Công nghệ thông tin
Tên đề tài: Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh
đặc trưng SIFT

Sinh viên: Bùi Thị Bích Phương – QT1805K 4

MỤC LỤC

LỜI CẢM ƠN ……………………………………………………………………………………. 3
LỜI MỞ ĐẦU ……………………………………………………………………………………. 4
DANH MỤC HÌNH VẼ ……………………………………………………………………… 5
CHƯƠNG 1: PHÁT HIỆN VÀ MÔ TẢ ĐẶC TRƯNG ẢNH ………………. 6
1.1 Giới thiệu ………………………………………………………………………………… 6
1.2 Các loại đặc trưng ảnh ………………………………………………………………. 8
1.2.1 Đặc trưng toàn cục và cục bộ ………………………………………………. 8
1.2.2 Đặc điểm của phát hiện đặc trưng ………………………………………… 9
1.2.3 Bất biến với tỷ lệ và biến đổi Affine ……………………………………
10
1.3 Phát hiện đặc trưng ảnh …………………………………………………………….
11
1.3.1 Phát hiện đơn tỉ lệ……………………………………………………………..
12
1.3.2 Phát hiện đa tỉ lệ ……………………………………………………………….
19
1.4 Mô tả đặc trưng ảnh …………………………………………………………………
23
1.4.1 Scale Invariant Feature Transform (SIFT) ……………………………
23
1.4.2 Gradient Location-Orientation Histogram (GLOH) ………………
24
1.4.3 Speeded-Up Robust Features Descriptor (SURF) …………………
25
CHƯƠNG 2: ĐỐI SÁNH ẢNH DỰA TRÊN ĐẶC TRƯNG SIFT ……… 28
2.1 Giới thiệu về đối sánh ảnh ………………………………………………………..
28
2.2 Các phương pháp đối sánh ảnh ………………………………………………….
29
2.2.1 Phương pháp dựa trên vùng (Area based methods) ……………….
29
2.2.2 Phương pháp dựa theo đặc trưng (Feature based methods) …….
40
2.3 Đối sánh ảnh dựa trên đặc trưng SIFT ………………………………………..
44
2.3.1 Trích chọn đặc trưng SIFT …………………………………………………
44
2.3.2 Đối sánh SIFT ………………………………………………………………….
46
CHƯƠNG 3: CHƯƠNG TRÌNH THỰC NGHIỆM ……………………………. 48
3.1 Môi trường thực nghiệm …………………………………………………………..
48
3.1.1 Cấu hình phần cứng ………………………………………………………….
48
3.1.2 Môi trường cài đặt …………………………………………………………….
48

Vũ Lê Minh Hoàng – CT1802
1

Sinh viên: Bùi Thị Bích Phương – QT1805K 5
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

3.1.3 Thư viện OpenCV (Open Source Computer Vision Library
…… 48

3.2 Trích chọn đặc trưng SIFT ………………………………………………………. 50

3.3 Ước lượng tập điểm tương đồng
……………………………………………….. 52

3.4 Một số kết quả thực nghiệm …………………………………………………….. 55

KẾT LUẬN …………………………………………………………………………………….. 57

TÀI LIỆU THAM KHẢO
………………………………………………………………… 58

Vũ Lê Minh Hoàng – CT1802
2

Sinh viên: Bùi Thị Bích Phương – QT1805K 6
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

LỜI CẢM ƠN

Em xin gửi lời cảm ơn chân thành nhất đến quý thầy cô Trường Đại
Học Dân Lập Hải Phòng, những người đã dìu dắt em tận tình, đã truyền đạt
cho em những kiến thức và bài học quý báu trong suốt thời gian em theo học
tại trường.

Em xin trân trọng gửi lời cảm ơn đến tất cả các thầy cô trong khoa
Công Nghệ Thông Tin, đặc biệt là thầy giáo TS. Ngô Trường Giang, thầy đã
tận tình hướng dẫn và giúp đỡ em trong suốt quá trình làm tốt nghiệp. Với sự
chỉ bảo của Thầy, em đã có những định hướng tốt trong việc triển khai và
thực hiện các yêu cầu trong quá trình làm đồ án tốt nghiệp.

Ngoài ra, em cũng xin gửi lời cảm ơn tới tất cả bạn bè, đặc biệt là các
bạn trong lớp CT1802 đã luôn gắn bó, cùng học tập và giúp đỡ em trong
những năm qua và trong suốt quá trình thực hiện đồ án này.

Em xin chân thành cảm ơn!

Hải Phòng, ngày 03 tháng 11 năm
2018

Sinh viên

Vũ Lê Minh Hoàng

Vũ Lê Minh Hoàng – CT1802
3

Sinh viên: Bùi Thị Bích Phương – QT1805K 7
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

LỜI MỞ ĐẦU

Trong lĩnh vực nhận dạng đối tượng ngày nay, hướng nghiên cứu phổ
biến trên thế giới là việc sử dụng các điểm bất biến (Invarian Feature) trong
ảnh làm đặc trưng để nhận dạng. Tiêu biểu nhất trong các thuật toán đối sánh
sử dụng đặc trưng dạng này là thuật toán SIFT (Scale-Invarian Feature
Transform, David Lowe 1999 và 2004), SIFT có thể coi là thuật toán tiền đề
cho các ứng dụng cũng như giải thuật khác về trích chọn biến đổi đặc trưng
bất biến trong ảnh. Các giải thuật đang ứng dụng trong thực tế khác đều dựa
trên hay phát triển theo các nhánh riêng của SIFT.

Các đặc trưng trong SIFT không phụ thuộc vào các phép biến đổi ảnh
cơ bản như xoay, co dãn, thay đổi độ sáng,v.v. nên có thể xem tập các đặc
trưng của một ảnh là thể hiện cho nội dung của ảnh đó. Vì vậy kết quả của
việc nhận dạng sẽ có độ chính xác rất cao và thậm chí có thể khôi phục được
đối tượng bị che khuất trong ảnh. Tuy nhiên giải thuật SIFT rất phức tạp trong
cài đặt, đòi hỏi thời gian nghiên cứu và am hiểu nhiều thuật toán thành phần.

Trong phạm vi đề tài này, em sẽ sử dụng đặc trưng SIFT để ước lượng
tập điểm tương đồng giữa hai ảnh nhằm mục đích hiểu biết thêm về phương
pháp trích chọn đặc trưng trong việc triển khai các ứng dụng trong thực tế về
lĩnh vực tầm nhìn máy tính. Ngoài ra đề tài này còn giúp em nắm chắc kiến
thức hơn vì nó kết hợp kiến thức các môn em đã được học trong nhà trường.

Vũ Lê Minh Hoàng – CT1802
4

Sinh viên: Bùi Thị Bích Phương – QT1805K 8
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

DANH MỤC HÌNH VẼ

Hình 1-1: Biểu diễn đặc trưng ảnh toàn cục và cục bộ ………………………………
9
Hình 1-2: Thực hiện loại bỏ điểm không cực đại …………………………………… 13
Hình 1-3: Phân loại điểm ảnh dựa trên giá trị riêng của ma trận tự tương quan

M …………………………………………………………………………………………….. 14
Hình 1-4: Phát hiện đặc trưng trong một phần ảnh bằng FAST………………… 17
Hình 1-5: Tìm kiếm cực trị không gian tỷ lệ 3D của hàm LoG ………………… 21
Hình 1-6: Tìm kiếm cực trị không gian tỷ lệ 3D trong hàm DoG
……………… 22

Hình 1-7: Sơ đồ biểu diễn của bộ mô tả SIFT cho một phần ảnh 16×16 điểm ảnh
và một mảng mô tả 4×4 ………………………………………………………………. 24
Hình 1-8: Sơ đồ của thuật toán GLOH …………………………………………………. 25

Hình 1-9: Chia vùng đặc trưng thành 4 x 4 vùng con để tính bộ mô tả SURF

26

Hình 2-1: Nguyên lý hình học epipolar. Một mặt phẳng epipolar được xác
định bởi các trung tâm chiếu O1 và O2 và một điểm đối tượng P. Các

đường epipolar e’ và e’’ là các giao điểm của mặt phẳng epipolar với các
mặt phẳng ảnh. (được chuyển thể từ Schenk, 1999). ……………………….. 31
Hình 2-2: Giải thích hình học của hệ số tương quan r = cos = vT v S / (vT . vS ) 32

Hình 2-3: [Tài liệu “Image matching and its applications”] Nguyên lý đối
sánh hình ảnh dựa trên việc tìm hệ số tương quan cực đại r. …………….. 33

Hình 2-4: Biểu diễn hình học của khoảng cách hình ảnh D =| v |=| vT − vS |
…. 38

Hình 2-5: Ảnh gốc …………………………………………………………………………….. 44

Hình 2-6: Phát hiện cạnh ……………………………………………………………………. 44
Hình 2-7: Đối sáng hai ảnh quay về đối sánh hai tập điểm đặc trưng trong
không gian đặc trưng ………………………………………………………………….. 46
Hình 3-1: Ảnh được hiển thị
……………………………………………………………….. 51
Hình 3-2: Ảnh đã được phát hiện đặc trưng ………………………………………….. 52
Hình 3-3: Các cặp đối sánh giữa ảnh a1.png và a2.png …………………………… 55
Hình 3-4: Các cặp đối sánh giữa ảnh b1.png và b2.png…………………………… 56

Hình 3-5: Các cặp đối sánh giữa ảnh c1.png và c2.png …………………………… 56

Vũ Lê Minh Hoàng – CT1802
5

Sinh viên: Bùi Thị Bích Phương – QT1805K 9
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

CHƯƠNG 1: PHÁT HIỆN VÀ MÔ TẢ ĐẶC TRƯNG ẢNH

1.1 Giới thiệu

Trong những thập kỷ qua, phát hiện đặc trưng và mô tả ảnh đã trở thành
công cụ phổ biến trong cộng đồng thị giác máy tính. Các phương pháp đã có
đang được áp dụng rộng rãi trong một lượng lớn các ứng dụng như: khôi phục
ảnh, phân lớp và tra cứu ảnh, nhận dạng và đối sánh đối tượng, khôi phục
cảnh 3D, theo dõi chuyển động đối tượng, phân lớp cấu trúc ảnh, định vị rô
bốt và hệ thống sinh trắc học, tất cả đều dựa trên biểu diễn sự ổn định và các
đặc trưng đại diện trong ảnh. Do đó, phát hiện và trích chọn đặc trưng ảnh là
bước quan trọng cho các ứng dụng này.

Để thiết lập cặp điểm tương ứng giữa hai ảnh thì việc tìm ra điểm nổi
bật trên ảnh là rất cần thiết. Trong nhiệm vụ phân lớp, đặc trưng của ảnh truy
vấn sẽ được đem đi đối sánh với đặc trưng của các ảnh đã được huấn luyện,
cặp ảnh nào có nhiều đối sánh nhất thì được coi là đối sánh tốt nhất. Trong
trường hợp này, đối sánh đặc trưng có thể dựa trên các độ đo khoảng cách như
Euclide hoặc Mahalanobis. Trong khôi phục ảnh, việc hiệu chỉnh những ảnh
được thu nhận ở trong những điều kiện và thời điểm khác nhau là rất cần thiết.
Các bước chính để thực hiện khôi phục ảnh hoặc hiệu chỉnh là: mô tả đặc
trưng, đối sánh đặc trưng, xác định các hàm biến đổi dựa trên các đặc trưng
tương ứng giữa hai ảnh ảnh và khôi phục hình ảnh dựa trên các hàm biến đổi.
Trong đối sánh và nhận dạng, bước đầu tiên là phát hiện các điểm đặc trưng
trong các ảnh và mô tả chúng. Khi các bộ mô tả được tính toán, chúng có thể
được so sánh với nhau để tìm ra mối quan hệ giữa các ảnh để thực hiện nhiệm
vụ đối sánh / nhận dạng.

Phát hiện đặc trưng là một bước quan trọng trong đối sánh ảnh. Ý tưởng
chính của phát hiện đặc trưng là phát hiện ra các điểm chính, các điểm này bất
biến với một lớp biến đổi nào đó. Sau đó, đối với mỗi điểm chính được phát hiện,

Vũ Lê Minh Hoàng – CT1802
6

Sinh viên: Bùi Thị Bích Phương – QT1805K 10
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

xây dựng một véc tơ để biểu diễn đặc trưng bất biến cho những điểm ảnh
xung quanh điểm được phát hiện. Các mô tả đặc trưng được trích chọn từ ảnh
có thể dựa trên thống kê bậc hai, các mô hình tham số, các hệ số thu được từ
một phép biến đổi ảnh, hoặc thậm chí là kết hợp của các độ đo này. Hai kiểu
đặc trưng ảnh có thể trích chọn từ mô tả nội dung ảnh là các đặc trưng toàn
cục và các đặc trưng cục bộ. Đặc trưng toàn cục (ví dụ: màu sắc và kết cấu)
nhằm mục đích mô tả toàn bộ ảnh và có thể được giải thích như là các thuộc
tính đặc biệt của tất cả các điểm ảnh trong ảnh. Trong khi đó, các đặc trưng
cục bộ nhằm mục đích phát hiện các điểm chính hoặc các vùng nổi bật trong
ảnh và mô tả chúng.

Việc sử dụng các đặc trưng toàn cục đã được chứng minh thành công
cho việc tìm các hình ảnh tương tự trong cơ sở dữ liệu, trong khi các đặc trưng
có hướng cấu trúc cục bộ được xem như là phù hợp cho việc phân lớp đối
tượng hoặc tìm những phần xuất hiện khác của đối tượng hoặc một cảnh
tương tự. Mặt khác, trên các ứng dụng thời gian thực phải xử lý nhiều dữ liệu
hơn hoặc chạy trên các thiết bị di động với khả năng tính toán hạn chế rất cần
thiết phải mô tả cục bộ để tính toán nhanh, đối sánh nhanh, sử dụng bộ nhớ
hiệu quả và đưa ra độ chính xác tốt. Hơn nữa, các mô tả đặc trưng cục bộ
được chứng minh là một lựa chọn tốt cho đối sánh ảnh trên nền tảng di động,
nơi xuất hiện những đối tượng khuyết cần phải được xác định. Với những ứng
dụng như phân lớp ảnh, truy xuất ảnh, theo dõi hoặc nhận dạng đối tượng, mô
tả đặc trưng cục bộ rất quan trọng để khắc phục các ảnh hưởng từ những thay
đổi về độ sáng, thay đổi góc nhìn hoặc biến dạng ảnh (ví dụ: nhiễu, mờ, hoặc
chiếu sáng). Trong khi đó, những nhiệm vụ tra cứu đặc biệt khác chẳng hạn
như phát hiện khuôn mặt hoặc nhận dạng, cần phải sử dụng các kỹ thuật phát
hiện và mô tả đặc biệt.

Có rất nhiều phương pháp được đề xuất để mô tả hình dạng, điển hình
như SIFT (Scale Invariant Feature Transform), SURF (Speeded-up Robust
Features). Mô tả SIFT sử dụng cực trị cục bộ ở trong đạo hàm DoG

Vũ Lê Minh Hoàng – CT1802
7

Sinh viên: Bùi Thị Bích Phương – QT1805K 11
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

(Difference Of Gaussian) để trích chọn đặc trưng. Trong khi đó, mô tả SURF
được phát triển dựa trên ý tưởng của SIFT để tính toán đặc trưng cục bộ bất
biến. Mô tả này được tính toán nhanh hơn SIFT và là mô tả được sử dụng
rộng rãi và phổ biến trong rất nhiều ứng dụng.

1.2 Các loại đặc trưng ảnh

1.2.1 Đặc trưng toàn cục và cục bộ

Trong xử lý ảnh và thị giác máy tính, trích chọn đặc trưng và biểu diễn
ảnh là rất cần thiết. Con người có thể dễ dàng trích chọn thông tin từ ảnh thô,
tuy nhiên nó không đúng cho trường hợp máy tính. Nói chung có hai kiểu đặc
trưng ảnh có thể trích chọn từ mô tả nội dung ảnh gọi là các đặc trưng toàn
cục và các đặc trưng cục bộ.

Trong mô tả đặc trưng toàn cục, ảnh được biểu diễn bằng một véc tơ
đặc trưng mô tả thông tin trong toàn bộ ảnh. Nói cách khác, phương pháp biểu
diễn toàn cục tạo ra một véc tơ đơn với các giá trị độ đo các khía cạnh khác
nhau của ảnh như màu sắc, kết cấu hoặc hình dạng. Thực tế, mỗi ảnh được
biểu diễn một véc tơ đơn, sau đó 2 ảnh có thể được so sánh với nhau bằng
việc so sánh các véc tơ đặc trưng của chúng. Ví dụ, khi ta muốn phân biệt các
ảnh biển (xanh dương) và ảnh rừng (màu xanh lục), thì một bộ mô tả toàn cục
về màu sắc sẽ tạo ra các véc tơ hoàn toàn khác nhau cho mỗi loại. Trong ngữ
cảnh này, các đặc trưng toàn cục có thể được hiểu là một thuộc tính đặc biệt
của ảnh liên quan đến tất cả các điểm ảnh. Thuộc tính này có thể là các biểu
đồ màu, kết cấu, cạnh hoặc thậm chí một bộ mô tả đặc biệt được trích chọn từ
một vài bộ lọc được áp dụng cho ảnh.

Mặt khác, mục đích chính của biểu diễn đặc trưng cục bộ là biểu thị rõ
ràng hình ảnh dựa trên một số vùng nổi bật trong khi vẫn bất biến với các thay
đổi về góc nhìn và chiếu sáng. Do đó, ảnh được biểu diễn dựa trên cấu trúc cục
bộ của nó bởi một tập các mô tả đặc trưng cục bộ được trích chọn từ một tập hợp

Vũ Lê Minh Hoàng – CT1802
8

Sinh viên: Bùi Thị Bích Phương – QT1805K 12
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

các vùng hình ảnh được gọi là các vùng đặc trưng (các điểm chính). Mô tả đặc
trưng toàn cục và cục bộ của ảnh được minh họa như trong Hình 1-1.

Hình 1-1: Biểu diễn đặc trưng ảnh toàn cục và cục bộ

Nói chung, việc sử dụng loại đặc trưng nào là tùy thuộc vào các ứng
dụng cụ thể. Ví dụ, một người có mũi lớn hơn và mắt nhỏ hơn, và một người
có mũi nhỏ hơn và mắt to hơn có thể có biểu đồ màu hoặc biểu đồ phân bố
cường độ tương tự nhau. Vì vậy, các đặc trưng cục bộ hoặc mẫu toàn cục
được trích ra từ các cụm đặc trưng cục bộ được xem như phù hợp hơn. Trái
lại, đối với các tập dữ liệu rất lớn trong ứng dụng đánh chỉ số hình ảnh trên
web thì những đặc trưng toàn cục được xem như là thích hợp.

Ưu điểm của các đặc trưng toàn cục là chúng được tính toán nhanh hơn
và cô đọng hơn trong khi đó dễ tính toán và thường yêu cầu một lượng nhỏ bộ
nhớ. Tuy nhiên, các biểu diễn toàn cục có một số hạn chế như: không bất biến
với các biến đổi, nhạy cảm với nhiễu và một phần bị che khuất. Ngược lại, lợi
thế của các đặc trưng cục bộ là có hiệu suất vượt trội. Sử dụng các đặc trưng
cục bộ để tìm kiếm ảnh có hiệu suất cao hơn nhiều so với các đặc trưng toàn
cục. Hơn nữa, vì các cấu trúc cục bộ ổn định hơn các cấu trúc khác ở các vùng
ảnh mịn, nên nó được kỳ vọng sẽ hữu ích hơn cho việc đối sánh ảnh và nhận
dạng đối tượng. Tuy nhiên, chúng thường đòi hỏi một lượng đáng kể về bộ
nhớ vì ảnh có thể có hàng trăm đặc trưng cục bộ.

1.2.2 Đặc điểm của phát hiện đặc trưng

Tuytelaars và Mikolajczyk [3] đã định nghĩa đặc trưng cục bộ là một
phần hình ảnh khác với vùng lân cận của nó. Vì vậy, họ coi mục đích của các
đặc trưng bất biến cục bộ là cung cấp một biểu diễn cho phép đối sánh hiệu

Vũ Lê Minh Hoàng – CT1802
9

Sinh viên: Bùi Thị Bích Phương – QT1805K 13
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

quả các cấu trúc cục bộ giữa các ảnh. Để đáp ứng mục tiêu này, phát hiện và
trích chọn đặc trưng phải có các thuộc tính rõ ràng phụ thuộc vào việc thiết
lập những ứng dụng thực trong quá trình thực hiện. Các thuộc tính sau đây rất
quan trọng để sử dụng bộ phát hiện đặc trưng trong các ứng dụng thị giác
máy:

− Tính mạnh mẽ: Thuật toán có thể phát hiện ra những vị trí đặc trưng
giống nhau độc lập với các biến đổi, co giãn, tỷ lệ, xoay, dịch chuyển,
nén và nhiễu.

− Tính lặp lại: Thuật toán phát hiện ra các đặc trưng tương tự của cảnh
hoặc đối tượng tương tự được lặp lại dưới một loạt những góc nhìn khác
nhau.

− Tính chính xác: Xác định được chính xác vị trí các đặc trưng ảnh (vị trí
các điểm ảnh tương tự).

− Tính tổng quát: Thuật toán phát hiện đặc trưng có thể phát hiện các đặc
trưng được sử dụng trong các ứng dụng khác nhau.

− Tính hiệu quả: Thuật toán phát hiện đặc trưng có thể phát hiện các đặc
trưng trong ảnh mới một cách nhanh chóng để hỗ trợ các ứng dụng thời
gian thực.

− Tính chất lượng: Thuật toán phát hiện đặc trưng sẽ có thể phát hiện tất
cả hoặc hầu hết các đặc trưng trong ảnh. Trong đó, mật độ của các đặc
trưng được phát hiện cần phải phản ánh thông tin nội dung ảnh để cung
cấp biểu diễn ảnh cô đọng.

1.2.3 Bất biến với tỷ lệ và biến đổi Affine

Trên thực tế, việc tìm các cặp tương ứng dựa trên việc so sánh các vùng
có hình dạng cố định như hình chữ nhật hoặc hình tròn không đáng tin cậy khi
có sự xuất hiện của một số biến dạng. Ngoài ra, các đối tượng trong ảnh kỹ
thuật số xuất hiện theo những cách khác nhau tùy thuộc vào tỷ lệ quan sát. Do

Vũ Lê Minh Hoàng – CT1802
10

Sinh viên: Bùi Thị Bích Phương – QT1805K 14
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

đó, thay đổi tỷ lệ có ý nghĩa quan trọng khi phân tích nội dung ảnh. Có nhiều
kỹ thuật khác nhau đã được đề xuất để giải quyết vấn đề phát hiện và trích
chọn các đặc trưng ảnh bất biến trong các điều kiện này. Một số được thiết kế
để xử lý các vấn đề thay đổi tỷ lệ, trong khi một số khác hướng tới các biến
đổi affine. Để giải quyết các thay đổi về tỷ lệ, các kỹ thuật này giả định rằng
sự thay đổi về tỷ lệ là giống nhau theo mọi hướng (tức là thống nhất) và
chúng tìm kiếm các đặc trưng ổn định trên tất cả các tỷ lệ có thể có bằng cách
sử dụng hàm nhân (kernel) liên tục của tỷ lệ được gọi là không gian tỷ lệ.

Mặt khác, trong trường hợp của phép biến đổi affine, tỷ lệ có thể khác
nhau theo từng hướng. Tỷ lệ không đồng đều có ảnh hưởng đến vị trí, tỷ lệ và
hình dạng của cấu trúc cục bộ. Do đó, các phát hiện bất biến tỷ lệ thường
không thành công trong trường hợp có biến đổi Affine tỷ lệ lớn. Vì vậy, các
bộ phát hiện được thiết kế để phát hiện các đặc trưng ảnh dưới tỷ lệ đều cần
phải được mở rộng thành các bộ phát hiện bất biến với biến đổi Affine. Do
đó, các bộ phát hiện bất biến affine có thể được xem như là một sự tổng quát
hóa mô tả bất biến tỷ lệ.

Nói chung, các phép biến đổi Affine được tạo ra bằng cách sử dụng
chuỗi các biến đổi tịnh tiến, co giãn, lật, quay và cắt. Biến đổi Affine
(Affinity) là ánh xạ tuyến tính duy trì tính cộng tuyến và tỷ lệ với khoảng
cách. Một hình thức, trong trường hợp hữu hạn chiều, nếu ánh xạ tuyến tính
được biểu diễn bởi một phép nhân với ma trận A và phép tịnh tiến được biểu

diễn như một phép cộng với véc tơ b thì một ánh xạ Affine f trên véc tơ x
được biểu diễn như sau:

y = f (x ) = Ax + b
[1.1]

1.3 Phát hiện đặc trưng ảnh

Phát hiện đặc trưng có thể được phân loại rộng thành ba loại: phát hiện
đơn tỷ lệ, phát hiện đa tỷ lệ, và phát hiện bất biến affine. Trong đó, đơn tỷ lệ
có nghĩa là chỉ có một biểu diễn đặc trưng hoặc cho các đường bao của đối

Vũ Lê Minh Hoàng – CT1802
11

Sinh viên: Bùi Thị Bích Phương – QT1805K 15
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

tượng sử dụng các tham số của bộ phát hiện. Phát hiện đơn tỷ lệ là bất biến
đối với các phép biến đổi ảnh như xoay, dịch chuyển, thay đổi độ sáng và
nhiễu. Tuy nhiên, chúng không có khả năng để giải quyết vấn đề co giãn. Với
hai hình ảnh của cùng một cảnh giống nhau từ việc thay đổi tỷ lệ, ta muốn xác
định nơi điểm đặc trưng tương tự có thể được phát hiện hoặc không. Do đó,
nó là cần thiết để xây dựng bộ phát hiện đa tỷ lệ có khả năng trích chọn các
đặc trưng đặc biệt đáng tin cậy dưới sự thay đổi tỷ lệ.

1.3.1 Phát hiện đơn tỉ lệ

1.3.1.1 Phát hiện của Moravec

Kỹ thuật của Moravec [4] được chỉ định để tìm các vùng riêng biệt
trong hình ảnh có thể được sử dụng để khôi phục các khung ảnh liên tiếp. Nó
đã được sử dụng như một thuật toán phát hiện góc trong đó một góc là một
điểm có độ tương đồng thấp. Bộ phát hiện kiểm tra từng ảnh trong mỗi ảnh
nhất định để xem có góc nào không. Nó xem xét một phần ảnh cục bộ tập
trung vào điểm ảnh và sau đó xác định sự tương tự giữa phần ảnh và các phần
ảnh chồng chéo gần đó. Độ tương tự được đo bằng cách lấy tổng của bình
phương khác biệt (SSD) giữa các phần ảnh trung tâm và các phần ảnh khác.
Dựa trên giá trị của SSD, ba trường hợp cần được xem xét như sau:

− Nếu điểm ảnh trong vùng có cường độ đồng nhất thì các phần ảnh gần
đó sẽ trông giống nhau hoặc có xuất hiện thay đổi nhỏ.

− Nếu điểm ảnh nằm trên một cạnh thì các phần ảnh gần đó theo hướng
song song với cạnh sẽ dẫn đến một thay đổi nhỏ và các phần ảnh theo
hướng vuông góc với cạnh sẽ dẫn đến thay đổi lớn.

− Nếu điểm ảnh nằm trên một vị trí có sự thay đổi lớn về mọi hướng, thì
không có phần ảnh nào gần đó trông giống nhau và góc có thể được
phát hiện khi thay đổi được tạo ra với bất kỳ sự dịch chuyển nào lớn.

SSD nhỏ nhất giữa phần ảnh và các láng giềng của nó (ngang, dọc và
hai đường chéo) được sử dụng làm độ đo cho góc. Một góc hoặc một điểm

Vũ Lê Minh Hoàng – CT1802
12

Sinh viên: Bùi Thị Bích Phương – QT1805K 16
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

đặc trưng được phát hiện khi SSD đạt đến cực đại cục bộ. Phát hiện Moravec
được thực hiện theo những bước sau:

− Đầu vào: ảnh đa mức xám, cỡ cửa sổ, ngưỡng T

− Đối với mỗi điểm ảnh
V từ một dịch chuyển

(x, y) trong hình ảnh tính toán thay đổi cường độ
(u, v) theo:

V
( x , y ) =

I ( x + u + a , y + v + v ) − I (x + a , y + b )
2

u ,v

a , b window

[1.2]

Hình 1-2: Thực hiện loại bỏ điểm không cực đại

− Xây dựng bản đồ góc bằng cách tính toán độ đo góc C

(x, y)

cho mỗi

điểm ảnh (x, y)

C (
x , y )
(

(
x , y
))

= min V

u ,v

[1.3]

− Phân ngưỡng bản đồ góc bằng việc thiết lập tất cả các giá trị C (x, y) bên
dưới ngưỡng T sẽ bằng 0.

− Loại bỏ các điểm không cực đại để tìm các điểm cực đại cục bộ. Tất cả
các điểm khác 0 còn lại trong bản đồ là góc.

Để loại bỏ các điểm cực đại, ảnh được quét dọc theo hướng gradien của
nó, sao cho vuông góc với cạnh. Bất kỳ điểm ảnh không phải là cực đại cục
bộ được loại bỏ và được đặt thành 0. Như minh họa trong Hình 1-2, p và r là

Vũ Lê Minh Hoàng – CT1802
13

Sinh viên: Bùi Thị Bích Phương – QT1805K 17
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

hai điểm láng giềng theo hướng gradient của q. Nếu giá trị điểm ảnh của q
không lớn hơn giá trị điểm ảnh của cả p và r, thì giá trị này bị loại bỏ. Ưu
điểm của kỹ thuật Moravec là có thể phát hiện phần lớn các góc. Tuy nhiên,
nó không đẳng hướng; những thay đổi cường độ chỉ được tính toán ở một tập
rời rạc của sự dịch chuyển (tám hướng cơ bản) và bất kỳ cạnh nào không nằm
trong một trong tám hướng thì được gán một độ đo góc lớn. Vì vậy, nó không
phải là bất biến để xoay.

1.3.1.2 Phát hiện Harris

Kỹ thuật phát hiện Harris [5] là sự kết hợp phát hiện cạnh và góc để giải
quyết hạn chế của kỹ thuật Moravec. Kết quả của kỹ thuật này dựa trên một
công nghệ được sử dụng rộng rãi đó là ma trận tương quan tự động. Ma trận
tương quan tự động đối xứng 2×2 được sử dụng để phát hiện các đặc trưng
ảnh và mô tả cấu trúc cục bộ của chúng có thể được biểu diễn như sau:

I
2 (x, y ) I I (x, y )
M (x, y ) =w(u, v)*

2

X

X Y
u ,v

I x I
y (x, y )
I
y (x, y )

[1.4]

Hình 1-3: Phân loại điểm ảnh dựa trên giá trị riêng của ma trận tự tương
quan M

Vũ Lê Minh Hoàng – CT1802
14

Sinh viên: Bùi Thị Bích Phương – QT1805K 18
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

Trong đó Ix và I y là các đạo hàm riêng ảnh cục bộ xác định theo hướng

x và y tương ứng, và w (u , v) ký hiệu một cửa sổ trọng số trên vùng (u , v).

Nếu một cửa sổ tròn như Gaussian được sử dụng, thì kết quả sẽ là đẳng hướng
và các giá trị sẽ có trọng số gần hơn với tâm. Để tìm các điểm đặc trưng, các
giá trị riêng của ma trận M được tính cho mỗi điểm ảnh. Nếu cả hai giá trị
riêng đều lớn, thì sẽ cho biết sự tồn tại của góc tại vị trí đó. Một sơ đồ minh
họa cho phân loại các điểm phát hiện được thể hiện trong Hình 1-3. Xây dựng
bản đồ kết quả có thể được thực hiện bằng cách tính toán độ đo góc C (x, y)
cho mỗi điểm ảnh (x, y) sử dụng

C (x, y ) = det (M )− K (trace (M ))
2

với

det (M ) = 1 * 2 , và
trace (M ) = 1 + 2

[1.5]

[1.6]

K là một tham số điều chỉnh và 1 , 2 là các giá trị riêng của ma trận
tương quan tự động. Tính toán chính xác của các giá trị riêng là có độ phức
tạp lớn. Do đó Harris đã gợi ý sử dụng độ đo góc bằng cách kết hợp 2 giá trị
riêng ở trong một độ đo đơn.

1.3.1.3 Phát hiện SUSAN

Thay vì sử dụng đạo hàm ảnh để tính toán góc, Smith và Brady [6] đã
giới thiệu một công nghệ xử lý hình ảnh mức thấp được gọi là SUSAN
(Smallest Univalue Segment Assimilating Nucleus). Ngoài việc phát hiện góc,
nó còn được sử dụng để phát hiện cạnh và giảm nhiễu ảnh. Góc được phát
hiện bằng cách đặt một mặt nạ tròn bán kính cố định cho mỗi điểm ảnh ở
trong ảnh. Điểm ảnh tâm được gọi là nhân, tất cả các điểm ảnh trong vùng
mặt nạ được so sánh với nhân để kiểm tra xem các giá trị cường độ của nó là
tương tự hay là khác. Các điểm ảnh có độ sáng gần giống với nhân được
nhóm lại với nhau và vùng đó được gọi là USAN (Univalue Assimilating
Nucleus). Một góc được tìm thấy tại nơi mà số điểm ảnh trong USAN đạt giá

Vũ Lê Minh Hoàng – CT1802
15

Sinh viên: Bùi Thị Bích Phương – QT1805K 19
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

trị cực tiểu cục bộ và thấp hơn một ngưỡng chỉ định. Để phát hiện các góc,

hàm so sánh tương tự C (r , r0 ) giữa mỗi điểm ảnh trong mặt nạ và nhân mặt nạ

sẽ được tính toán bởi

1, if | I (r )− I (r0 )| T,
C (r , r0 ) =
0, otherwise,

Và cỡ của vùng USAN là
0

0

n (r ) =
r c (r 0)
C (r, r )

[1.7]

[1.8]

trong đó r0 và r là tọa độ của nhân và tọa độ của các điểm khác trong mặt nạ

tương ứng. Việc thực thi của bộ phát hiện góc SUSAN chủ yếu dựa trên hàm so sánh tương tự

Phát hiện SUSAN có một số ưu điểm như: (i) không sử dung đạo hàm,
do đó không cần giảm nhiễu và không phải tính toán phức tạp; (ii) Độ lặp lại
cao để phát hiện các đặc trưng; và (iii) bất biến đối với việc dịch chuyển và
phép quay. Tuy nhiên, nó không bất biến với tỷ lệ và biến đổi khác, và một
ngưỡng cục bộ không phù hợp cho trường hợp tổng quát. Phát hiện góc cần
một ngưỡng thích ứng và hình dạng của mặt nạ phải được thay đổi.

1.3.1.4 Phát hiện FAST

FAST (Features from Accelerated Segment Test) là một bộ phát hiện
góc ban đầu được phát triển bởi Rosten và Drummondn. Trong lược đồ phát
hiện này, các điểm ứng viên được phát hiện bằng cách áp dụng kiểm tra phân
đoạn cho mỗi điểm ảnh. Việc kiểm tra này được tính toán dựa trên 16 điểm
ảnh xung quanh điểm ảnh ứng viên góc. Nếu một tập n điểm kề nhau trong
vòng tròn Bresenham với bán kính r đều sáng hơn cường độ của điểm ảnh ứng

vi ê
n
( đư
ợc

h
i ệu
b
ằng
I

p
)
cộn
g
vớ
i
gi
á
t r

ngư
ỡng
hoặc

t ấ
t
cả

c

điểm tối hơn cường độ của điểm ảnh ứng viên trừ đi giá trị ngưỡng I p − t thì p
được xem như là một góc. Một bước kiểm tra có thể được sử dụng để loại trừ
một số lượng lớn các điểm không phải góc; bộ kiểm tra này chỉ kiểm tra

Vũ Lê Minh Hoàng – CT1802
16

t , I p + t

C (r , r0 ).

Sinh viên: Bùi Thị Bích Phương – QT1805K 20
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

bốn điểm ảnh 1,5,9 và 13 như trong Hình 1-4. Một góc chỉ tồn tại nếu ba
trong số các điểm ảnh kiểm tra này sáng hơn I p + t hoặc tối hơn so với I p − t
và các điểm ảnh còn lại sau đó được kiểm tra để xem kết quả cuối cùng. Hình
1-4 minh họa quá trình xử lý, trong đó các hình vuông được tô sáng là các
điểm ảnh được sử dụng trong phát hiện góc. Điểm ảnh tại p là tâm của góc
ứng viên. Vòng cung được biểu thị bằng đường đứt nét đi qua 12 điểm liền kề
sáng hơn p theo ngưỡng.

Hình 1-4: Phát hiện đặc trưng trong một phần ảnh bằng FAST

Mặc dù các kiểm tra này mang lại hiệu năng cao nhưng nó gặp phải
một số hạn chế và nhược điểm là tốc độ tính toán hạn chế do phải kiểm tra
nhiều điểm. Tuy nhiên điều này có thể được khắc phục bằng cách sử dụng
những phương pháp học máy. Thứ tự các câu hỏi được xử dụng để phân lớp
một điểm ảnh được học bởi thuật toán cây quyết định (ID3). Việc áp dụng học
máy cho bước này nhằm mục đích tăng tốc độ. Khi bước kiểm tra tạo ra rất
nhiều kết quả liền kề xung quanh điểm đặc trưng thì một điều kiện được thêm
vào để loại bỏ điểm không cực đại. Điều này cho phép các đặc trưng được
định vị một cách chính xác. Độ đo góc được sử dụng tại bước này là:

| I

− I

| − t ,
| I

− I

[1.9] C (x, y ) = max
p → j

p → j
| − t

p

p

j S
bright

j S
dark

Vũ Lê Minh Hoàng – CT1802
17

Sinh viên: Bùi Thị Bích Phương – QT1805K 21
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

trong đó

I p → j

là ký hiệu điểm ảnh nằm trên vòng tròn Bresenham. Trong bước

này, thời gian xử lý được rút ngắn vì bước kiểm tra thứ hai chỉ được thực hiện
trên một phần nhỏ của điểm ảnh đã vượt qua bước kiểm tra đầu tiên.

Quá trình kiểm tra được thực hiện theo hai giai đoạn:

− Trước hết, phát hiện góc với việc kiểm tra đoạn của n điểm và một
ngưỡng phù hợp được thực hiện trên một tập ảnh. Mỗi điểm ảnh của 16
vị trí trên vòng tròn được phân loại thành màu tối hơn, tương tự hoặc
sáng hơn.

− Tiếp theo, sử dụng thuật toán ID3 trên 16 vị trí để lựa chọn ra những vị
trí tại những điểm cho nhiều thông tin nhất. Triệt tiêu điểm không cực
đại được áp dụng trên tổng chênh lệch tuyệt đối giữa các điểm ảnh trong
cung liền kề và điểm ảnh trung tâm.

Ở đây các góc được phát hiện sử dụng thuật toán ID3 có thể hơi khác so
với kết quả thu được với phát hiện kiểm tra phân đoạn do thực tế mô hình cây
quyết định phụ thuộc vào dữ liệu huấn luyện, không thể bao quát tất cả các
góc có thể. So với nhiều phương pháp phát hiện khác, bộ phát hiện góc FAST
rất phù hợp cho các ứng dụng xử lý video thời gian thực vì hiệu năng tốc độ
cao của nó. Tuy nhiên, nó không bất biến với thay đổi tỷ lệ và không uy lực
với nhiễu, cũng như nó dựa trên vào một ngưỡng, mà việc lựa chọn ngưỡng
không phải là một nhiệm vụ dễ dàng.

1.3.1.5 Phát hiện Hessian

Phát hiện Hessian dựa trên ma trận 2×2 đạo hàm bậc hai của cường độ
ảnh I (x, y ), được gọi là ma trận Hessian. Ma trận này có thể được sử dụng để

phân tích cấu trúc ảnh cục bộ và nó được giải thích dưới dạng:

I xx (x , y , ) I xy (x , y, )
[1.10] H (x , y, ) =

I xy (x , y , ) I yy (x , y, )

Vũ Lê Minh Hoàng – CT1802
18

Sinh viên: Bùi Thị Bích Phương – QT1805K 22
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

Ở đây

I
xx

, I

xy

I
yy

là các đạo hàm ảnh bậc hai được tính toán bằng

cách sử dụng hàm Gaussian với độ lệch chuẩn σ. Để phát hiện các đặc trưng,
nó tìm kiếm một tập con của các điểm mà kết quả của đạo hàm là cao theo hai
hướng trực giao. Tức là, phát hiện tìm kiếm các điểm mà định thức của ma
trận Hessian có cực đại cục bộ

det (H ) = I I
− I
2
xx yy
xy

[1.11]

Bằng cách chọn các điểm cực đại định thức của Hessian, độ đo này sẽ
loại các cấu trúc có các đạo hàm bậc hai nhỏ (tức là, các thay đổi tín hiệu)
trong một hướng nào đó. Bằng việc áp dụng loại trừ điểm cực đại sử dụng
một cửa sổ có cỡ 3×3 trên từng ảnh nên chỉ những điểm ảnh có giá trị lớn hơn
giá trị của tất cả các điểm ảnh láng giềng trong cửa sổ mới được giữ lại. Sau
đó, bộ phát hiện trả về tất cả các vị trí còn lại mà có giá trị lớn hơn ngưỡng
cho trước. Trong khi, ma trận Hessian được sử dụng để mô tả cấu trúc cục bộ
trong một vùng láng giềng xung quanh một điểm, thì định thức của nó được
sử dụng để phát hiện các cấu trúc ảnh biểu thị sự thay đổi tín hiệu theo hai
hướng. So sánh với các toán tử khác như Laplacian, định thức của Hessian chỉ
đáp ứng nếu mẫu ảnh cục bộ chứa các thay đổi đáng kể dọc theo hai hướng
trực giao. Tuy nhiên, sử dụng các đạo hàm bậc hai trong bộ phát hiện là nhạy
cảm với nhiễu. Ngoài ra, cực đại cục bộ thường được tìm thấy gần đường bao
hoặc cạnh thẳng, nơi tín hiệu chỉ thay đổi theo một hướng. Do đó, các cực đại
cục bộ này ít ổn định hơn vì bị ảnh hưởng bởi nhiễu hoặc các thay đổi nhỏ
trong mẫu lân cận.

1.3.2 Phát hiện đa tỉ lệ

1.3.2.1 Laplacian of Gaussian (LoG)

Laplacian-of-Gaussian (LoG) là một tổ hợp tuyến tính của các đạo hàm
bậc hai được sử dụng phổ biến trong phát hiện các khối. Với một ảnh đầu vào
I (x, y ), biểu diễn không gian tỷ lệ của ảnh được định nghĩa bởi L (x, y, )

Vũ Lê Minh Hoàng – CT1802
19

Sinh viên: Bùi Thị Bích Phương – QT1805K 23
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

được

G (x,

y

tính toán bằng cách , )
và được định nghĩa

nhân chập ảnh với một hàm nhân Gaussian như
sau:

L (x, y, ) = G (x, y, ) I (x, y)

Với

−(x + y )

2

2

G (x, y, ) =
1
2 2
2

2

[1.12]

[1.13]

Công thức sau được sử dụng cho việc tính toán toán tử Laplacian:

2 L (x, y ,
) = Lxx (x, y , ) + Lyy (x, y, )

[1.14]

Điều này dẫn đến phản hồi ứng tích cực cho các khối màu tối và phản

ứng tiêu cực với các khối sáng với cỡ 2 . Tuy nhiên, phản hồi của toán tử phụ
thuộc rất nhiều vào mối quan hệ giữa kích thước của các cấu trúc khối trong
miền ảnh và kích thước của nhân làm mịn Gaussian. Độ lệch chuẩn của
Gaussian được sử dụng để điều khiển tỷ lệ bằng việc thay giá trị độ mờ. Để
thu nhận một cách tự động khối có kích thước khác nhau trong miền ảnh thì
một phương pháp lựa chọn tỷ lệ tự động được sử dụng thông qua việc tìm
kiếm cực trị không gian tỷ lệ của toán tử Laplacian chuẩn hóa theo:

norm
2 L (x , y , ) = 2 (Lxx (x , y , ) + L yy (x , y, ))
[1.15]

Việc chuẩn hóa này cũng có thể đồng thời phát hiện ra các điểm cực đại
hoặc cực tiểu cục bộ đối với cả không gian và tỷ lệ. Toán tử LoG là đối xứng
tròn; do đó nó không bất biến với phép quay. LoG không những thích hợp với
phát hiện khối do đặc tính đối xứng tròn này, mà còn cung cấp một đánh giá
tốt về đặc điểm tỷ lệ cho những cấu trúc cục bộ khác như là góc, cạnh, đường
gờ và đa điểm nối. Trong ngữ cảnh này, LoG có thể được áp dụng để tìm đặc
tính tỷ lệ cho vị trí ảnh đưa vào hoặc cho vùng bất biến tỷ lệ bởi tìm kiếm cực
trị 3D (vị trí + độ đo) của hàm LoG như minh họa trong Hình 1-5.

Vũ Lê Minh Hoàng – CT1802
20

Sinh viên: Bùi Thị Bích Phương – QT1805K 24
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

Hình 1-5: Tìm kiếm cực trị không gian tỷ lệ 3D của hàm LoG
1.3.2.2 Difference of Gaussian (DoG)

Trong thực tế, việc tính toán các toán tử LoG tốn thời gian. Để tăng tốc
độ tính toán, Lowe đã đề xuất một thuật toán hiệu quả dựa trên cực trị 3D cục
bộ trong kim tự tháp không gian tỷ lệ được xây dựng với các bộ lọc Gaussian
(DoG). Cách tiếp cận này được sử dụng trong thuật toán biến đổi đặc trưng
bất biến tỷ lệ (SIFT). Trong đó, DoG cho xấp xỉ gần với Laplacian-of-
Gaussian (LoG) và nó được sử dụng để phát hiện các đặc trưng ổn định từ cực
trị không gian tỷ lệ. Hàm DoG D (
x, y, ) có thể được tính toán mà không cần

nhân chập bằng cách trừ các mức tỷ lệ liền kề của một kim tự tháp Gaussian
được phân cách bởi một hệ số k.

D (x, y , ) = ( G (x, y , k ) −G (x, y , ))* I (x, y)

= L (x, y , k ) − L (x, y, )

[1.16]

Các loại đặc trưng được trích chọn bởi DoG có thể được phân loại tương
tự như đối với toán tử LoG. Ngoài ra, bộ phát hiện vùng DoG tìm kiếm cực trị
không gian tỷ lệ 3D của hàm DoG như trong Hình 1-6. Các nhược điểm

Vũ Lê Minh Hoàng – CT1802
21

Sinh viên: Bùi Thị Bích Phương – QT1805K 25
Ước lượng tập điểm tương đồng giữa hai ảnh dựa trên đối sánh đặc trưng SIFT

chung của cả hai biểu diễn LoG và DoG là cực đại cục bộ có thể được phát
hiện trong các đường bao láng giềng của các cạnh thẳng, nơi tín hiệu chỉ thay
đổi theo một hướng, do đó nó làm cho chúng ít ổn định hơn và nhạy cảm hơn
với nhiễu hoặc những thay đổi nhỏ.

Hình 1-6: Tìm kiếm cực trị không gian tỷ lệ 3D trong hàm DoG
1.3.2.3 Phát hiện sóng Gabor

Gần đây, Yussof và Hitam [7] đã đề xuất phát hiện điểm đặc trưng đa
tỷ lệ dựa trên nguyên tắc của sóng Gabor. Các sóng Gabor được tính toán như
sau:

2

K u +v 2
z 2

K

2

u +v

2 2

iz , Ku ,v

u +v
( z ) =

2
e

e
− e
2

[1.17]

Trong đó K u ,v = K v e
i u ,
z = (x, y), u và v định nghĩa hướng và tỷ lệ của

các sóng Gabor, Kv = Kmax /
f
v và u = u / 8 , Kmax là tần số lớn nhất, và f = 2

là hệ số không gian giữa các nhân trong miền tần số. Phương pháp này được
tính toán bằng cách nhân chập ảnh I với sóng như sau:

G = I *
[1.18]

Ưu điểm của sóng Gabor là chúng cung cấp giải pháp tối ưu đồng thời
trong cả miền tần số và không gian. Ngoài ra, các bộ sóng Gabor có khả năng
tăng cường các đặc trưng cấp thấp như đỉnh, khe và đường gợn. Do đó, chúng
được sử dụng để trích chọn các điểm từ ảnh ở các tỷ lệ khác nhau bằng cách

Vũ Lê Minh Hoàng – CT1802
22

Đánh giá post

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *