ĐẠI HỌC HUẾ
ĐẠI HỌC KHOA HỌC
TIỂU LUẬN MÔN HỌC
LÝ THUYẾT NHẬN DẠNG
Đề tài: Nhận dạng đối tượng trên hình ảnh
Giáo viên HD: TS. Nguyễn Đăng Bình
HV thực hiện: Nguyễn Mạnh Cường
Lớp Cao học Khoa học Máy tính 2009-2011
Huế, 08/2010
MỤC LỤC
2
LỜI NÓI ĐẦU
Do những hạn chế về kiến thức môn học, Anh văn, trong tiểu luận “Nhận dạng đối
tượng trên hình ảnh” được tổng hợp từ hai bài báo: Exploring Features in a Bayesian
Framework for Material Recognition; Face Recognition with Learning-based Descriptor
không thể giới thiệu tất cả các kết quả đã nghiên cứu ở trên mà chỉ giới thiệu nội dung cơ
bản sau:
Cấu trúc tiểu luận như sau:
Phần 1: Tóm tắt
Phần 2: Giới thiệu lại vài khái niệm cơ bản cần trong bài báo, các thể hiện tổng thể
tối thiểu của nhận dạng hình ảnh, hoặc các phương pháp nhận dạng mới với kết quả qua
một số thực nghiệm cụ thể.
Phần 3: Trình bày một số kết luận dựa trên các kết quả thực nghiệm.
Tôi xin chân thành cảm ơn TS Nguyễn Đăng Bình đã giảng dạy và hướng dẫn tận
tình khi phụ trách môn học Lý thuyết nhận dạng. Dù đã cố gắng nhưng kiến thức có hạn
tiểu luận không thể tránh khỏi những sai sót, tôi mong nhận được ý kiến đóng góp của
Thầy và các anh chị học viên lớp cao học Khoa học Máy tính khóa 2009 để tôi có thể hoàn
chỉnh tiểu luận này, đồng thời định hướng nghiên cứu tiếp trong tương lai.
Học viên
Nguyễn Mạnh Cường
3
NỘI DUNG
Tóm tắt
Vấn đề nhận dạng hình ảnh con người hay hình ảnh các loại vật liệu, ví dụ: thủy
tinh, kim loại, vải, nhựa hay gỗ, từ một hình ảnh một chiều. Không giống như các nhiệm
vụ nhận dạng ở tầm nhìn máy tính, rất khó để tìm kiếm tốt, các tính năng đáng tin cậy mà
có thể cho biết loại vật chất. Đã có nhiều phương pháp được giới thiệu như chiến lược sử
dụng một bộ giàu thấp và mức trung bình tính năng nghi nhận khía cạnh khác nhau của vật
chất xuất hiện, mô hình Latent Dirichlet Allocation (aLDA) kết hợp các tính năng này theo
khuôn dạng Bayesian và tìm hiểu một sự kết hợp tối ưu các tính năng, phương pháp tiếp
cận của chúng tôi mã hóa các-cấu trúc vi mô của đối tượng theo phương pháp mã hóa mới.
Không giống như trước đây được thiết kế thủ công các phương pháp mã hóa (ví dụ, LBP
hoặc SIFT), chúng tôi sử dụng kỹ thuật học không có giám sát để tìm hiểu một bộ mã hóa
từ các ví dụ huấn luyện, tự động có thể đạt được sự cân bằng rất tốt giữa phân biệt và bất
biến phân biê
̣
t. Sau đó, chúng tôi áp dụng PCA để có được một mô tả đối tượng nhỏ gọn.
Kết quả thử nghiệm cho thấy hệ thống mới thực hiện sự nhận dạng vật chất khá tốt trên
một cơ sở dữ liệu vật liệu mẫu.
1. Giới thiệu
Nhận dạng chất liệu là một khía cạnh quan trọng của nhận dạng. Phải tương tác với
nhiều loại vật liệu cơ bản và liên tục đánh giá sự xuất hiện của chúng trong hình ảnh. Ví
dụ, khi tiếp xúc một hình ảnh hoặc chất lượng vật liệu ảnh hưởng quyết định cuối cùng. Vì
vậy, rất có giá trị để xây dựng một hệ thống nhận dạng hình ảnh có thể suy ra tính chất vật
liệu từ hình ảnh.
Vấn đề nhận dạng các tài liệu từ các bức ảnh đã được giải quyết chủ yếu là trong
bối cảnh dự toán phản xạ. Sự xuất hiện hình ảnh của một bề mặt phụ thuộc vào nhiều yếu
tố - những điều kiện chiếu sáng, cấu trúc hình học của các mẫu bề mặt tại một số quy mô
không gian, và các tính chất phản xạ bề mặt, thường đặc trưng bởi chức năng phân phối
hai hướng phản xạ (BRDF) [24] và các biến thể của nó [9, 16, 26]. Một số kỹ thuật đã
được phát triển mà có thể ước tính các thông số của một mô hình BRDF từ một bộ ảnh,
theo giả định hạn chế của ánh sáng, hình học và các thuộc tính vật chất [10, 11]. Chẳng
hạn, nhận dạng khuôn mặt đã thu hút nhiều nỗ lực nghiên cứu [1, 3, 4, 5, 6, 8, 12, 13, 14,
4
15] do sự tiến bộ của kí hiệu nhận dạng cục bộ [17, 21, 23, 25, 27, 29, 31, 32] và nhu cầu
ngày càng cao của thực tế ứng dụng, chẳng hạn như mặt gắn thẻ vào máy tính để bàn [33]
hay các Internet
1
.
Ở đây, tập trung vào nhận dạng mức cao hình ảnh loại vật liệu: như con người, thủy
tinh, kim loại, vải, nhựa hoặc gỗ. Các tính chất phản xạ của vật liệu thường được tương
quan với thể loại cao cấp của nó (ví dụ như thủy tinh thường là mờ và gỗ thường có màu
nâu), và trong công việc này, sẽ khai thác những đặc tính tương quan. Tuy nhiên, điều
quan trọng là chỉ ra rằng chỉ biết các tính chất phản xạ của một bề mặt không đủ để xác
định loại vật liệu. Ví dụ, một thực tế là một bề mặt mờ là không cho biết nếu nó được làm
bằng nhựa, sáp hoặc thủy tinh.
Hình 1a: Hình ảnh vật liệu cần nhận dạng
5
Hình 1b: Hình ảnh khuôn mặt con người cần nhân dạng
2. Một số phương pháp nhận dạng
Những yêu cầu này đưa đến một vấn đề đầy thử thách. Hiện nay, phương pháp tiếp
cận dựa trên mô tả [5, 13, 34] đã được chứng minh là xác định điểm đại diện trên hình ảnh
là hiệu quả với nhất hiệu suất tốt nhất [35, 36, 37]. Ahonen et al. [38] đề xuất sử dụng các
biểu đồ mẫu nhị phân cục bộ (LBP) [23] để mô tả vi điểm cấu trúc của hình ảnh. LBP mã
hóa mức độ cường độ tương đối giữa mỗi pixel và điểm ảnh lân cận. Nó là bất biến để
thay đổi thuô
̣
c về trắc quang đơn điệu và có thể được chiết xuất có hiệu quả. Kể từ khi
LBP là mã hóa bởi một thiết kế thủ công, nhiều LBP tương tự [34, 14, 40] đã được đề xuất
để cải thiện LBP gốc. SIFT [21] hay Histogram của Gradient (HOG) [17] là các loại kí
hiệu nhận dạng hiệu quả bằng cách sử dụng mã hóa thủ công. Các yếu tố nguyên tử trong
các kí hiệu nhận dạng có thể được xem như là mã lượng tử của các gradients hình ảnh. Về
cơ bản, phương pháp mã hóa khác nhau và miêu tả phải cân.
Tuy nhiên, các phương pháp mã hóa bị hai nhược điểm. Một mặt, phương pháp mã
hóa tối ưu là rất khó khăn. Thông thường, sử dụng nhiều điểm ảnh theo ngữ cảnh (kích
thước vector) có thể tạo ra một mã số phân biê
̣
t hơn. Nhưng nó không dễ để tự thiết kế một
phương pháp mã hóa và xác định kích thước để đạt được sự cân bằng codebook hợp lý
giữa nhận diện đúng và tính thô trong một không gian vào lớn. Một số mã hiếm khi có thể
xuất hiện trong hình ảnh khuôn mặt thực tế. Nó có nghĩa là các biểu đồ mã kết quả sẽ được
ít hơn và ít thông tin, làm giảm khả năng mô tả biệt thức.
Nhận dạng loại vật liệu cao cấp trong các hình ảnh khác với các vấn đề cũng như
các đối tượng nghiên cứu của nhận dạng. Mặc dù đôi khi được nhận dạng đối tượng tiên
6
đoán của thể loại vật chất, một lớp các đối tượng có thể được làm bằng vật liệu khác nhau
(xem hình 2) và các lớp khác nhau của các đối tượng có thể được làm bằng chất liệu tương
tự (xem hình 1). Vì vậy, nhiều tiến bộ gần đây trong nhận dạng đối tượng như hình dạng
ngữ cảnh [2], phát hiện đối tượng [7] và chuyển giao nhãn [19] có thể không được áp dụng
để nhận dạng tài liệu. Trong thực tế, hầu hết các đối tượng hệ thống nhận dạng dựa vào vật
chất bất biến tính năng và có xu hướng bỏ qua các thông tin vật liệu hoàn toàn.
Hình 2: Những màu sắc khác nhau cho thấy các kết cấu/loại vật liệu.
Chất liệu nhận dạng là liên quan chặt chẽ, nhưng khác nhau từ, nhận dạng kết cấu.
Kết cấu đã được định nghĩa trong thành phần kích thước giống như chu kỳ, orientedness,
và ngẫu nhiên [20]. Nó có thể là một thành phần quan trọng của sự xuất hiện vật chất, ví
dụ: gỗ có xu hướng có kết cấu khác biệt với những kim loại đánh bóng. Tuy nhiên, như
minh họa trong hình 3, bề mặt làm bằng chất liệu khác nhau có thể chia sẻ các mẫu kết cấu
giống nhau và như là một hậu quả, cơ chế thiết kế cho nhận dạng kết cấu [18, 30] có thể
không được lý tưởng cho sự công nhận vật chất.
Chất liệu nhận dạng cũng khác nhau từ BRDF dự toán. Sự xuất hiện hình ảnh của
các vật liệu như gỗ hoặc da, đã được làm mẫu về chức năng phân phối hai hướng phản xạ
(BRDF) [10, 22] và đại diện liên quan như BTF [9] và BSSRDF [16]. Chất liệu nhận dạng
có thể có vẻ tầm thường nếu BRDF được biết đến, nhưng nói chung, nó gần như không thể
ước tính BRDF từ một hình ảnh duy nhất mà không cần đơn giản hóa các giả định [10,
11].
4. Một số kết quả thực nghiệm
7
4.1. Kết quả trên điểm chuẩn LFW
Chúng tôi trình bày kết quả công nhận của chúng tôi trên LFW ở dạng đường cong
ROC. Hình 3 cho thấy kết quả so sánh các đề xuất của chúng tôi. Trong hình 3, "đơn LE +
toàn diện" có nghĩa là chúng tôi chỉ sử dụng duy nhất LE tốt nhất để đại diện cho bộ mặt
tổng thể, và nó là cơ sở để cho thấy sức mạnh của LE mà không có các kỹ thuật khác.
"Single LE + comp" chỉ áp dụng mức thành phần, pose-thích ứng với đường cơ sở duy
nhất LE. Nhiều kí hiệu nhận diện LE được kết hợp để tạo thành "đa LE + toàn diện". Và
"đa LE + comp" là biểu diễn của chúng tôi tốt nhất. Các độ chính xác cho các bốn phương
pháp được 81,22% ± 0,53%, 82,72% ± 0,43%, 83,43% ± 0,55% và 84,45% ± 0,46%. Mặc
dù khả năng biệt thức mạnh mẽ của LE mô tả chính nó, kết hợp các tư thế, thích nghi và
kết hợp nhiều mô tả nâng cao hơn nữa hiệu quả hoạt động công nhận hệ thống của chúng
tôi.
Hình 3: Chứng minh tác dụng của kỹ thuật điểm chuẩn LFW.
8
Hình 4: Mặt so sánh kết quả nhận dạng trên tiêu chuẩn LFW.
Đường cong ROC tốt nhất của chúng tôi là so sánh với kết quả trước của các
phương pháp state-of-the-art, như trong hình 4. Trên tiêu chuẩn LFW, hai thuật toán mới
cho thấy hiệu suất hàng đầu. Wolf et al. 'S làm việc [31] thông qua nền tảng học bằng cách
sử dụng các thông tin nhận dạng trong đào tạo các thiết lập. Kumar et al. [13] đã sử dụng
để đào tạo học có giám sát phân loại cao cấp thông qua một khối lượng lớn các hình ảnh
đào tạo bên ngoài của các tập dữ liệu LFW. Hai phương pháp [13, 31] đều sử dụng thông
tin bổ sung bên ngoài giao thức thử nghiệm LFW. Vì vậy, so sánh với các phương pháp
khác (bao gồm cả chúng ta) trong hình 4 là không thực sự công bằng. đào tạo bổ sung dữ
liệu hoặc thông tin cũng có thể cải thiện cách tiếp cận khác. Hệ thống của chúng tôi đạt
được tốt nhất giao thức thử nghiệm tiêu chuẩn [12]. Quan trọng hơn, công việc của chúng
tôi tập trung vào khuôn mặt đại diện cấp thấp, mà có thể dễ dàng kết hợp với các thuật
toán trước đó để tạo ra hiệu suất tốt hơn.
9
Bảng 1: Hiệu suất nhận dạng trên các số liệu Multi-PIE.
4.2 Kết quả trên Flickr Materials Database
Chúng tôi sử dụng các vật liệu Flickr Materials Database [28] cho tất cả các thí
nghiệm được mô tả trong bài báo này. Có mười loại vật liệu trong cơ sở dữ liệu: vải, lá,
thủy tinh, da, kim loại, giấy, nhựa, đá, nước và gỗ. Mỗi thể loại có chứa 100 hình ảnh, 50
trong số đó là quan điểm cận và phần còn lại 50 là quan điểm ở quy mô-đối tượng (xem
hình 1a). Với nhãn đôi, human-labeled kết hợp với mỗi hình ảnh mô tả vị trí của đối
tượng. Chúng tôi chỉ xem xét điểm ảnh bên trong mặt nạ này nhị phân để công nhận tài
liệu và bỏ qua tất cả các điểm ảnh nền. Đối với mỗi thể loại, chúng tôi đã chọn ngẫu nhiên
50 hình ảnh cho việc huấn luyện và 50 hình ảnh cho thử nghiệm. Tất cả các kết quả thực
nghiệm được báo cáo trong bài báo này được dựa trên cùng một phân tách huấn luyện và
thử nghiệm.
Tâm tính toán chi phí, chúng tôi lấy mẫu màu, jet, sàng lọc, micro-jet và các tính năng
micromicro-sift trên một lưới thô (thứ tự 5 pixel trong cả hai hướng ngang và dọc). Một
khi các tính năng được chiết xuất, bằng cách sử dụng cụm K-means theo số lượng các cụm
trong Bảng 2. Chúng tôi xác định số lượng các cụm cho từng tính năng, xem xét cả đa
chiều và số lượng các trường hợp cho mỗi tính năng.
10
Bảng 2: Kích thước, số lượng các cụm và số trung bình tính năng cho mỗi hình ảnh
Sự gia tăng về hiệu suất từ những tính năng tốt nhất đơn (SIFT, 35.4%) để tính
năng tốt nhất. Thiết lập (màu + SIFT + cạnh-slice, 44.6%) là do mô hình của chúng tôi
rằng gia tăng aLDA từ thị giác Thật thú vị, gia tăng thêm nhiều tính năng làm giảm hiệu
suất tổng thể. Khi chúng tôi sử dụng tất cả các tính năng, tỷ lệ kiểm tra là 38.8%. Thấp hơn
bằng cách sử dụng các tính năng ít hơn. Thực tế là SIFT là tính năng duy nhất hoạt động
tốt nhất cho thấy tầm quan trọng của kết cấu trong nhận dạng vật chất. Ngoài ra, Sift cũng
gói gọn một số thông tin bắt micro-sift. Cạnh-slice, mà các biện pháp tính năng phản xạ,
cũng là hữu ích.
Để so sánh, chúng tôi thực hiện và thử nghiệm thuật toán (VZ) VarmaZisserman
của [30] trên Flickr Materials Database. Các thuật toán VZ cụm 5x5 pixel màu xám quy
mô bản vá lỗi là từ mã, có được một biểu đồ các từ mã cho mỗi hình ảnh, và thực hiện
nhận dạng bằng cách sử dụng một phân loại hàng xóm gần nhất. Theo một kiểm tra đúng
đắn, chúng tôi chạy thực hiện VZ trên cơ sở dữ liệu CURET và thu được 96.1% (số của họ
là 95%~98%, [30]). Tiếp theo, chúng tôi chạy hệ thống VZ chính xác được thử nghiệm
trên CURET trên Flickr Materials Database. Tốc độ thử nghiệm VZ là 23.8%. Điều này hỗ
trợ các kết luận rằng Flickr Materials Database là khó khăn hơn nhiều so với cơ sở dữ liệu
kết cấu CURET.
Sự rắc rối trong hệ thống ma trận của chúng tôi (màu + SIFT + cạnh-slice, kiểm tra
tỷ lệ 44.6%). Nói với chúng ta như thế nào thường xuyên mỗi thể loại là phân lớp lỗi là
khác. Ví dụ, vải thường phân lớp lỗi như đá, da phân lớp lỗi như vải, nhựa phân lớp lỗi
như giấy. Các loại kim loại có nhiều khả năng được phân loại như kính hơn so với chính
11
nó. Một Các kết quả này không đáng ngạc nhiên vì có một số điểm chung giữa da và vải,
nhựa và giấy, cũng như kim loại và kính.
4.3 Kết quả trên PIE-Multi
Chúng tôi cũng thực hiện thí nghiệm rộng rãi trên tập Multi-PIE để xác minh khả
năng tổng quát của phương pháp tiếp cận của chúng tôi. Các số liệu Multi-PIE chứa hình
ảnh khuôn mặt từ 337 đối tượng, chụp ảnh dưới 15 điểm xem và 19 điều kiện chiếu sáng.
Sự khác biệt lớn tồn tại giữa LFW và Multi-PIE, xem xét các điều kiện đặt ra, không đúng
chiếu sáng, và độ phân giải. Hơn thế nữa, Multi-PIE được thu thập theo một thiết lập kiểm
soát có hệ thống mô phỏng những ảnh hưởng của tư thế, chiếu sáng, và biểu hiện. Mặt
khác, LFW là hơn gần các thiết lập cuộc sống thực của nó từ khuôn mặt được lựa chọn từ
các hình ảnh tin tức. Đối với những lý do này, đào tạo trên một tập dữ liệu và thử nghiệm
trên các khác tốt hơn có thể chứng tỏ khả năng tổng quát của một hệ thống công nhận.
Tương tự như điểm chuẩn LFW, chúng tôi ngẫu nhiên tạo ra 10 tập con của hình
ảnh khuôn mặt với Multi-PIE, từng có 300 trong nội bộ cá nhân và 300 cặp ngoại hình cá
nhân. Nhận dạng của đối tượng loại trừ lẫn nhau giữa các tập con 10, và qua xác nhận chế
độ tương tự như LFW được áp dụng. Mặc định “đơn LE” mô tả và “LE nhiều” descriptor
được đào tạo trên LFWbenchmark được thông qua trong các thí nghiệm. Như thể hiện
trong Bảng 1, các LE với đại diện duy nhất phải đối mặt toàn diện nhanh hơn so với các
descriptor thường được sử dụng nhiều hơn 5 điểm, và phân loại cụ thể đặt ra-đào tạo trên
dataset LFW cũng performwell trên dataset theMulti-PIE Tất cả các kết quả này chứng
minh khả năng khái quát tuyệt vời của chúng tôi hệ thống.
12
TÀI LIỆU THAM KHẢO
[1] M. Guillaumin, J. Verbeek, C. Schmid, I. LEAR, and L. Kuntzmann. Is that you?
Metric learning approaches for face identification. In Proc. ICCV, 2009.
[2] S. Belongie, J. Malik, and J. Puzicha. Shape matching and object recognition using
shape contexts. TPAMI, 24(4):509–522, 2002.
[3] X. Wang and X. Tang. A unified framework for subspace face recognition. IEEE
Transactions on pattern analysis and machine intelligence, 26(9):1222–1228, 2004.
[4] X. Wang and X. Tang. Random sampling for subspace face recognition. International
Journal of Computer Vision, 70(1):91–104, 2006.
[5] G. Hua and A. Akbarzadeh. A robust elastic and partial matching metric for face
recognition. In Proc. ICCV, 2009.
[6] P. Hua, G. Viola and S. Drucker. Face recognition using discriminatively trained
orthogonal rank one tensor projections. In Proc. CVPR, 2007.
[7] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In
CVPR, volume 2, pages 886–893, 2005.
[8] N. Kumar, A. Berg, P. Belhumeur, and S. Nayar. Attribute and Simile classifiers for
face verification. In Proc. ICCV, 2009.
[9] K. J. Dana, B. Van-Ginneken, S. K. Nayar, and J. J. Koenderink. Reflectance and
texture of real world surfaces. ACM Transactions on Graphics, 18(1):1–34, 1999.
[10] P. Debevec, T. Hawkins, C. Tchou, H. P. Duiker, W. Sarokin, and M. Sagar.
Acquiring the reflectance field of a human face. In ACM SIGGRAPH, pages 145–156,
2000.
[11] R. Dror, E. H. Adelson, and A. S. Willsky. Recognition of surface reflectance
properties from a single image under unknown real-world illumination. In IEEE Workshop
on identifying objects across variation in lighting, 2001.
[12] N. Pinto, J. DiCarlo, and D. Cox. How far can you get with a modern face recognition
test set using only simple features. In Proc. CVPR, 2009.
[13] Y. Taigman, L. Wolf, T. Hassner, and I. Tel-Aviv. Multiple One-Shots for utilizing
class label information. In BMVC, 2009.
[14] L.Wolf, T. Hassner, and Y. Taigman. Descriptor based methods in the wild. In Faces
in Real-Life Images Workshop in ECCV, 2008.
[15] L. Zhang, R. Chu, S. Xiang, S. Liao, and S. Li. Face detection based on multi-block
lbp representation. Lecture Notes in Computer Science, 4642:11, 2007.
[16] H. W. Jensen, S. Marschner, M. Levoy, and P. Hanrahan. Apractical model for
subsurface light transport. In ACM SIG-GRAPH, pages 511–518.
[17] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Proc.
CVPR, 2005.
[18] T. Leung and J. Malik. Representing and recognizing the visual appearance of
materials using three-dimensional textons. IJCV, 43(1):29–44.
[19] C. Liu, J. Yuen, and A. Torralba. Nonparametric scene parsing: Label transfer via
dense scene alignment. In CVPR, 2009.
[20] F. Liu and W. Picard. Periodicity, directionality and randomness: Wold features for
image modeling and retrieval. TPAMI, 18:722–733.
[21] D. Lowe. Distinctive image features from scale-invariant keypoints. International
Journal of Computer Vision, 60(2):91–110, 2004.
13
Không có nhận xét nào:
Đăng nhận xét