Nghiên cứu thử nghiệm hệ thống cảnh báo va chạm cho xe ô tô
NGHIÊN CỨU THỬ NGHIỆM HỆ THỐNG CẢNH BÁO VA CHẠM
CHO XE Ô TÔ
RESEARCH FORWARD COLISION WARNING SYSTEM ON VEHICLES
Lê Hoàng Minh Thuận
Trường đại học Sư phạm Kỹ thuật TP.HCM
TÓM TẮT
Trong những năm gần đây, Deep Learning trở thành một xu hướng trong lĩnh vực chế tạo xe tự
hành với độ chính xác cao, tuy nhiên những sản phẩm trên xe tự hành áp dụng kỹ thuật này có giá
thành rất cao về phần cứng. Do đó, luận văn tập trung xây dựng hệ thống hỗ trợ người lái trên ô
tô sử dụng kỹ thuật Deep Learning có thể triển khai trên phần cứng giá rẻ. Hệ thống sử dụng mạng
MobileNet-SSD để nhận diện và ước lượng khoảng cách của vật thể thu được từ ảnh camera gắn
trên ô-tô, từ đó đưa ra cảnh báo hỗ trợ người lái. Tốc độ xử lý của hệ thống gần đạt ngưỡng thời
gian thực. Kết quả đạt được trong luận văn mở ra cơ hội trong việc chế tạo sản phẩm thương mại
có giá thành rẻ, hướng tới làm chủ công nghệ nhận diện vật thể dùng kỹ thuật Deep Learning tại
Việt Nam.
Từ khóa: Deep Learning; xe tự hành; MobileNet-SSD.
ABSTRACT
In recent years, Deep Learning has become a trend in the field of self-driving cars with high accuracy,
however, modules on cars which are applied this technique have a very high cost of hardware. Hence, the
thesis focuses on building the driver assistance system in cars, the system using Deep Learning technology
and possible to deploy the system on low-cost hardware. The system use MobileNet-SSD for detection and
estimating the distance from objects in traffic to cameras mounted on cars. Results are used to give a
warning to support the driver. The processing speed of the system nearly reaches the real time threshold.
The results obtained in the thesis open up opportunities for manufacturing low-cost commercial products,
aiming to master the technology of object detection using deep learning technique in Vietnam.
Keywords: Deep Learning; self-driving car; MobileNet-SSD.
Network (bao gồm CNN, R-RPN, R-DN kết
hợp) để nhận dạng phương tiện. Tuy có thể
theo dõi thêm nhiều thông tin của phương tiện
như quỹ đạo nhầm nâng cao hiệu suất trong
phát hiện xe đa hướng nhưng thuật toán khá
phức tạp và chi phí cao. Trong “MobileNets:
Efficient Convolutional Neural Networks for
Mobile Vision Applications” [3], nhóm tác
giả đã trình bày một mạng CNN cho mục đích
nhận diện vật thể, ưu điểm của mạng mới là
có thể nhúng trong những thiết bị di động có
cấu hình phần cứng thấp.
1. GIỚI THIỆU
Trong những năm gần đây, với những kết
quả vượt trội mà phương pháp Deep Learning
thể hiện trong việc xử lý tác vụ cụ thể thông
qua lượng dữ liệu được cung cấp, việc nhận
dạng đối tượng trong các hệ thống trợ lái nâng
cao đang nghiêng về xu hướng áp dụng Deep
Learning vào việc rút trích đặc trưng, phân lớp
nhận dạng đối tượng, nhằm tăng độ chính xác
và tốc độ xử lý, cụ thể như “Road Vehicle
Detection and Classification based on Deep
Neural Network” [1] của Zhaojin Zhang thể
hiện sử dụng Deep Neural Network (DNN) có
độ chính xác cao hơn những phương pháp
trước đó, nhưng tốc độ xử lý còn chậm. Trong
“R3-Net: A Deep Network for Multi-oriented
Vehicle Detection in Aerial Images and
Videos” của Qingpeng Li [2], đã sử dụng một
phương pháp mới R3-Net của Neural
Tuy nhiên, những hệ thống áp dụng Deep
Learning trên yêu cầu phần cứng có cấu hình
mạnh và giá thành thương mại cao, khả năng
áp dụng đại trà tại Việt Nam là rất thấp.
Dựa trên thực tế nghiên cứu hiện tại trong
lĩnh vực trợ lái nâng cao, những thông số khả
quan của mạng MobileNets [3], tác giả nhận
Hình 1. Sơ đồ khối quá trình xây dựng hệ thống
định phương pháp Deep Learning sử dụng
mạng MobileNets cho kết quả khả quan trong
việc nhận dạng phương tiện giao thông trên
những thiết bị có cấu hình phần cứng thấp.
Hình 1 thể hiện qua trình xây dựng hệ
thống, bao gồm 2 giai đoạn: giai đoạn huấn
luyện và giai đoạn triển khai.
2. GIAI ĐOẠN HUẤN LUYỆN
2.1 Thu thập dữ liệu và gắn nhãn
Hình 3. Dữ liệu nhận diện mức trung
bình, phương tiện nhận diện ở xa, rõ nét.
Dữ liệu sử dụng cho quá trình huấn luyện
là ảnh được thu thập trên cao tốc qua camera
với độ phân giải 1280x720 pixels. Những đối
tượng cần nhận diện sẽ được gắn nhãn trong
những ảnh này. Tác giả sử dụng phần mềm mã
nguồn mở labelImg cho việc gắn nhãn.
Lượng dữ liệu thu được sau khi gắn nhãn
sẽ được chia làm hai phần: 1036 ảnh dùng cho
việc huấn luyện và 336 ảnh dùng cho việc
kiểm tra. Dữ liệu kiểm tra được chia làm 3 loại
dựa trên độ rõ nét và khoảng cách của đối
tượng nhận diện đến camera.
Hình 4. Dữ liệu nhận diện mức khó,
phương tiện nhận diện ở xa, mờ.
2.2 Huấn luyện mô hình bằng Transfer
Learning
2.2.1 Trích xuất đặc trưng dùng MobileNet
MobileNet [3] là một mô hình được tinh
chỉnh cho mục đích tối ưu tốc độ xử lý. Thành
phần chính của mô hình này là phép tính
Depthwise Separable Convolution.
Depthwise Separable Convolution chia
phép tích chập thông thường thành hai phép
toán. Phép toán đầu tiên tích chập ma trận
kernel với từng feature map của kênh ngõ vào.
Sau đó tích chập với kernel (1x1) nhằm tổng
hợp kết quả của phép toán đầu tiên.
Hình 2. Dữ liệu nhận diện mức dễ,
phương tiện nhận diện ở gần, rõ nét.
Với D, N, K2, H2 lần lượt là số kênh ngõ
vào, số kênh ngõ ra, kích thước kernel, kích
thước feature map. Chi phí tính toán của
Depthwise Separable Convolution so với tích
chập truyền thống giảm theo tỉ lệ như sau:
퐾2 ∗ 퐻2 ∗ 퐷 + 퐷 ∗ 푁 ∗ 퐻2
퐾2 ∗ 퐷 ∗ 푁 ∗ 퐻2
1
1
(1)
=
+
Hình 5. Ví dụ về IoU trong luận văn
퐻 ∗ 푁 퐾2
Area of Overlap
퐼표푈 =
2.2.1 Nhận diện vật thể dùng SSD
(3)
Area of Union
SSD, viết tắt của Single Shot MultiBox
Detector, được diễn giải như sau:
Tiếp theo, cần tối thiểu hóa sai số của
nhãn dự báo tương ứng với mỗi vật thể được
phát hiện trong bounding box mặc định thông
qua confidence loss bằng hàm softmax (4).
Single Shot: việc định vị và phân loại đối
tượng được thực hiện trên 1 phase duy
nhất từ đầu đến cuối.
MultiBox: Tên của kĩ thuật về bounding
box được sử dụng bởi Szegedy [5].
Detector: Mạng này có khả năng nhận
biết và phân loại được đối tượng.
k
ij
ˆk
ˆ0
log(c )
Lconf (x,c)
x log(c )
i
i
(4)
iPos
iNeg
2.3 Cấu trúc mô hình MobileNet-SSD
Ngõ vào của SSD là 1 feature map và các
ground truth boxes thể hiện vị trí thực tế các
vật thể trong suốt quá trình huấn luyện. Trong
quá trình phát hiện vật thể, trên mỗi một
feature map, tiến hành đánh giá các một tập
hợp nhỏ gồm những bounding box mặc định
(tương ứng với các tỉ lệ chiều rộng và chiều
cao đặc thù cho từng loại đối tượng) lên các
feature map có kích cỡ khác nhau. Mỗi
bounding box mặc định có một phân phối xác
suất c = (c1, c2, …, cn) tương ứng với các loại
nhãn C = (C1, C2, …, Cn).
Mô hình MobileNet-SSD của hệ thống
dựa trên quá trình lan truyền thuận của mạng
cơ sở MobileNet, qua đó trích xuất đặc trưng
nhằm tạo ra một feature map chứa các đặc
trưng của ảnh ngõ vào. Kế tiếp tiến thành
thêm các lớp phía sau mạng cơ sở dùng SSD
cho việc nhận dạng đối tượng. Cấu trúc mô
hình MobileNet-SSD thể hiện trong bảng 1:
2.4 Đánh giá mô hình
Mô hình MobileNet-SSD của hệ thống
được đánh giá qua 4 thông số: Precission (5),
Recall (6), Localization loss (2) và
Confidence loss (4).
Trong quá trình huấn luyện, đầu tiên cần
khớp các bounding box mặc định với ground
truth boxes sao cho mức độ sai số vị trí
localization loss là nhỏ nhất bằng hàm
Smooth L1 (2).
2.4.1 Precission and Recall
Mô hình dự đoán sẽ rơi vào 4 trường hợp
sau
N
True possitive (TP): Nếu kết quả từ dự
đoán là có xe và giá trị thực tế cũng là có
xe – Phân loại chính xác.
smooth
1
m
ˆm
L (x, p, g)
xikj L
(pi gj )
(2)
loc
iPos m(x,y,w,h)
True negatives (TN): Xảy ra khi cả kết
quả dự đoán và giá trị thực tế là không có
xe.
False positives (FP): Khi kết quả dự đoán
là có xe trong khi giá trị thực tế là không
có xe – phân loại không chính xác.
False negatives (FN): Khi kết quả dự
đoán là không có xe trong khi giá trị thực
tế là có xe – phân loại không chính xác.
Việc tiến hành khớp bounding box mặc
định với ground truth boxes cần dùng chỉ số
IoU nhằm đo lường tỷ lệ diện tích giao nhau
giữa 2 vùng hình ảnh (Area of overlap) so với
tổng diện tích (không tính phần giao nhau)
(Area of union) của chúng (hình 5). Lấy
ngưỡng IoU là 0.5.
Bảng 1: Cấu trúc mạng MobileNet-SSD của hệ thống:
Lớp / strides
Kích thước Kernel
Kích thước feature map
Conv / s2
Conv dw / s1
Conv / s1
Conv dw / s2
Conv / s1
Conv dw /s1
Conv / s1
Conv dw / s2
Conv / s1
Conv dw /s1
Conv / s1
Conv dw /s1
Conv / s1
3 x 3 x 3 x32
3 x 3 x 32
1 x 1 x 32 x 64
3 x 3 x 64
1 x 1 x64 x 128
3 x 3 x 128
1 x 1 x 128 x 128
3 x 3 x 128
1 x 1 x 128 x 256
3 x 3 x 256
1 x 1 x 256 x 512
3 x 3 x 512
1 x 1 x 512 x 512
3 x 3 x 512
1 x 1 x 512 x 512
3 x 3 x 512 x 1024
1 x 1 x 1024 x 1024
1 x 1 x 1024 x256
3 x 3 x 256 x 512
1 x 1 x 512 x 128
3 x 3 x 128 x 256
1 x 1 x 256 x 128
3 x 3 x 128 x 256
1 x 1 x 256 x 128
3 x 3 x 128 x 256
1 x 1 x 256 x 128
3 x 3 x 128 x 256
300 x 300 x 3
150 x 150 x 32
150 x 150 x 32
150 x 150 x 64
75 x 75 x 64
75 x 75 x 128
75 x 75 x 128
75 x 75 x 128
38 x 38 x 128
38 x 38 x 256
38 x 38 x 256
38 x 38 x 512
38 x 38 x 512
38 x 38 x 512
38 x 38 x 512
38 x 38 x 512
19 x 19 x 1024
19 x 19 x 1024
19 x 19 x 256
10 x 10 x 512
10 x 10 x 128
5 x 5 x 256
5x
Conv dw / s1
Conv / s1
Conv / s2
Conv / s1
Conv / s1
Conv / s2
Conv / s1
Conv / s2
Conv / s1
Conv / s2
Conv / s1
Conv / s1
Conv / s1
Conv / s1
5 x 5 x 128
3 x 3 x 256
3 x 3 x 128
1 x 1 x 256
1 x 1 x 128
(5)
(6)
TP
Precision
Recall
TP FP
TP
TP FN
Sau khi huấn luyện, mô hình có các chỉ
số như sau:
Precision của mô hình đạt 0.9 (hình 6):
kết quả dự đoán các đối tượng có tỉ lệ trùng
khớp với nhãn đối tượng thực tế cao.
Hình 6. Precision của mô hình
Recall của mô hình đạt 0.81 (hình 7): tỉ lệ
bỏ sót các đối tượng là thấp.
camera được thực hiện trên hệ tọa độ ảnh.
Việc chuyển đổi từ hệ tọa độ thực sang hệ tọa
độ ảnh thường bị ảnh hưởng bởi các thông số
camera, bao gồm 4 loại thông số:
Thông số nội camera dùng trong quá
trình chiếu tọa độ vật từ tọa độ thực sang
tọa độ ảnh.
Thông số ngoại camera dùng trong quá
trình dịch tọa độ thực về tọa độ ảnh.
Thông số biến dạng xuyên tâm gây méo
dạng ở rìa ảnh do cấu tạo của thấu kính.
Thông số biến dạng tiếp tuyến gây sai
lệch khoảng cách theo phương ngang do
độ lệch của thấu kính với phương đứng
do quá trình sản xuất.
Hình 7. Precision của mô hình
2.4.2 Localization và Confidence loss
Localization loss của mô hình giảm còn
0.2 (hình 8). Chứng tỏ bounding box được dự
đoán và ground truth box có độ khớp với nhau
lớn (IoU gần đến 1). Mô hình khoanh vùng
đối tượng trên ảnh tốt.
Xử lý biến dạng ảnh là quá trình tìm bộ
thông số camera nhằm loại bỏ biến dạng ảnh
gây ra bởi các thông số này. Phương pháp
được sử dụng là dùng ảnh bàn cờ, tiến hành so
sánh độ lệch giữa tọa độ các điểm bàn cờ trên
tọa độ ảnh so với thực tế. Kết quả bộ thông số
camera thu được qua quá trình này thể hiện
trong bảng 2.
Bảng 2.Thông số camera
fx
115.158
666.167
114.507
386.44
-0.235
cx
fy
Hình 8. Localization loss của mô hình
cy
k1
k2
k3
p1
p2
Classification giảm còn 0.89 (hình 9).
Điều này chứng tỏ sai số khi dự báo nhãn đối
tượng của bounding box thấp. Mô hình có khả
năng phân lớp đối tượng tốt.
-0.079
0.072
-0.0013
0.000082
3.1 Ước lượng khoảng cách
Sau khi xác định được khu vực chứa đối
tượng nhận diện trong ảnh, việc ước lượng
khoảng cách giữa đối tượng và camera được
thực hiện qua qua các phép chiếu trên trục tọa
độ (hình 10). Với W là chiều rộng thực tế của
đối tượng, (xmax – xmin) là chiều rộng của đối
tượng trên ảnh. Khoảng cách D giữa camera
và vật thể theo phương ngang được tính toán
theo công thức (7):
Hình 9. Localization loss của mô hình
3. GIAI ĐOẠN TRIỂN KHAI
3.1 Xử lý biến dạng ảnh
(7)
Tính toán khoảng cách giữa vật thể và
Hình 10. Phép chiếu trên trục OXZ
Sử dụng công thức tính số khung hình
4. KẾT QUẢ THỰC HIỆN
4.1 Nhận diện vật thể
trên giây (FPS) để đánh giá tốc độ xử lý của
hệ thống:
Quá trình kiểm tra được thực hiện trên
cao tốc với camera được gắn vào Asus
P550LD, hệ thống nhận diện phương tiện lưu
thông với chỉ số confidence cao, khoanh vùng
đối tượng tốt và tỉ lệ bỏ sót đối tượng nhận
diện thấp (hình 11).
1
(5)
FPS
time _ start time _ end
Kết quả đo FPS trên Raspberry Pi 3B+ và
Asus P550LD:
Bảng 3.Kết quả đo FPS
Số lần Raspberry Pi 3 B+
Asus P550LD
đo
1
2
3
4
0.72
0.67
0.61
0.64
0.67
24.91
25.01
24.83
25.08
24.84
5
Hệ thống đạt tốc độ thời gian thực trên
Asus P550LD.
Hình 11. Kết quả nhận diện thực tế của hệ
thống
5
KẾT LUẬN
4.2 Ước lượng khoảng cách
Hệ thống được xây dựng có khả năng
nhận diện ô-tô, xe tải và xe máy với độ chính
xác khi phân loại nhãn phương tiện cao. Tỉ lệ
bỏ sót đối tương nhận diện (ô-tô, xe tải và xe
khách) thấp, kết quả ước lượng khoảng cách
cảnh báo va chạm tốt. Tốc độ xử lý của hệ
thống đạt thời gian thực khi chạy mô phỏng
trên thiết bị có cấu hình thấp.
Việc so sánh kết quả ước lượng khoảng
cách thực tế và tính toán khi xe đang chạy là
không khả thi trong trường hợp chỉ sử dụng
camera. Do đó, sử dụng ảnh từ camera cách
đối tượng xe không di chuyển (biết trước
khoảng cách) cho việc so sánh kết quả ước
lượng khoảng cách tính toán so với thực tế.
Kết quả ước lượng khoảng cách thực tế thể
hiện trong bảng 3.
Hệ thống xây dựng trong luận văn chỉ áp
dụng cho đường cao tốc. Chưa áp dụng được
cho môi trường giao thông đô thị phức tạp hơn
lai. Quá trình thử nghiệm sử dụng camera phổ
thông, chất lượng hình ảnh chưa được như
mong muốn. Dẫn đến kết quả sai lệch khi ảnh
bị nhiễu., khoảng cách phát hiện vật thể chính
xác còn giới hạn.
Số lần Khoảng cách thực Khoảng cách ước
đo
tế
lượng
1
5
5
2
3
10
40
10
39
4.3 Tốc độ xử lý
TÀI LIỆU THAM KHẢO
[1] Zhaojin Zhang, Cunlu Xu and Wei Feng, “Road Vehicle Detection and Classification based on
Deep Neural Network”, IEEE, 2016.
[2] Qingpeng Li, Lichao Mou, Qizhi Xu, Yun Zhang and Xiao Xiang Zhu, “R3-Net: A Deep Network
for Multi-oriented Vehicle Detection in Aerial Images and Videos”, IEEE, 2018..
[3] Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias
Weyand, Marco Andreetto, Hartwig Adam, “MobileNets: Efficient Convolutional Neural
Networks for Mobile Vision Applications”, arXiv- Cornell University, 17 Apr 2017.
[4] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang
Fu, Alexander C. Berg, “SSD: Single Shot MultiBox Detector”, arXiv- Cornell University, 29
December 2016.
[5] Christian Szegedy, Scott Reed, Dumitru Erhan, Dragomir Anguelov, Sergey Ioffe,
“Scalable, High-Quality Object Detection”, arXiv- Cornell University, 9 December 2015.
Tác giả chịu trách nhiệm bài viết:
Họ tên: Lê Hoàng Minh Thuận
Đơn vị: Trường đại học Sư phạm Kỹ thuật TP.HCM
Điện thoại: 0964147677
Email: thuanlhm@gmail.com
Xác nhận của giảng viên hướng dẫn
(Ký & ghi rõ họ tên)
BÀI BÁO KHOA HỌC
THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ
Bài báo khoa học của học viên
có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn
Bản tiếng Việt ©, TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH và TÁC GIẢ
Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam.
Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý
của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh.
ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN!
Thực hiện theo MTCL & KHTHMTCL Năm học 2019-2020 của Thư viện Trường Đại học
Sư phạm Kỹ thuật Tp. Hồ Chí Minh.
Bạn đang xem tài liệu "Nghiên cứu thử nghiệm hệ thống cảnh báo va chạm cho xe ô tô", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
File đính kèm:
- nghien_cuu_thu_nghiem_he_thong_canh_bao_va_cham_cho_xe_o_to.pdf