Nghiên cứu thử nghiệm hệ thống cảnh báo va chạm cho xe ô tô

NGHIÊN CU THNGHIM HTHNG CNH BÁO VA CHM  
CHO XE Ô TÔ  
RESEARCH FORWARD COLISION WARNING SYSTEM ON VEHICLES  
Lê Hoàng Minh Thun  
Trường đại học Sư phạm Kthut TP.HCM  
TÓM TT  
Trong những năm gần đây, Deep Learning trở thành mt xu hướng trong lĩnh vc chế to xe tự  
hành với độ chính xác cao, tuy nhiên nhng sn phm trên xe thành áp dng kthut này có giá  
thành rt cao vphn cng. Do đó, luận văn tập trung xây dng hthng htrngười lái trên ô  
tô sdng kthut Deep Learning có thtrin khai trên phn cng giá r. Hthng sdng mng  
MobileNet-SSD để nhn diện và ước lượng khong cách ca vt thể thu được từ ảnh camera gn  
trên ô-tô, từ đó đưa ra cnh báo htrngười lái. Tốc độ xlý ca hthng gần đạt ngưỡng thi  
gian thc. Kết quả đạt được trong luận văn mở ra cơ hi trong vic chế to sn phm thương mi  
có giá thành r, hướng ti làm chcông nghnhn din vt thdùng kthut Deep Learning ti  
Vit Nam.  
Tkhóa: Deep Learning; xe thành; MobileNet-SSD.  
ABSTRACT  
In recent years, Deep Learning has become a trend in the field of self-driving cars with high accuracy,  
however, modules on cars which are applied this technique have a very high cost of hardware. Hence, the  
thesis focuses on building the driver assistance system in cars, the system using Deep Learning technology  
and possible to deploy the system on low-cost hardware. The system use MobileNet-SSD for detection and  
estimating the distance from objects in traffic to cameras mounted on cars. Results are used to give a  
warning to support the driver. The processing speed of the system nearly reaches the real time threshold.  
The results obtained in the thesis open up opportunities for manufacturing low-cost commercial products,  
aiming to master the technology of object detection using deep learning technique in Vietnam.  
Keywords: Deep Learning; self-driving car; MobileNet-SSD.  
Network (bao gm CNN, R-RPN, R-DN kết  
hợp) để nhn dng phương tin. Tuy có thể  
theo dõi thêm nhiu thông tin ca phương tin  
như quỹ đạo nhm nâng cao hiu sut trong  
phát hiện xe đa hướng nhưng thut toán khá  
phc tp và chi phí cao. Trong “MobileNets:  
Efficient Convolutional Neural Networks for  
Mobile Vision Applications” [3], nhóm tác  
giả đã trình bày một mng CNN cho mục đích  
nhn din vt th, ưu điểm ca mng mi là  
có thnhúng trong nhng thiết bị di động có  
cu hình phn cng thp.  
1. GII THIU  
Trong những năm gần đây, với nhng kết  
quvượt tri mà phương pháp Deep Learning  
thhin trong vic xlý tác vcththông  
qua lượng dliệu được cung cp, vic nhn  
dạng đối tượng trong các hthng trlái nâng  
cao đang nghiêng vxu hướng áp dng Deep  
Learning vào việc rút trích đặc trưng, phân lp  
nhn dạng đối tượng, nhằm tăng độ chính xác  
và tốc độ xlý, cthể như “Road Vehicle  
Detection and Classification based on Deep  
Neural Network” [1] của Zhaojin Zhang thể  
hin sdng Deep Neural Network (DNN) có  
độ chính xác cao hơn nhng phương pháp  
trước đó, nhưng tốc độ xlý còn chm. Trong  
“R3-Net: A Deep Network for Multi-oriented  
Vehicle Detection in Aerial Images and  
Videos” của Qingpeng Li [2], đã sử dng mt  
phương pháp mi R3-Net ca Neural  
Tuy nhiên, nhng hthng áp dng Deep  
Learning trên yêu cu phn cng có cu hình  
mnh và giá thành thương mi cao, khả năng  
áp dụng đại trà ti Vit Nam là rt thp.  
Da trên thc tế nghiên cu hin ti trong  
lĩnh vực trlái nâng cao, nhng thông skhả  
quan ca mng MobileNets [3], tác ginhn  
Hình 1. Sơ đồ khi quá trình xây dng hthng  
định phương pháp Deep Learning sdng  
mng MobileNets cho kết qukhquan trong  
vic nhn dng phương tin giao thông trên  
nhng thiết bcó cu hình phn cng thp.  
Hình 1 thhin qua trình xây dng hệ  
thng, bao gồm 2 giai đoạn: giai đoạn hun  
luyện và giai đoạn trin khai.  
2. GIAI ĐOẠN HUN LUYN  
2.1 Thu thp dliu và gn nhãn  
Hình 3. Dliu nhn din mc trung  
bình, phương tiện nhn din xa, rõ nét.  
Dliu sdng cho quá trình hun luyn  
nh được thu thp trên cao tc qua camera  
với độ phân gii 1280x720 pixels. Những đối  
tượng cn nhn din sẽ được gn nhãn trong  
nhng nh này. Tác gisdng phn mm mã  
ngun mlabelImg cho vic gn nhãn.  
Lượng dliệu thu được sau khi gn nhãn  
sẽ được chia làm hai phn: 1036 nh dùng cho  
vic hun luyn và 336 nh dùng cho vic  
kim tra. Dliu kim tra được chia làm 3 loi  
dựa trên độ rõ nét và khong cách của đối  
tượng nhn diện đến camera.  
Hình 4. Dliu nhn din mc khó,  
phương tiện nhn din xa, m.  
2.2 Hun luyn mô hình bng Transfer  
Learning  
2.2.1 Trích xuất đặc trưng dùng MobileNet  
MobileNet [3] là mt mô hình được tinh  
chnh cho mục đích tối ưu tốc độ xlý. Thành  
phn chính ca mô hình này là phép tính  
Depthwise Separable Convolution.  
Depthwise Separable Convolution chia  
phép tích chập thông thường thành hai phép  
toán. Phép toán đầu tiên tích chp ma trn  
kernel vi tng feature map ca kênh ngõ vào.  
Sau đó tích chập vi kernel (1x1) nhm tng  
hp kết qucủa phép toán đầu tiên.  
Hình 2. Dliu nhn din mc d,  
phương tiện nhn din gn, rõ nét.  
Vi D, N, K2, H2 lần lượt là skênh ngõ  
vào, skênh ngõ ra, kích thước kernel, kích  
thước feature map. Chi phí tính toán ca  
Depthwise Separable Convolution so vi tích  
chp truyn thng gim theo tlệ như sau:  
2 ∗ 퐻2 ∗ 퐷 + 퐷 ∗ 푁 ∗ 퐻2  
2 ∗ 퐷 ∗ 푁 ∗ 퐻2  
1
1
(1)  
=
+
Hình 5. Ví dvIoU trong luận văn  
퐻 ∗ 푁 2  
Area of Overlap  
퐼표푈 =  
2.2.1 Nhn din vt thdùng SSD  
(3)  
Area of Union  
SSD, viết tt ca Single Shot MultiBox  
Detector, được din giải như sau:  
Tiếp theo, cn ti thiu hóa sai sca  
nhãn dbáo tương ng vi mi vt thể được  
phát hin trong bounding box mặc định thông  
qua confidence loss bng hàm softmax (4).  
Single Shot: việc định vị và phân loại đối  
tượng được thực hiện trên 1 phase duy  
nhất từ đầu đến cuối.  
MultiBox: Tên của kĩ thuật về bounding  
box được sử dụng bởi Szegedy [5].  
Detector: Mạng này có khả năng nhận  
biết và phân loại được đối tượng.  
k
ij  
ˆk  
ˆ0  
log(c )  
Lconf (x,c)    
x log(c )   
i
i
(4)  
iPos  
iNeg  
2.3 Cu trúc mô hình MobileNet-SSD  
Ngõ vào ca SSD là 1 feature map và các  
ground truth boxes thhin vtrí thc tế các  
vt thtrong sut quá trình hun luyn. Trong  
quá trình phát hin vt th, trên mi mt  
feature map, tiến hành đánh giá các một tp  
hp nhgm nhng bounding box mặc định  
(tương ng vi các tlchiu rng và chiu  
cao đặc thù cho tng loại đối tượng) lên các  
feature map có kích ckhác nhau. Mi  
bounding box mặc định có mt phân phi xác  
sut c = (c1, c2, …, cn) tương ng vi các loi  
nhãn C = (C1, C2, …, Cn).  
Mô hình MobileNet-SSD ca hthng  
da trên quá trình lan truyn thun ca mng  
cơ sở MobileNet, qua đó trích xuất đặc trưng  
nhm to ra mt feature map chứa các đặc  
trưng của nh ngõ vào. Kế tiếp tiến thành  
thêm các lp phía sau mạng cơ sở dùng SSD  
cho vic nhn dạng đối tượng. Cu trúc mô  
hình MobileNet-SSD thhin trong bng 1:  
2.4 Đánh giá mô hình  
Mô hình MobileNet-SSD ca hthng  
được đánh giá qua 4 thông số: Precission (5),  
Recall (6), Localization loss (2) và  
Confidence loss (4).  
Trong quá trình hun luyện, đầu tiên cn  
khp các bounding box mặc định vi ground  
truth boxes sao cho mức độ sai svtrí  
localization loss là nhnht bng hàm  
Smooth L1 (2).  
2.4.1 Precission and Recall  
Mô hình dự đoán sẽ rơi vào 4 trường hp  
sau  
N
True possitive (TP): Nếu kết qutdự  
đoán là có xe và giá trị thc tế cũng là có  
xe Phân loi chính xác.  
smooth  
1
m
ˆm  
L (x, p, g)   
xikj L  
(pi gj )  
(2)  
   
loc  
iPos m(x,y,w,h)  
True negatives (TN): Xy ra khi ckết  
qudự đoán và giá trị thc tế là không có  
xe.  
False positives (FP): Khi kết qudự đoán  
là có xe trong khi giá trthc tế là không  
có xe phân loi không chính xác.  
False negatives (FN): Khi kết qudự  
đoán là không có xe trong khi giá trị thc  
tế là có xe phân loi không chính xác.  
Vic tiến hành khp bounding box mc  
định vi ground truth boxes cn dùng chsố  
IoU nhằm đo lường tldin tích giao nhau  
gia 2 vùng hình nh (Area of overlap) so vi  
tng din tích (không tính phn giao nhau)  
(Area of union) ca chúng (hình 5). Ly  
ngưỡng IoU là 0.5.  
Bng 1: Cu trúc mng MobileNet-SSD ca hthng:  
Lp / strides  
Kích thước Kernel  
Kích thước feature map  
Conv / s2  
Conv dw / s1  
Conv / s1  
Conv dw / s2  
Conv / s1  
Conv dw /s1  
Conv / s1  
Conv dw / s2  
Conv / s1  
Conv dw /s1  
Conv / s1  
Conv dw /s1  
Conv / s1  
3 x 3 x 3 x32  
3 x 3 x 32  
1 x 1 x 32 x 64  
3 x 3 x 64  
1 x 1 x64 x 128  
3 x 3 x 128  
1 x 1 x 128 x 128  
3 x 3 x 128  
1 x 1 x 128 x 256  
3 x 3 x 256  
1 x 1 x 256 x 512  
3 x 3 x 512  
1 x 1 x 512 x 512  
3 x 3 x 512  
1 x 1 x 512 x 512  
3 x 3 x 512 x 1024  
1 x 1 x 1024 x 1024  
1 x 1 x 1024 x256  
3 x 3 x 256 x 512  
1 x 1 x 512 x 128  
3 x 3 x 128 x 256  
1 x 1 x 256 x 128  
3 x 3 x 128 x 256  
1 x 1 x 256 x 128  
3 x 3 x 128 x 256  
1 x 1 x 256 x 128  
3 x 3 x 128 x 256  
300 x 300 x 3  
150 x 150 x 32  
150 x 150 x 32  
150 x 150 x 64  
75 x 75 x 64  
75 x 75 x 128  
75 x 75 x 128  
75 x 75 x 128  
38 x 38 x 128  
38 x 38 x 256  
38 x 38 x 256  
38 x 38 x 512  
38 x 38 x 512  
38 x 38 x 512  
38 x 38 x 512  
38 x 38 x 512  
19 x 19 x 1024  
19 x 19 x 1024  
19 x 19 x 256  
10 x 10 x 512  
10 x 10 x 128  
5 x 5 x 256  
5x  
Conv dw / s1  
Conv / s1  
Conv / s2  
Conv / s1  
Conv / s1  
Conv / s2  
Conv / s1  
Conv / s2  
Conv / s1  
Conv / s2  
Conv / s1  
Conv / s1  
Conv / s1  
Conv / s1  
5 x 5 x 128  
3 x 3 x 256  
3 x 3 x 128  
1 x 1 x 256  
1 x 1 x 128  
(5)  
(6)  
TP  
Precision   
Recall   
TP FP  
TP  
TP FN  
Sau khi hun luyn, mô hình có các chỉ  
số như sau:  
Precision của mô hình đạt 0.9 (hình 6):  
kết qudự đoán các đối tượng có tltrùng  
khp với nhãn đối tượng thc tế cao.  
Hình 6. Precision ca mô hình  
Recall của mô hình đạt 0.81 (hình 7): tlệ  
bỏ sót các đối tượng là thp.  
camera được thc hin trên htọa độ ảnh.  
Vic chuyển đổi thtọa độ thc sang hta  
độ ảnh thường bị ảnh hưởng bi các thông số  
camera, bao gm 4 loi thông s:  
Thông số nội camera dùng trong quá  
trình chiếu tọa độ vật từ tọa độ thực sang  
tọa độ ảnh.  
Thông số ngoại camera dùng trong quá  
trình dịch tọa độ thực về tọa độ ảnh.  
Thông số biến dạng xuyên tâm gây méo  
dạng ở rìa ảnh do cấu tạo của thấu kính.  
Thông số biến dạng tiếp tuyến gây sai  
lệch khoảng cách theo phương ngang do  
độ lệch của thấu kính với phương đứng  
do quá trình sản xuất.  
Hình 7. Precision ca mô hình  
2.4.2 Localization và Confidence loss  
Localization loss ca mô hình gim còn  
0.2 (hình 8). Chng tỏ bounding box được dự  
đoán và ground truth box có độ khp vi nhau  
ln (IoU gần đến 1). Mô hình khoanh vùng  
đi tượng trên nh tt.  
Xlý biến dng nh là quá trình tìm bộ  
thông scamera nhm loi bbiến dng nh  
gây ra bi các thông số này. Phương pháp  
được sdng là dùng nh bàn c, tiến hành so  
sánh độ lch gia tọa độ các điểm bàn ctrên  
tọa độ ảnh so vi thc tế. Kết qubthông số  
camera thu được qua quá trình này thhin  
trong bng 2.  
Bng 2.Thông scamera  
fx  
115.158  
666.167  
114.507  
386.44  
-0.235  
cx  
fy  
Hình 8. Localization loss ca mô hình  
cy  
k1  
k2  
k3  
p1  
p2  
Classification gim còn 0.89 (hình 9).  
Điều này chng tsai skhi dự báo nhãn đối  
tượng ca bounding box thp. Mô hình có khả  
năng phân lớp đối tượng tt.  
-0.079  
0.072  
-0.0013  
0.000082  
3.1 Ước lượng khong cách  
Sau khi xác định được khu vc chứa đối  
tượng nhn din trong nh, vic ước lượng  
khong cách giữa đối tượng và camera được  
thc hin qua qua các phép chiếu trên trc ta  
độ (hình 10). Vi W là chiu rng thc tế ca  
đối tượng, (xmax xmin) là chiu rng của đối  
tượng trên nh. Khong cách D gia camera  
và vt thể theo phương ngang được tính toán  
theo công thc (7):  
Hình 9. Localization loss ca mô hình  
3. GIAI ĐOẠN TRIN KHAI  
3.1 Xlý biến dng nh  
(7)  
Tính toán khong cách gia vt thvà  
Hình 10. Phép chiếu trên trc OXZ  
Sdng công thc tính skhung hình  
4. KT QUTHC HIN  
4.1 Nhận diện vật thể  
trên giây (FPS) để đánh giá tốc độ xlý ca  
hthng:  
Quá trình kiểm tra được thc hin trên  
cao tc với camera được gn vào Asus  
P550LD, hthng nhn diện phương tiện lưu  
thông vi chsconfidence cao, khoanh vùng  
đối tượng tt và tlbỏ sót đối tượng nhn  
din thp (hình 11).  
1
(5)  
FPS   
time _ start time _ end  
Kết quả đo FPS trên Raspberry Pi 3B+ và  
Asus P550LD:  
Bng 3.Kết quả đo FPS  
Sln Raspberry Pi 3 B+  
Asus P550LD  
đo  
1
2
3
4
0.72  
0.67  
0.61  
0.64  
0.67  
24.91  
25.01  
24.83  
25.08  
24.84  
5
Hthống đạt tốc độ thi gian thc trên  
Asus P550LD.  
Hình 11. Kết qunhn din thc tế ca hệ  
thng  
5
KT LUN  
4.2 Ước lượng khoảng cách  
Hthống được xây dng có khả năng  
nhn din ô-tô, xe ti và xe máy với độ chính  
xác khi phân loi nhãn phương tin cao. Tlệ  
bỏ sót đối tương nhn din (ô-tô, xe ti và xe  
khách) thp, kết quả ước lượng khong cách  
cnh báo va chm tt. Tốc độ xlý ca hệ  
thống đạt thi gian thc khi chy mô phng  
trên thiết bcó cu hình thp.  
Vic so sánh kết quả ước lượng khong  
cách thc tế và tính toán khi xe đang chạy là  
không khthi trong trường hp chsdng  
camera. Do đó, sử dng nh tcamera cách  
đối tượng xe không di chuyn (biết trước  
khong cách) cho vic so sánh kết quả ước  
lượng khong cách tính toán so vi thc tế.  
Kết quả ước lượng khong cách thc tế thể  
hin trong bng 3.  
Hthng xây dng trong luận văn chỉ áp  
dụng cho đường cao tc. Chưa áp dụng được  
cho môi trường giao thông đô thị phc tp hơn  
lai. Quá trình thnghim sdng camera phổ  
thông, cht lượng hình nh chưa được như  
mong mun. Dẫn đến kết qusai lch khi nh  
bnhiu., khong cách phát hin vt thchính  
xác còn gii hn.  
Sln Khong cách thc Khoảng cách ước  
đo  
tế  
lượng  
1
5
5
2
3
10  
40  
10  
39  
4.3 Tốc độ xlý  
TÀI LIU THAM KHO  
[1] Zhaojin Zhang, Cunlu Xu and Wei Feng, “Road Vehicle Detection and Classification based on  
Deep Neural Network”, IEEE, 2016.  
[2] Qingpeng Li, Lichao Mou, Qizhi Xu, Yun Zhang and Xiao Xiang Zhu, “R3-Net: A Deep Network  
for Multi-oriented Vehicle Detection in Aerial Images and Videos”, IEEE, 2018..  
[3] Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias  
Weyand, Marco Andreetto, Hartwig Adam, “MobileNets: Efficient Convolutional Neural  
Networks for Mobile Vision Applications”, arXiv- Cornell University, 17 Apr 2017.  
[4] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang  
Fu, Alexander C. Berg, “SSD: Single Shot MultiBox Detector”, arXiv- Cornell University, 29  
December 2016.  
[5] Christian Szegedy, Scott Reed, Dumitru Erhan, Dragomir Anguelov, Sergey Ioffe,  
“Scalable, High-Quality Object Detection”, arXiv- Cornell University, 9 December 2015.  
Tác gichu trách nhim bài viết:  
Htên: Lê Hoàng Minh Thun  
Đơn vị: Trường đại hc Sư phm Kthut TP.HCM  
Điện thoi: 0964147677  
Email: thuanlhm@gmail.com  
Xác nhn ca giảng viên hướng dn  
(Ký & ghi rõ htên)  
BÀI BÁO KHOA HỌC  
THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ  
Bài báo khoa học của học viên  
có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn  
Bản tiếng Việt ©, TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH và TÁC GIẢ  
Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam.  
Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý  
của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh.  
ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN!  
Thực hiện theo MTCL & KHTHMTCL Năm học 2019-2020 của Thư viện Trường Đại học  
Sư phạm Kỹ thuật Tp. Hồ Chí Minh.  
pdf 8 trang Mãnh Khiết 10/01/2024 500
Bạn đang xem tài liệu "Nghiên cứu thử nghiệm hệ thống cảnh báo va chạm cho xe ô tô", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfnghien_cuu_thu_nghiem_he_thong_canh_bao_va_cham_cho_xe_o_to.pdf