Nghiên cứu thử nghiệm hệ thống cảnh báo va chạm cho xe ô tô

NGHIÊN CỨU THỬ NGHIỆM HỆ THỐNG CẢNH BÁO VA CHẠM

CHO XE Ô TÔ

RESEARCH FORWARD COLISION WARNING SYSTEM ON VEHICLES

Lê Hoàng Minh Thuận

Trường đại học Sư phạm Kỹ thuật TP.HCM

TÓM TẮT

Trong những năm gần đây, Deep Learning trở thành một xu hướng trong lĩnh vực chế tạo xe tự

hành với độ chính xác cao, tuy nhiên những sản phẩm trên xe tự hành áp dụng kỹ thuật này có giá

thành rất cao về phần cứng. Do đó, luận văn tập trung xây dựng hệ thống hỗ trợ người lái trên ô

tô sử dụng kỹ thuật Deep Learning có thể triển khai trên phần cứng giá rẻ. Hệ thống sử dụng mạng

MobileNet-SSD để nhận diện và ước lượng khoảng cách của vật thể thu được từ ảnh camera gắn

trên ô-tô, từ đó đưa ra cảnh báo hỗ trợ người lái. Tốc độ xử lý của hệ thống gần đạt ngưỡng thời

gian thực. Kết quả đạt được trong luận văn mở ra cơ hội trong việc chế tạo sản phẩm thương mại

có giá thành rẻ, hướng tới làm chủ công nghệ nhận diện vật thể dùng kỹ thuật Deep Learning tại

Việt Nam.

Từ khóa: Deep Learning; xe tự hành; MobileNet-SSD.

ABSTRACT

In recent years, Deep Learning has become a trend in the field of self-driving cars with high accuracy,

however, modules on cars which are applied this technique have a very high cost of hardware. Hence, the

thesis focuses on building the driver assistance system in cars, the system using Deep Learning technology

and possible to deploy the system on low-cost hardware. The system use MobileNet-SSD for detection and

estimating the distance from objects in traffic to cameras mounted on cars. Results are used to give a

warning to support the driver. The processing speed of the system nearly reaches the real time threshold.

The results obtained in the thesis open up opportunities for manufacturing low-cost commercial products,

aiming to master the technology of object detection using deep learning technique in Vietnam.

Keywords: Deep Learning; self-driving car; MobileNet-SSD.

Network (bao gồm CNN, R-RPN, R-DN kết

hợp) để nhận dạng phương tiện. Tuy có thể

theo dõi thêm nhiều thông tin của phương tiện

như quỹ đạo nhầm nâng cao hiệu suất trong

phát hiện xe đa hướng nhưng thuật toán khá

phức tạp và chi phí cao. Trong “MobileNets:

Efficient Convolutional Neural Networks for

Mobile Vision Applications” [3], nhóm tác

giả đã trình bày một mạng CNN cho mục đích

nhận diện vật thể, ưu điểm của mạng mới là

có thể nhúng trong những thiết bị di động có

cấu hình phần cứng thấp.

1. GIỚI THIỆU

Trong những năm gần đây, với những kết

quả vượt trội mà phương pháp Deep Learning

thể hiện trong việc xử lý tác vụ cụ thể thông

qua lượng dữ liệu được cung cấp, việc nhận

dạng đối tượng trong các hệ thống trợ lái nâng

cao đang nghiêng về xu hướng áp dụng Deep

Learning vào việc rút trích đặc trưng, phân lớp

nhận dạng đối tượng, nhằm tăng độ chính xác

và tốc độ xử lý, cụ thể như “Road Vehicle

Detection and Classification based on Deep

Neural Network” [1] của Zhaojin Zhang thể

hiện sử dụng Deep Neural Network (DNN) có

độ chính xác cao hơn những phương pháp

trước đó, nhưng tốc độ xử lý còn chậm. Trong

“R3-Net: A Deep Network for Multi-oriented

Vehicle Detection in Aerial Images and

Videos” của Qingpeng Li [2], đã sử dụng một

phương pháp mới R3-Net của Neural

Tuy nhiên, những hệ thống áp dụng Deep

Learning trên yêu cầu phần cứng có cấu hình

mạnh và giá thành thương mại cao, khả năng

áp dụng đại trà tại Việt Nam là rất thấp.

Dựa trên thực tế nghiên cứu hiện tại trong

lĩnh vực trợ lái nâng cao, những thông số khả

quan của mạng MobileNets [3], tác giả nhận

Hình 1. Sơ đồ khối quá trình xây dựng hệ thống

định phương pháp Deep Learning sử dụng

mạng MobileNets cho kết quả khả quan trong

việc nhận dạng phương tiện giao thông trên

những thiết bị có cấu hình phần cứng thấp.

Hình 1 thể hiện qua trình xây dựng hệ

thống, bao gồm 2 giai đoạn: giai đoạn huấn

luyện và giai đoạn triển khai.

2. GIAI ĐOẠN HUẤN LUYỆN

2.1 Thu thập dữ liệu và gắn nhãn

Hình 3. Dữ liệu nhận diện mức trung

bình, phương tiện nhận diện ở xa, rõ nét.

Dữ liệu sử dụng cho quá trình huấn luyện

là ảnh được thu thập trên cao tốc qua camera

với độ phân giải 1280x720 pixels. Những đối

tượng cần nhận diện sẽ được gắn nhãn trong

những ảnh này. Tác giả sử dụng phần mềm mã

nguồn mở labelImg cho việc gắn nhãn.

Lượng dữ liệu thu được sau khi gắn nhãn

sẽ được chia làm hai phần: 1036 ảnh dùng cho

việc huấn luyện và 336 ảnh dùng cho việc

kiểm tra. Dữ liệu kiểm tra được chia làm 3 loại

dựa trên độ rõ nét và khoảng cách của đối

tượng nhận diện đến camera.

Hình 4. Dữ liệu nhận diện mức khó,

phương tiện nhận diện ở xa, mờ.

2.2 Huấn luyện mô hình bằng Transfer

Learning

2.2.1 Trích xuất đặc trưng dùng MobileNet

MobileNet [3] là một mô hình được tinh

chỉnh cho mục đích tối ưu tốc độ xử lý. Thành

phần chính của mô hình này là phép tính

Depthwise Separable Convolution.

Depthwise Separable Convolution chia

phép tích chập thông thường thành hai phép

toán. Phép toán đầu tiên tích chập ma trận

kernel với từng feature map của kênh ngõ vào.

Sau đó tích chập với kernel (1x1) nhằm tổng

hợp kết quả của phép toán đầu tiên.

Hình 2. Dữ liệu nhận diện mức dễ,

phương tiện nhận diện ở gần, rõ nét.

Với D, N, K², H²lần lượt là số kênh ngõ

vào, số kênh ngõ ra, kích thước kernel, kích

thước feature map. Chi phí tính toán của

Depthwise Separable Convolution so với tích

chập truyền thống giảm theo tỉ lệ như sau:

퐾²∗ 퐻²∗ 퐷 + 퐷 ∗ 푁 ∗ 퐻²

퐾²∗ 퐷 ∗ 푁 ∗ 퐻²

1

(1)

=

+

Hình 5. Ví dụ về IoU trong luận văn

퐻 ∗ 푁 퐾²

Area of Overlap

퐼표푈 =

2.2.1 Nhận diện vật thể dùng SSD

(3)

Area of Union

SSD, viết tắt của Single Shot MultiBox

Detector, được diễn giải như sau:

Tiếp theo, cần tối thiểu hóa sai số của

nhãn dự báo tương ứng với mỗi vật thể được

phát hiện trong bounding box mặc định thông

qua confidence loss bằng hàm softmax (4).

 Single Shot: việc định vị và phân loại đối

tượng được thực hiện trên 1 phase duy

nhất từ đầu đến cuối.

 MultiBox: Tên của kĩ thuật về bounding

box được sử dụng bởi Szegedy [5].

 Detector: Mạng này có khả năng nhận

biết và phân loại được đối tượng.

k

ij

ˆ^k

ˆ⁰

log(c )

L_conf(x,c)  

x log(c ) 



i

(4)

iPos

iNeg

2.3 Cấu trúc mô hình MobileNet-SSD

Ngõ vào của SSD là 1 feature map và các

ground truth boxes thể hiện vị trí thực tế các

vật thể trong suốt quá trình huấn luyện. Trong

quá trình phát hiện vật thể, trên mỗi một

feature map, tiến hành đánh giá các một tập

hợp nhỏ gồm những bounding box mặc định

(tương ứng với các tỉ lệ chiều rộng và chiều

cao đặc thù cho từng loại đối tượng) lên các

feature map có kích cỡ khác nhau. Mỗi

bounding box mặc định có một phân phối xác

suất c = (c₁, c₂, …, cn) tương ứng với các loại

nhãn C = (C₁, C₂, …, Cn).

Mô hình MobileNet-SSD của hệ thống

dựa trên quá trình lan truyền thuận của mạng

cơ sở MobileNet, qua đó trích xuất đặc trưng

nhằm tạo ra một feature map chứa các đặc

trưng của ảnh ngõ vào. Kế tiếp tiến thành

thêm các lớp phía sau mạng cơ sở dùng SSD

cho việc nhận dạng đối tượng. Cấu trúc mô

hình MobileNet-SSD thể hiện trong bảng 1:

2.4 Đánh giá mô hình

Mô hình MobileNet-SSD của hệ thống

được đánh giá qua 4 thông số: Precission (5),

Recall (6), Localization loss (2) và

Confidence loss (4).

Trong quá trình huấn luyện, đầu tiên cần

khớp các bounding box mặc định với ground

truth boxes sao cho mức độ sai số vị trí

localization loss là nhỏ nhất bằng hàm

Smooth L1 (2).

2.4.1 Precission and Recall

Mô hình dự đoán sẽ rơi vào 4 trường hợp

sau

N

 True possitive (TP): Nếu kết quả từ dự

đoán là có xe và giá trị thực tế cũng là có

xe – Phân loại chính xác.

smooth

1

m

ˆ^m

L (x, p, g) 

x_i^k_jL

(p_i g_j)

(2)

 

loc

iPos m(x,y,w,h)

 True negatives (TN): Xảy ra khi cả kết

quả dự đoán và giá trị thực tế là không có

xe.

 False positives (FP): Khi kết quả dự đoán

là có xe trong khi giá trị thực tế là không

có xe – phân loại không chính xác.

 False negatives (FN): Khi kết quả dự

đoán là không có xe trong khi giá trị thực

tế là có xe – phân loại không chính xác.

Việc tiến hành khớp bounding box mặc

định với ground truth boxes cần dùng chỉ số

IoU nhằm đo lường tỷ lệ diện tích giao nhau

giữa 2 vùng hình ảnh (Area of overlap) so với

tổng diện tích (không tính phần giao nhau)

(Area of union) của chúng (hình 5). Lấy

ngưỡng IoU là 0.5.

Bảng 1: Cấu trúc mạng MobileNet-SSD của hệ thống:

Lớp / strides

Kích thước Kernel

Kích thước feature map

Conv / s2

Conv dw / s1

Conv / s1

Conv dw / s2

Conv / s1

Conv dw /s1

Conv / s1

Conv dw / s2

Conv / s1

Conv dw /s1

Conv / s1

Conv dw /s1

Conv / s1

3 x 3 x 3 x32

3 x 3 x 32

1 x 1 x 32 x 64

3 x 3 x 64

1 x 1 x64 x 128

3 x 3 x 128

1 x 1 x 128 x 128

3 x 3 x 128

1 x 1 x 128 x 256

3 x 3 x 256

1 x 1 x 256 x 512

3 x 3 x 512

1 x 1 x 512 x 512

3 x 3 x 512

1 x 1 x 512 x 512

3 x 3 x 512 x 1024

1 x 1 x 1024 x 1024

1 x 1 x 1024 x256

3 x 3 x 256 x 512

1 x 1 x 512 x 128

3 x 3 x 128 x 256

1 x 1 x 256 x 128

3 x 3 x 128 x 256

1 x 1 x 256 x 128

3 x 3 x 128 x 256

1 x 1 x 256 x 128

3 x 3 x 128 x 256

300 x 300 x 3

150 x 150 x 32

150 x 150 x 64

75 x 75 x 64

75 x 75 x 128

38 x 38 x 128

38 x 38 x 256

38 x 38 x 512

19 x 19 x 1024

19 x 19 x 256

10 x 10 x 512

10 x 10 x 128

5 x 5 x 256

5x

Conv dw / s1

Conv / s1

Conv / s2

Conv / s1

Conv / s2

Conv / s1

Conv / s2

Conv / s1

Conv / s2

Conv / s1

5 x 5 x 128

3 x 3 x 256

3 x 3 x 128

1 x 1 x 256

1 x 1 x 128

(5)

(6)

TP

Precision 

Recall 

TP  FP

TP

TP  FN

Sau khi huấn luyện, mô hình có các chỉ

số như sau:

Precision của mô hình đạt 0.9 (hình 6):

kết quả dự đoán các đối tượng có tỉ lệ trùng

khớp với nhãn đối tượng thực tế cao.

Hình 6. Precision của mô hình

Recall của mô hình đạt 0.81 (hình 7): tỉ lệ

bỏ sót các đối tượng là thấp.

camera được thực hiện trên hệ tọa độ ảnh.

Việc chuyển đổi từ hệ tọa độ thực sang hệ tọa

độ ảnh thường bị ảnh hưởng bởi các thông số

camera, bao gồm 4 loại thông số:



Thông số nội camera dùng trong quá

trình chiếu tọa độ vật từ tọa độ thực sang

tọa độ ảnh.



Thông số ngoại camera dùng trong quá

trình dịch tọa độ thực về tọa độ ảnh.

Thông số biến dạng xuyên tâm gây méo

dạng ở rìa ảnh do cấu tạo của thấu kính.

Thông số biến dạng tiếp tuyến gây sai

lệch khoảng cách theo phương ngang do

độ lệch của thấu kính với phương đứng

do quá trình sản xuất.

Hình 7. Precision của mô hình

2.4.2 Localization và Confidence loss

Localization loss của mô hình giảm còn

0.2 (hình 8). Chứng tỏ bounding box được dự

đoán và ground truth box có độ khớp với nhau

lớn (IoU gần đến 1). Mô hình khoanh vùng

đối tượng trên ảnh tốt.

Xử lý biến dạng ảnh là quá trình tìm bộ

thông số camera nhằm loại bỏ biến dạng ảnh

gây ra bởi các thông số này. Phương pháp

được sử dụng là dùng ảnh bàn cờ, tiến hành so

sánh độ lệch giữa tọa độ các điểm bàn cờ trên

tọa độ ảnh so với thực tế. Kết quả bộ thông số

camera thu được qua quá trình này thể hiện

trong bảng 2.

Bảng 2.Thông số camera

f_x

115.158

666.167

114.507

386.44

-0.235

c_x

f_y

Hình 8. Localization loss của mô hình

c_y

k₁

k₂

k₃

p₁

p₂

Classification giảm còn 0.89 (hình 9).

Điều này chứng tỏ sai số khi dự báo nhãn đối

tượng của bounding box thấp. Mô hình có khả

năng phân lớp đối tượng tốt.

-0.079

0.072

-0.0013

0.000082

3.1 Ước lượng khoảng cách

Sau khi xác định được khu vực chứa đối

tượng nhận diện trong ảnh, việc ước lượng

khoảng cách giữa đối tượng và camera được

thực hiện qua qua các phép chiếu trên trục tọa

độ (hình 10). Với W là chiều rộng thực tế của

đối tượng, (x_max– x_min) là chiều rộng của đối

tượng trên ảnh. Khoảng cách D giữa camera

và vật thể theo phương ngang được tính toán

theo công thức (7):

Hình 9. Localization loss của mô hình

3. GIAI ĐOẠN TRIỂN KHAI

3.1 Xử lý biến dạng ảnh

(7)

Tính toán khoảng cách giữa vật thể và

Hình 10. Phép chiếu trên trục OXZ

Sử dụng công thức tính số khung hình

4. KẾT QUẢ THỰC HIỆN

4.1 Nhận diện vật thể

trên giây (FPS) để đánh giá tốc độ xử lý của

hệ thống:

Quá trình kiểm tra được thực hiện trên

cao tốc với camera được gắn vào Asus

P550LD, hệ thống nhận diện phương tiện lưu

thông với chỉ số confidence cao, khoanh vùng

đối tượng tốt và tỉ lệ bỏ sót đối tượng nhận

diện thấp (hình 11).

1

(5)

FPS 

time _ start time _ end

Kết quả đo FPS trên Raspberry Pi 3B+ và

Asus P550LD:

Bảng 3.Kết quả đo FPS

Số lần Raspberry Pi 3 B+

Asus P550LD

đo

1

2

3

4

0.72

0.67

0.61

0.64

0.67

24.91

25.01

24.83

25.08

24.84

5

Hệ thống đạt tốc độ thời gian thực trên

Asus P550LD.

Hình 11. Kết quả nhận diện thực tế của hệ

thống

5

KẾT LUẬN

4.2 Ước lượng khoảng cách

Hệ thống được xây dựng có khả năng

nhận diện ô-tô, xe tải và xe máy với độ chính

xác khi phân loại nhãn phương tiện cao. Tỉ lệ

bỏ sót đối tương nhận diện (ô-tô, xe tải và xe

khách) thấp, kết quả ước lượng khoảng cách

cảnh báo va chạm tốt. Tốc độ xử lý của hệ

thống đạt thời gian thực khi chạy mô phỏng

trên thiết bị có cấu hình thấp.

Việc so sánh kết quả ước lượng khoảng

cách thực tế và tính toán khi xe đang chạy là

không khả thi trong trường hợp chỉ sử dụng

camera. Do đó, sử dụng ảnh từ camera cách

đối tượng xe không di chuyển (biết trước

khoảng cách) cho việc so sánh kết quả ước

lượng khoảng cách tính toán so với thực tế.

Kết quả ước lượng khoảng cách thực tế thể

hiện trong bảng 3.

Hệ thống xây dựng trong luận văn chỉ áp

dụng cho đường cao tốc. Chưa áp dụng được

cho môi trường giao thông đô thị phức tạp hơn

lai. Quá trình thử nghiệm sử dụng camera phổ

thông, chất lượng hình ảnh chưa được như

mong muốn. Dẫn đến kết quả sai lệch khi ảnh

bị nhiễu., khoảng cách phát hiện vật thể chính

xác còn giới hạn.

Số lần Khoảng cách thực Khoảng cách ước

đo

tế

lượng

1

5

2

3

10

40

10

39

4.3 Tốc độ xử lý

TÀI LIỆU THAM KHẢO

[1] Zhaojin Zhang, Cunlu Xu and Wei Feng, “Road Vehicle Detection and Classification based on

Deep Neural Network”, IEEE, 2016.

[2] Qingpeng Li, Lichao Mou, Qizhi Xu, Yun Zhang and Xiao Xiang Zhu, “R3-Net: A Deep Network

for Multi-oriented Vehicle Detection in Aerial Images and Videos”, IEEE, 2018..

[3] Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias

Weyand, Marco Andreetto, Hartwig Adam, “MobileNets: Efficient Convolutional Neural

Networks for Mobile Vision Applications”, arXiv- Cornell University, 17 Apr 2017.

[4] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang

Fu, Alexander C. Berg, “SSD: Single Shot MultiBox Detector”, arXiv- Cornell University, 29

December 2016.

[5] Christian Szegedy, Scott Reed, Dumitru Erhan, Dragomir Anguelov, Sergey Ioffe,

“Scalable, High-Quality Object Detection”, arXiv- Cornell University, 9 December 2015.

Tác giả chịu trách nhiệm bài viết:

Họ tên: Lê Hoàng Minh Thuận

Đơn vị: Trường đại học Sư phạm Kỹ thuật TP.HCM

Điện thoại: 0964147677

Email: thuanlhm@gmail.com

Xác nhận của giảng viên hướng dẫn

(Ký & ghi rõ họ tên)

BÀI BÁO KHOA HỌC

THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ

Bài báo khoa học của học viên

có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn

Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam.

Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý

của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh.

ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN!

Thực hiện theo MTCL & KHTHMTCL Năm học 2019-2020 của Thư viện Trường Đại học

Sư phạm Kỹ thuật Tp. Hồ Chí Minh.