自動駕駛技術「視覺篇」:每家車廠都在用 AI,到底是什麼 AI 啦? 【中】

上一篇文章我們介紹了如何使用照片或影片就計算出深度,沒看過上一篇的建議先去看一下喔:

另外通勤時習慣聽Podcast的車友們,阿財開通了Podcast頻道!目前是把阿財許多在YT上的影片去蕪存菁,上架在podcast上,每一集的時間會控制在40分鐘左右(以內),目前已經上架5集,主要是介紹特斯拉自動駕駛技術,包含AI日、ScaledML和電腦視覺大會CVPR上的演講,喜歡的朋友一定不要錯過喔:

 

那這一篇我們終於要介紹大家常常聽到的使用AI來完成自動駕駛,我相信許多媒體或是報章雜誌也都是簡單帶過,其實使用AI來計完成自動駕駛這幾個字裡面大有文章,那阿財今天就從學術的角度先帶大家看看,到底如何使用AI來計算深度並且達到自動駕駛,大家放心之後也會帶大家看看實務上,像是特斯拉、Google waymo或是Intel Mobileye又是如何完成的,請大家敬請期待喔!

回到正題,我們假設拍到一張照片如下,假設我們在500公尺外拍到一個行人,這個行人在我們相機裡面的像素點約是100個像素點,然後車子移動一段距離之後,離行人約300公尺,這時候相機裡面的像素點約是150個像素點,以此類推,假設我們又在行進一段距離之後,相機裡面拍到的像素點約是200個像素點,這時候我們就可以推論出車子離行人是100公尺,這個概念引入到AI模型中,今天假設我們有一堆拍到的圖片,並且也都知道這些圖片中,行人或車子距離我們多遠,這時候就可以讓AI進行訓練,就可以訓練出一個自動駕駛模型

 

訓練示意圖

 

哇!原來這麼簡單嗎?

 

錯誤!首先我們要明白一件事情,假設我們拍到一張照片中,有車子、行人、交通號誌甚至是小狗,那我們要怎麼定義出每一個物件的像素點?這些東西都是不規則形狀,況且今天如果這麼複雜的照片,光是要把每一個物件都抓出來並且識別它的類別和像素點,這已經很不容易了!

 

所以我們先來講講如何定義有沒有框好的問題~

 

這邊我們要介紹一個評估指標叫重疊度(Intersection over Union(IoU)),這個指標計算也非常簡單,就是交集除以聯集,下圖有三張皮卡丘,綠色框框是我們的標準答案(Ground truth),紅色框則是我們預測出來的結果,而IoU的計算就是紅框(預測)和綠框(答案)的交集,除以紅框(預測)和綠框(答案)的聯集,下圖由左至右IoU從0.1到0.99,最好的狀況就是預測的紅框和答案的綠框重合,這樣一來紅綠框的交集等於紅綠框的聯集。

 

👉 2023 Land Rover Range Rover Evoque Bronze Collection城郊試駕!都會路華豪華全餐?

IoU介紹

 

有了評價指標之後,接下來的問題就是用什麼方法框?

 

這邊圖片框列的方法有很多,例如早期的滑窗法或是選擇性搜索法,那我這邊介紹大名鼎鼎的YOLO,這裡的YOLO不是You Only Live Once,而是You Only Look Once!YOLO這個方法非~常有名,不僅廣泛運用在電腦視覺領域,更是在特斯拉AI日上有被提到過,YOLO這個方法的精妙之處在於它不僅可以把想要偵測的物件從圖片中框出,還可以對框到的圖片進行分類!

這邊我為大家介紹YOLO v1,也就是最原始的版本(目前YOLO已經優化更新了好幾代),如下圖,首先圖片中有三個物件我們想要框出分別是-狗、腳踏車和汽車,那YOLO會先將整個圖片分割成SxS個小格子,那YOLO會要求這個待測物的中心要落在格子內,譬如說狗的中心(紅點)會落在某個格子內,這樣一來就可以大大減少我們框的數量,並且要求每一個小格子要給出兩個框框(Bounding box),並且用粗細代表信心度,也就是是不是有框好,那每一個框框呢就包含物體的x座標、y座標、寬和高,另外YOLO還時對圖片中的物件進行分類,也就是會要求每一個小格子要預測出它屬於哪個物件,圖片裡藍色就是狗狗,黃色是腳踏車,紅色則是汽車。

圖片來源:You only look once: Unified, real-time object detection

 

終於我們有物體匡列的指標又有高效率的匡列方法,接下來我們終於可以來聊聊,純視覺的AI模型是如何訓練的!

 

這邊隆重介紹一個數據集-KITTI,這個數據集有超過20萬個3D的物件,而這個KITTI數據集是由光達、雷達、相機和GPS等數據組成,並且包含了各種場景如下圖,有在城市、住宅區、道路、校園和多人的場景,而KITTI又有分成簡單、中等和難三種圖片,簡單來說就是待測物體(汽車或行人)被遮擋的程度和在圖片中像素點的數量,當然KITTI數據集複雜度也有上限,一張照片最多涵蓋30個行人和15台車。

 

圖片來源:Vision meets robotics: The kitti dataset

 

這個數據集不僅是在學術上非常常見,而且特斯拉和Waymo等許多做自動駕駛技術的公司在發表論文的時候也會用到,所以可以說KITTI是一個具有代表性的數據,大家是不是很想知道目前視覺方案的自動駕駛技術與光達的差距有多少?

下集阿財會介紹單目視覺+AI模型和雙目視覺+AI模型vs光達的精準度,大家一定不要錯過喔~

👉 更多電動車與油電車:https://autos.yahoo.com.tw/car-topics/EV-and-Hybrid

👉 最新上架汽車車款:https://autos.yahoo.com.tw/latest-cars

👉 最新上架機車車款:https://autos.yahoo.com.tw/latest-bikes

👉 熱門中古車排行(預算20-40萬):https://autos.yahoo.com.tw/popular-used-cars?price_range=20-40

👉 搜尋更多新車規格:https://autos.yahoo.com.tw/new-cars/

👉 更多熱門新車排行:https://autos.yahoo.com.tw/popular-cars/