全民自動駕駛5年內真的會來嗎？這是Lyft的自動駕駛2.0

2021-08-24 03:04:10

過去十年，儘管機器學習已經在影象識別、決策制定、NLP 和影象合成等領域取得很多成功，但卻在自動駕駛技術領域沒有太多進展。這是哪些原因造成的呢？近日，Lyft 旗下 Level 5 自動駕駛部門的研究者對這一問題進行了深入的探討。他們提出了自動駕駛領域的「Autonomy 2.0」概念：一種機器學習優先的自動駕駛方法。

論文地址：https://arxiv.org/pdf/2107.08142.pdf

自 2005 至 2007 年的 DARPA 超級挑戰賽（DARPA Grand Challenge，由美國 DARPA 部門出資贊助的無人駕駛技術大獎賽）以來，自動駕駛汽車（SDV）就已經成為了一個活躍的研究領域，並經常成為頭條新聞。許多企業都在努力開發 Level 4 SDV，有些企業已經在該領域耕耘了十多年。

已經有一些研究展示了小規模的 SDV 測試，雖然很多預測都認為「僅需要 5 年就可以迎來無處不在的 SDV 時代」，但應看到生產級的部署似乎依然遙不可及。鑑於發展程序受限，我們不可避免地會遇到一些問題，比如為什麼研究社群低估了問題的困難度？當今 SDV 的發展中是否存在一些根本性的限制？

在 DARPA 挑戰賽之後，大多數業內參與者將 SDV 技術分解為 HD 地圖繪製、定位、感知、預測和規劃。隨著 ImageNet 資料庫帶來的各種突破，感知和預測部分開始主要通過機器學習（ML）來處理。但是，行為規劃和模擬很大程度上仍然基於規則，即通過人類編寫的越來越詳細的關於 SDV 應如何驅動的規則實現效能提升。一直以來有種說法，在感知非常準確的情況下，基於規則的規劃方法可能足以滿足人類水平的表現。這種方法被稱為 Autonomy 1.0。

圖 3：Autonomy 1.0 的典型技術堆棧，展示了各個元件中使用到的 ML 數量。從圖中可以看到，感知和預測元件是基於 ML 的，但規劃和模擬依然依賴於非擴展、基於規則的系統。

但是，生產級的效能需要大規模地擴展以發現和妥當處理小概率事件的「長尾效應（long tail）」。研究者認為 Autonomy 1.0 無法實現這一點，原因有以下三點：

一是基於規則的規劃器和模擬器無法有效地建模駕駛行為的複雜度和多樣性，需要針對不同的地理區域進行重新調整，它們基本上沒有從深度學習技術的進展中獲得增益；
二是由於基於規則的模擬器在功效上受限，因此評估主要通過路測完成，這無疑延遲了開發週期；
三是 SDV 路測的成本高昂，且擴展性差。

因此，針對這些擴展瓶頸，研究者提出將整個 SDV 堆棧轉變成一個 ML 系統，並且該系統可以使用包含多樣化且真實的人類駕駛資料的大規模資料集來訓練和離線驗證。他們將這個 ML 系統稱為 Autonomy 2.0，它是一個數據優先的正規化：ML 將堆棧的所有元件（包括規劃和模擬）轉化為資料問題，並且通過更好的資料集而不是設計新的駕駛規則來實現效能的提升。這樣做極大地釋放了處理小概率事件長尾效應和擴展至新的地理區域所需要的擴展性，唯一需要做的是收集規模足夠大的資料集並重新訓練系統。

Autonomy 1.0 與 Autonomy 2.0 的開發流程對比，可以看到 Autonomy 1.0 的可擴展性低、SDV 行為由工程師賦予、驗證方法為路測、硬體成本高，而 Autonomy 2.0 的可擴展性高、SDV 行為從人類駕駛中學得、驗證方法為離線模擬、硬體成本在可負擔範圍內。

不過，Autonomy 2.0 也面臨著以下幾項主要挑戰：

將堆棧表示為端到端可微網路；
在閉環中利用機器學習的模擬器進行離線驗證；
收集訓練這些模擬器需要大量人類駕駛資料。

Autonomy 2.0

Autonomy 2.0 是一種 ML 優先的自動駕駛方法，專注於實現高可擴展性。它基於三個關鍵原則：i) 閉環模擬，即模型從收集的真實駕駛日誌中學習；ii) 將 SDV 分解為端到端的可微分神經網路；iii) 訓練規劃器和模擬器所用的資料是使用商品感測器大規模收集的。

資料驅動的閉環反應模擬

Autonomy 2.0 中的大部分評估都是在模擬中離線完成的。基於規則的模擬具有一些侷限性，這與 Autonomy 1.0 對路測的依賴形成鮮明對比。但這並不意味著 Autonomy 2.0 完全放棄了路測，不過其目標在開發週期中不太突出，主要用於驗證模擬器的效能。為了使模擬成為開發道路測試的有效替代品，它需要三個屬性：

適用於任務的模擬狀態表徵；
能夠以高保真度和強大的反應能力合成多樣化和逼真的駕駛場景；
應用於新的場景和地域時，效能隨著資料量的增加而提升。

模擬結果必須非常真實，因為模擬和現實之間的任何差異都會導致效能估計不準確，但它不需要是照片般逼真的 [29]，而是隻關注規劃器的表示。該研究推斷，為了達到高水平的真實感，模擬本身必須直接從現實世界中學習。最近，[28] 展示瞭如何使用鳥瞰圖表示從先前收集的真實世界日誌中構建逼真的和反應性的模擬。如圖 4 所示，然後可以部署此模擬將任何日誌轉換為反應式模擬器，用於測試自動駕駛策略。

從人類演示中訓練出來的完全可微的堆棧

Autonomy 1.0 具有手工設計的基於規則的元件，以及感知、預測、規劃和模擬之間的人類可解釋介面。與之不同，Autonomy 2.0 堆棧完全可以通過人類演示進行訓練，因此其複雜性與訓練資料量成正比。為了訓練這樣一個系統，需要滿足幾個條件：

每個元件，包括規劃，都需要可訓練且端到端的可微分；
可使用人工演示進行訓練；
效能與訓練資料量成正比。

下圖 5 是完全可微的 Autonomy 2.0 堆棧架構，可以從資料進行端到端的訓練，而無需設計單個塊和介面。其中， d、h、f 和 g 是可學習的神經網路。d 和 h 給出了規劃發生的場景的潛在表示。f 代表 SDV 和場景中代理的策略。g 是狀態轉移函數。I_0 是網路的輸入，而 {I_1, ··, I_3} 在訓練期間提供監督。

大規模低成本資料採集

到目前為止討論的系統使用人類演示作為訓練資料，即具有由人類駕駛員選擇的相應軌跡的感測器資料作為監督。要解鎖生產級效能，這些資料需要具備：

足夠的規模和多樣性以包括罕見事件的長尾；
足夠的感測器保真度，即用於收集資料的感測器需要足夠準確才能有效地訓練規劃器和模擬器；
足夠便宜，可以以這種規模和保真度收集。

雖然最近第一個帶有人類演示的公開資料集已釋出，但這些資料僅限於幾千英里的資料。觀察長尾可能需要收集數億英里的資料，因為大多數駕駛都是平安無事的，例如在美國，每百萬英里大約有 5 起撞車事故。

應該使用哪些感測器呢？感知演算法的最新進展表明，在 KITTI 基準測試 [44] 上，高清和商用感測器（如相機和稀疏鐳射雷達 [42]）之間的感知精度差距縮小了，如下表 1 所示。

表 1：收集資料時面臨感測器可擴展性和保真度之間的權衡，這會直接影響感知精度。

未來需要解決哪些問題

研究者概述了 Autonomy 2.0 的正規化，旨在使用 ML 優先的方法解決自動駕駛問題。並且，通過消除人在迴路（human-in-the-loop），這一正規化的擴展性更強，這也是實現高效能自動駕駛汽車技術的主要痛點。雖然 Autonomy 2.0 正規化的發展前景很好，但依然有需要解決的問題，具體如下：

模擬和規劃的恰當狀態表示是什麼？我們應如何衡量場景概率？
我們應如何檢測異常值（outlier）以及從未見過的情況（case）？
與使用搜索進行的實時推理相比，通過人類演示進行離線訓練的極限在哪裡？
我們需要在模擬上投入多少？又應如何衡量離線模擬本身的效能？
我們在訓練高效能規劃和模擬元件上需要多少資料？在大規模資料收集時又應該使用什麼感測器呢？

解答這些問題對於自動駕駛和其他現實世界的機器人問題至關重要，並且可以激發研究社群儘早解鎖高效能 SDV。

全民自動駕駛5年內真的會來嗎？這是Lyft的自動駕駛2.0

熱門文章