自動駕駛影像驗證場景生成技術

知識文章

自動駕駛影像驗證場景生成技術

2026 / 05 / 18

研究發展處許智淵

運用生成式 AI 建立虛擬驗證與測試場景，已成為近年自動駕駛技術研發的重要發展方向。此技術不僅可大幅提升系統開發與驗證效率，亦能有效降低實體測試所需之時間與成本。透過系統性生成真實道路中較難蒐集之極端案例（corner cases），可補足實際行駛數據之不足，進一步強化自動駕駛系統於複雜情境下之適應能力與整體穩定性。

例如，Tesla 已結合真實車輛行駛影像與其虛擬仿真平台，產生多元路況與駕駛情境，並進一步以神經網路為基礎之「世界模擬器（World Simulator）」，為 FSD 系統打造可生成連續、多視角駕駛場景之虛擬訓練環境。另一方面，成立於英國劍橋之新創公司 Wayve，亦透過 GAIA-1 與 GAIA-2 生成式 AI 模型，依據文字、動作描述及影像等輸入，快速建立多樣化駕駛場景。

目前影像生成研究之主流技術，主要包括生成對抗網路（Generative Adversarial Network, GAN）與擴散模型（Diffusion Models）等方法。

生成對抗網路是一種透過對抗式學習進行資料生成之深度學習架構，其核心由兩個互相競爭的網路所組成：生成器（Generator）負責產生假樣本以模擬真實資料分布；判別器（Discriminator）則學習辨別輸入資料為真實樣本或生成樣本。兩者於訓練過程中交替更新，生成器藉由「欺騙」判別器來持續提升生成品質，而判別器則不斷強化對假樣本之識別能力，最終使生成資料分布逐漸逼近真實資料分布。

生成對抗網路之優勢，在於能以較少之生成步驟輸出具高度真實感之影像，並支援條件式生成（Conditional Generation）以控制輸出屬性，同時可廣泛應用於資料增強、影像修復等領域。然而，其訓練過程亦常面臨不穩定性、梯度消失（Gradient Vanishing）及模式崩潰（Mode Collapse）等問題，進而導致生成樣本多樣性不足，或訓練過程難以收斂。

擴散模型（Diffusion Models）是一種透過逐步加入雜訊，再學習逐步去除雜訊以生成資料之機率生成模型，其核心可分為兩個階段。

首先為前向（正向）擴散過程（Forward Diffusion Process），即將真實樣本經由一連串小步驟逐步加入高斯雜訊，直到資料接近標準常態分布，使原始資料分布被平滑化，以利後續模型學習與建模。其次為反向（逆向）去雜訊過程（Reverse Denoising Process），透過訓練一個參數化模型，估計各時間步之條件分布，或等價地直接預測所加入之雜訊，進而逐步由雜訊中還原出原始樣本。

相較於生成對抗網路（GAN），擴散模型將資料生成問題轉換為序列化之機率逆推過程，其訓練目標通常可表示為簡化後之去雜訊平方誤差損失（Denoising Mean Squared Error Loss）。此特性使其訓練過程相對穩定，且較不易發生模式崩潰（Mode Collapse）問題。

此外，擴散模型在捕捉複雜多模態分布，以及還原細節結構方面具有良好表現，因此近年於圖片生成、影像合成等領域取得顯著進展。

目前車輛中心（ARTC）之自動駕駛影像驗證場景生成技術以擴散模型為基礎，如圖1所示，進一步整合具物理訊息之多模態控制信號的調控機制，以達成精準且可控的條件化生成，透過引入多模態控制，不僅能依據文字、影像或其他資料作為生成條件，還能在生成過程中維持高度的靈活性與可解釋性，確保輸出結果符合特定應用需求，其架構如下：

(1) 文字提示詞輸入：可輸入描述性文字，會根據提示生成符合物理規則的影像或影片。

(2) 圖片／影片輸入：支援圖片／影片（如語意分割、深度及邊緣圖片／影片等）作為輸入生成擬真場景。

(3) 圖片／影片生成模組：採擴散模型，可根據特定應用場景（如自動駕駛）微調模型或進行後訓練。