AWARE オリジナル

2025年12月24日

数字で証明する圧倒的な自動運転の先駆者、WAYMOの本格的な飛躍

ソン・リュンス   avatar

ソン・リュンス

A rendering of the 6th-generation Waymo Driver on Hyundai’s all-electric IONIQ 5 SUV.

End-to-End (E2E) AIモデルに対する誤解

テスラの自動運転技術がアルファベットの子会社であるウェイモの技術よりも優れていると主張する人々の代表的な誤解は、「End-to-End」AIモデルの有無にある。

テスラはFSD v12以降、「ルールベース」(例:「赤信号なら停止」)の設計を徐々に排除し、GPTやGeminiなどの言語モデルと類似した方式のニューラルネットへと転換したが、ウェイモはいまだに「数万行のハードコード」に依存しているという主張は、どこから派生したのか不明だが、誤った主張だ。ウェイモはテスラと同様にE2Eアプローチを採用しており、より高次元な設計を適用している。

テスラのモノリシックE2Eモデルの限界:道路上のオートコンプリート

テスラのFSDモデルはv12以降、「映像データ入力→制御出力」が単一のニューラルネットワーク内で行われる。これは人間の「反射神経(System 1)」に似ている。FSDモデルはテスラが誇る膨大な走行データを学習し、「人間のドライバーはこのような状況で通常こうする」という直感を模倣する。まさにGPTのようなLLMの基本原理である「次のトークン予測」だ。

FSDはスマートフォンのキーボードの「オートコンプリート」機能を道路上に移したようなものだ。数百万人の運転データを学習した後、「このようなカーブ道の画像の次には、ハンドルを左に15度切る行動データが最も多く出る」という確率的統計に従って動く。

問題は、ここに「なぜ」が抜けていることだ。キーボードのオートコンプリート機能が「こんにちは」の次に「お元気ですか」を推奨する際、単語の意味を心から理解して推奨しているわけではないように、単一のAIモデルは「子供が通り過ぎるから止まらなければならない」という因果関係を理解しているのではなく、単に「あのようなピクセルの塊が現れたら止まる」というパターンを繰り返すに過ぎない。

ChatGPTが幻覚(ハルシネーション)を起こして奇妙な文章を作成したり嘘をついたりしても、ユーザーはその理由を知ることができないように、テスラのFSDもまた「映像データ入力→制御出力」の過程で誤った制御により事故を起こしたとしても、開発者たちはどのような理由でそうなったのかを突き止めることは難しい。

「大いなる分岐:テスラのFSD v12はいかにして自動運転の風景を作り変えているか」 (Skywork AI, 2024). Link

ウェイモの構造化されたE2Eモデル:エージェンティック運転AI

出所:Waymo
出所:Waymo

ウェイモのEMMA (End-to-End Multimodal Model for Autonomous Driving) 設計は、基本的に「データ入力→制御出力」がすべてニューラルネットワーク内で行われるという点で同一であるためE2Eに該当するが、推論とVLM (Vision Language Model) 領域を構造化し、「制御出力の判断過程」を説明できるようにしている。

ウェイモは前段に位置するエンコーダー+VLM設計を、「ファスト&スロー(Thinking Fast and Slow)」という心理学者ダニエル・カーネマンが提唱した概念を通じて説明している:

  • Thinking Fast (System 1):センサーフュージョン・エンコーダーは、カメラ、LiDAR、レーダーなどのセンサーデータを統合し、物体や環境に関するデータをリアルタイムで処理することで、突発的な状況での緊急対応を可能にする。テスラのFSDのように「反射神経」設計と言え、即座の反応が必要な状況で使用される。
  • Thinking Slow (System 2):ビジョンと言語モデルを統合したDriving VLMは、複雑な状況や学習データが不足している状況で論理的な決定を下すために使用される。ブログでは、前方に燃えている車がある環境を例に挙げ、物理的に道路は空いているものの、Geminiの推論能力が組み合わさったおかげで、「燃えている車が前にあるため、別の経路を利用する」という決定を下すことができると説明している。

「EMMA:自動運転のためのEnd-to-Endマルチモーダルモデル」 (Waymo Research, 2024). Link

つまり、TeslaはGPTのように「ファウンデーションモデル」であるとすれば、Waymoはそれに加えて推論能力を結合した「AIエージェント」を作り上げたと言える。

Generative World Decoderの構造的優位性

Waymoの自動運転モデルのバックエンドに位置するGenerative World Decoderは、単なる制御の領域を超えてワールドモデル(World Model)を生成する。ワールドモデルは、現実の物理的な世界をシミュレーションするという点ではFSDと同じだが、その予測の範囲と方式において、Teslaのアプローチとは決定的な違いを見せる。

TeslaのFSDが膨大な走行データに基づき、「現在の状況で最も確率が高い一つの移動軌跡(Trajectory)」を直感的に算出するのに対し、WaymoのGenerative World Decoderは「反事実的推論」を実行する。つまり、AIが行動を決定する前に、「もし今車線変更をしたら、隣の車は譲ってくれるか、それとも加速してくるか?」といった多様な未来のシナリオを映画のように生成し、検証するのである。

単に自車が現在の状況でとるべき最適な制御値を見つけるだけでなく、自分の行動が周囲の車両や歩行者とどのような相互作用や因果関係を持つかまで事前にシミュレーションし、最も安全な結果を選択するこの方式は、直感に依存するブラックボックスモデルよりもはるかに構造的に安定的であり、「立証可能な安全性」を保証する。

“MotionLM: Multi-Agent Motion Prediction for Autonomous Driving with LLMs” (Waymo Research, 2023/2024). リンク

すでに始まったフライホイールの加速による市場先取り

出所:Waymo
出所:Waymo

Teslaがすでに道路上を走っている車両のおかげで、他のどの自動運転企業よりもデータ面で優位に立っているという主張は、もはや有効ではない。収集されるデータがすべて映像データではない上に(もしそうならTeslaは破産していただろう)、自動運転技術開発の最終目標は「平均的な」人間のドライバーを代替することではないため、通常、定石通りではない実際の運転データを前処理する過程は非常に労働集約的であり、したがって莫大なコストがかかる。Teslaは昨年、走行データの前処理を担当するチームを丸ごとリストラしたが、それはすでに走行データが役に立たないからである。実際にTeslaは「トリガー(Trigger)」方式を使用している。平凡な走行映像は捨て、ドライバーが介入したり、エンジニアリングチームがあらかじめ設定した特定の条件(例:工事現場、非定型の交差点など)が満たされた時だけ、短いクリップを切り取って送信する。つまり、「道路上の車が多い=データが多い」という等式は成立しない。その大部分は捨てられるからだ。

また、現在FSDが使用している単一ニューラルネット方式は、Waymoが言及した「道路はあるが前の車が燃えている」状況のような特異なケースに対応するコストが幾何級数的に高くなる。このような「ロングテール(Long-tail)」の状況において、単に走行データを注ぎ込むだけでは解決策にはなり得ない。ブラックボックス型の単一モデルは、特定の稀なケースを解決しようとして、既存の正常に機能していた一般走行能力を失ってしまう現象(破滅的忘却:Catastrophic Forgetting)に脆弱だからだ。結局、Teslaが誇る数十億マイルのデータは、人間が介入して事故を防いだ「成功したデータ」に過ぎず、AIが自ら危機的状況を克服した「失敗と克服のデータ」ではない。人間のドライバーの介入は、AIに「ここは人間が運転するよ」というシグナルを与えるだけで、具体的にAIが何を誤って判断したのか、その状況での物理的限界がどこまでなのかを学習させることはできないからだ。筆者は、TeslaのFSDも結局はWaymoのように自動運転モデルの構造を変更し、それに適した走行データを最初から積み直すことになると予想している。

この点で、Waymoが強調する「純粋な無人走行データ」の価値が明らかになる。Waymoは「シミュレーションやテストドライバーの走行データでは決して代替できない領域がある」と断言する。運転席が空の状態において、Waymoの自動運転モデルが道路上の突発的な状況を自ら認知し、判断し、対処しながら蓄積した経験値こそが、いかなる人間の走行データとも替えられない核心的な資産だというのだ。人間の助けなしに、完全にAIの判断だけで道路の複雑さを切り抜けたこの高純度のデータが、Waymoの学習パイプラインに再投入される時、初めて自動運転技術は人間の平均を超え、「立証可能な安全性」の段階へと進入する真のフライホイールを完成させることになる。

Metric Waymo (Alphabet) Tesla
Fully Autonomous Miles >127 Million
(Rider-only through Sept 2025)
<250,000
(Austin Pilot estimate)
Supervised / Training Miles ~100 Million+
(Simulation/Testing)
>4.1 Billion
(FSD Supervised)
Commercial Status Live Robotaxi Service
(24/7 public access)
Pilot / Testing
(Employee/Invite-only in Austin)
Active Locations Phoenix, SF, LA, Austin, Atlanta
(+ testing in FL, TX)
Global (Supervised FSD)
Austin, TX (Unsupervised Pilot)
Safety Benchmark 0.74 injury-reported crashes per million miles
(vs. 3.97 human avg)
1 crash per ~6.36 million miles
(Supervised Level 2 only)

商業自動運転時代の幕開け、出撃準備を整えたWaymo

去る17日、ブルームバーグ通信は、Waymoが1,000億ドル以上の企業価値を認められ、150億ドル規模の超大型投資誘致を進めていると報じた。わずか1年前には450億ドルだった価値が2倍以上に急騰したのは、市場がWaymoの技術的成熟度と商業的成功の可能性を確信している証左である。確保された資金は、現在2,500台レベルのロボタクシーを大幅に増車し、サービス都市を攻撃的に拡大するために投入される予定だ。12月現在、全米で安全要員のいない商業サービスを有料で提供している企業は、唯一Waymoだけである。

Waymoは1兆ドルの機会である。Googleはそれを掴むだけでいい。
この自動運転技術部門は拡大しているが、もしAlphabetがさらに力を入れれば、Waymoは広告事業以上の収益を生み出す可能性を秘めた新しい市場を支配できるだろう。
Alan Ohnsman favicon
Forbes - Alan Ohnsman

Forbesは今年、Waymoの運賃売上が少なくとも3億ドルに達すると推算しており、これを「Googleの広告ビジネスを超える1兆ドルの機会」と評価した。一方、2016年から毎年「来年商用化」を叫んできたテスラのロボタクシーは、依然としてテキサス州オースティン内の限られた区域で、それも従業員対象のパイロットプログラムに留まっている。イーロン・マスクは最近のツイートで「ゆっくりと、そして一気に」変化が訪れると予告したが、無人走行データが皆無であり、モデルの構造的限界が明確な現時点において、これは実体のない期待を抱かせるだけのものに近い。「実証された安全性」を武器にするWaymoの独走は、2026年を起点に爆発的な成長を控えている。

コメント0

ニュースレター

オリジナルコンテンツ、ニュースレター、特別イベントに関する最新情報をいち早くお届けします。

続きを読む