2025년 12월 24일
숫자로 증명하는 압도적인 자율주행 선도주자, WAYMO의 본격적 비상
성륜수

End-to-End (E2E) AI 모델에 대한 오해
Tesla의 자율주행 기술이 알파벳의 자회사 Waymo의 기술보다 뛰어나다고 주장하는 사람들의 대표적인 오해는 "End-to-End" AI 모델의 유무다.
Tesla는 FSD v12 이후부터 "규칙 기반" (e.g., "빨간불이면, 정지") 설계를 점진적으로 제거하며 GPT/Gemini 등 언어모델과 유사한 방식의 Neural Net으로 전환했지만 Waymo는 아직까지 "수만줄의 하드 코드"에 의존한다는 주장은 어디서 파생되었는지 알 수 없지만, 틀린 주장이다. Waymo는 Tesla와 동일하게 E2E 접근 방법을 채용했으며, 보다 고차원적인 설계를 적용중이다.
Tesla Monolithic E2E 모델의 한계: 도로 위의 자동완성
Tesla의 FSD 모델은 v12 이후부터 "영상 데이터 입력 → 제어 출력"이 단일 Neural Network 안에서 이루어진다. 이는 인간의 "반사 신경(System 1)"과 유사하다. FSD 모델은 Tesla가 자랑하는 수많은 주행 데이터를 학습하여 "인간 운전자는 이런 상황에서 보통 이렇게 하더라"는 직관을 모방한다. 바로 GPT와 같은 LLM의 기본 원리인 '다음 토큰 예측'이다.
FSD는 스마트폰 키보드의 '자동완성' 기능을 도로 위로 옮겨놓은 것과 같다. 수백만 명의 운전 데이터를 학습한 뒤, "이런 커브 길 이미지 다음에는 핸들을 왼쪽으로 15도 꺾는 행동 데이터가 가장 많이 나오더라"는 확률적 통계에 따라 움직인다.
문제는 여기에 '왜'가 빠져 있다는 것이다. 키보드 자동완성 기능이 '안녕하세요' 다음에 '반갑습니다'를 추천할 때, 단어의 의미를 진심으로 이해하고 추천하는 것이 아니듯, 단일 AI 모델은 "아이가 지나가기 때문에 멈춰야 된다"는 인과관계를 이해하는 것이 아니라, 단순히 "저런 픽셀 덩어리가 나타나면 멈춘다"는 패턴을 반복할 뿐이다.
ChatGPT가 환각을 하여 이상한 문장을 작성하거나 거짓말을 해도 사용자는 그 이유를 알 수 없는것처럼, Tesla FSD 또한 "영상 데이터 입력 → 제어 출력" 과정에서 잘못된 제어로 사고를 내더라도 개발자들은 어떤 이유로 그랬는지 알아내기 어렵다.
“The Great Divergence: How Tesla's FSD v12 is Reshaping the Autonomous Driving Landscape” (Skywork AI, 2024). Link
Waymo의 구조화 된 E2E 모델: 에이전틱 운전 AI
Waymo의 EMMA (End-to-End Multimodal Model for Autonomous Driving) 설계는 기본적으로 "데이터 입력 → 제어 출력"이 전부 Neural Network 내에서 이루어진다는 점에서 동일하기에 E2E에 해당하지만, 추론과 VLM (Vision Language Model) 영역을 구조화하여 "제어 출력의 판단 과정"을 설명하게 한다.
Waymo는 앞 단에 위치한 인코더 + VLM 설계를 "Thinking Fast and Slow"라는 심리학자 대니얼 카너먼이 창시한 개념을 통해 설명한다:
- Thinking Fast (System 1): Sensor Fusion 인코더는 카메라, 라이다, 레이더 등의 센서 데이터를 통합하여 사물과 환경에 대한 데이터를 실시간으로 처리하여 돌발 상황에서 긴급한 대응을 가능하게 한다. Tesla FSD처럼 "반사 신경" 설계라 할 수 있으며, 즉각적 반응이 필요한 상황에 사용된다.
- Thinking Slow (System 2): 비전과 언어모델을 통합한 Driving VLM은 복잡하거나 학습 데이터가 부족한 상황에서 논리적인 결정을 내리는데 사용된다. 블로그는 앞에 불에 타는 자동차가 있는 환경을 예시로 들며, 물리적으로 도로는 뚫려있지만 Gemini의 추론 능력이 결합된 덕분에 "불에 타는 자동차가 앞에 있으니 다른 경로를 이용한다"는 결정을 내릴 수 있다고 설명한다.
“EMMA: End-to-End Multimodal Model for Autonomous Driving” (Waymo Research, 2024). Link
즉, Tesla는 GPT처럼 "파운데이션 모델"이라면, Waymo는 거기에 더해 추론능력을 결합한 "AI Agent"를 만들었다고 할 수 있다.
Generative World Decoder의 구조적 우위
Waymo 자율주행 모델 뒷 단에 위치한 Generative World Decoder는 단순 제어의 영역을 벗어나 World Model을 생성한다. World Model은 현실의 물리적인 세계를 시뮬레이션 하는것에 있어서는 FSD와 동일하지만, 그 예측의 범위와 방식에서 Tesla의 접근법과 결정적인 차이를 보인다.
테슬라의 FSD가 방대한 주행 데이터를 기반으로 '현재 상황에서 가장 확률이 높은 하나의 이동 궤적(Trajectory)'을 직관적으로 산출해낸다면, 웨이모의 Generative World Decoder는 '반사실적 추론'을 수행한다. 즉, AI가 행동을 결정하기 전 "만약 내가 지금 차선을 변경하면 옆 차가 양보할 것인가, 아니면 가속할 것인가?"와 같은 다양한 미래 시나리오를 영화처럼 생성해보고 검증하는 것이다.
단순히 내 차량이 현재 상황에서 해야하는 최적의 제어값을 찾는 것을 넘어, 나의 행동이 주변 차량이나 보행자와 맺을 상호작용과 인과관계까지 미리 시뮬레이션한 뒤 가장 안전한 결과를 선택하는 이 방식은, 직관에 의존하는 블랙박스 모델보다 훨씬 더 구조적으로 안정적이며 '입증 가능한 안전'을 보장한다.
“MotionLM: Multi-Agent Motion Prediction for Autonomous Driving with LLMs” (Waymo Research, 2023/2024). Link
이미 시작된 플라이휠 가속을 통한 시장 선점
Tesla가 이미 도로 위에 깔려있는 차량들 덕분에 그 어떤 자율주행 기업보다 데이터 우위를 점하고 있다는 주장은 유효하지 않은지 오래다. 수집하는 데이터가 전부 영상 데이터가 아닐뿐더러(그랬다면 Tesla는 파산했을 것이다), 자율주행 기술개발의 최종 목표는 '평균적인' 인간 운전자를 대체하는게 아니기 때문에 보통 정석적이지 못한 실제 운전자 데이터를 전처리하는 과정은 매우 노동집약적이고, 따라서 비용이 매우 많이든다. Tesla는 작년에 주행 데이터 전처리를 담당하는 팀을 통째로 구조조정 했는데, 이미 주행 데이터는 쓸모없기 때문이다. 실제로 테슬라는 'Trigger' 방식을 사용한다. 평범한 주행 영상은 버리고, 운전자가 개입하거나 엔지니어링 팀이 미리 설정해둔 특정 조건(예: 공사장, 비정형 교차로 등)이 충족될 때만 짧은 클립을 오려내어 전송한다. 즉, "도로 위에 깔린 차가 많다 = 데이터가 많다"는 등식은 성립하지 않는다. 대부분은 버려지기 때문이다.
또 현재 FSD가 사용중인 단일 Neural Net 방식은 Waymo가 언급한 도로는 있지만 앞 차량이 불난 상황과 같은 특이 케이스에 대응하는 비용이 기하급수적으로 높아진다. 이러한 'Long-tail' 상황에서 단순히 주행 데이터만 쏟아붓는 것은 해결책이 될 수 없다. 블랙박스 형태의 단일 모델은 특정 희귀 케이스를 해결하려다 기존에 잘 작동하던 일반 주행 능력을 잃어버리는 현상(Catastrophic Forgetting)에 취약하기 때문이다. 결국 Tesla가 자랑하는 수십억 마일의 데이터는 인간이 개입하여 사고를 막아준 '성공한 데이터'일 뿐, AI가 스스로 위기 상황을 극복해 본 '실패와 극복의 데이터'는 아니다. 인간 운전자의 개입은 AI에게 "여기선 사람이 운전할게"라는 신호만 줄 뿐, 구체적으로 AI가 무엇을 잘못 판단했는지, 그 상황에서 물리적 한계가 어디까지인지를 학습시키지 못하기 때문이다. 필자는 Tesla FSD도 결국 Waymo처럼 자율주행 모델 구조를 변경하고 이에 적합한 주행 데이터를 처음부터 다시 쌓을것이라 예상한다.
이 지점에서 Waymo가 강조하는 '순수 무인 주행 데이터'의 가치가 드러난다. Waymo는 "시뮬레이션이나 테스트 드라이버의 주행 데이터로는 결코 대체할 수 없는 영역이 있다"고 단언한다. 운전석이 비어 있는 상태에서 Waymo 자율주행 모델이 도로 위 돌발 상황을 스스로 인지하고, 판단하고, 대처하며 쌓은 경험치야말로 그 어떤 인간 주행 데이터와도 바꿀 수 없는 핵심 자산이라는 것이다. 인간의 도움 없이 오롯이 AI의 판단만으로 도로의 복잡성을 헤쳐 나간 이 고순도의 데이터가 웨이모의 학습 파이프라인으로 재투입될 때, 비로소 자율주행 기술은 인간의 평균을 넘어 '입증 가능한 안전'의 단계로 진입하는 진정한 플라이휠을 완성하게 된다.
| Metric | Waymo (Alphabet) | Tesla |
|---|---|---|
| Fully Autonomous Miles | >127 Million (Rider-only through Sept 2025) |
<250,000 (Austin Pilot estimate) |
| Supervised / Training Miles | ~100 Million+ (Simulation/Testing) |
>4.1 Billion (FSD Supervised) |
| Commercial Status | Live Robotaxi Service (24/7 public access) |
Pilot / Testing (Employee/Invite-only in Austin) |
| Active Locations | Phoenix, SF, LA, Austin, Atlanta (+ testing in FL, TX) |
Global (Supervised FSD) Austin, TX (Unsupervised Pilot) |
| Safety Benchmark | 0.74 injury-reported crashes per million miles (vs. 3.97 human avg) |
1 crash per ~6.36 million miles (Supervised Level 2 only) |
상업 자율주행 시대의 개막, 출격 준비를 마친 Waymo
지난 17일 블룸버그 통신은 Waymo가 1,000억 달러 이상의 기업가치를 인정받으며 150억 달러 규모의 초대형 투자 유치를 진행 중이라고 보도했다. 불과 1년 전 450억 달러였던 가치가 두 배 이상 급등한 것은, 시장이 Waymo의 기술적 성숙도와 상업적 성공 가능성을 확신하고 있다는 방증이다. 확보된 자금은 현재 2,500여 대 수준인 로보택시를 대폭 증차하고, 서비스 도시를 공격적으로 늘리는 데 투입될 예정이다. 12월 현재 미국 전역에서 안전요원 없는 상업 서비스를 유료로 제공하는 기업은 오직 Waymo뿐이다.
포브스는 올해 Waymo의 운임 매출이 최소 3억 달러에 이를 것으로 추산하며, 이를 두고 "구글의 광고 비즈니스를 넘어설 1조 달러짜리 기회"라고 평가했다. 반면, 2016년부터 매년 "내년 상용화"를 외쳐온 테슬라의 로보택시는 여전히 텍사스 오스틴 내 제한된 구역에서, 그것도 직원 대상의 파일럿 프로그램에 머물러 있다. 일론 머스크는 최근 트윗을 통해 "천천히, 그러다 한꺼번에" 변화가 올 것이라 예고했지만, 무인 주행 데이터가 전무하고 모델의 구조적 한계가 명확한 현시점에서 이는 실체 없는 희망 고문에 가깝다. '입증된 안전'을 무기로 한 Waymo의 독주는 2026년을 기점으로 폭발적인 성장을 앞두고 있다.
뉴스레터
오리지널 콘텐츠, 뉴스레터 그리고 특별 이벤트에 대한 소식을 먼저 받아보세요.


