먼저 보면 더 재밌어요:

한국인 3명 중 1명은 써본 적 있다는 챗지피티. 2020년 “Chat GPT - 3”의 등장 이후 너도나도 한 번 씩은 “AI 주식”에 대해 검색을 해봤을 정도로 관심도 많았고, AI가 사람들의 직업들을 대체할 것이라던지, 영화 매트릭스나 터미네이터처럼 AI가 세상을 지배할 것이라느니… 하는 우려들이 쏟아져 나오곤 했습니다.

생각해보면 재미있는 상상이기도 하지만 아직 시기상조라며 신경 쓰지도 않는 사람들도 있고…

오늘은 이런 거대한 기술 변화의 물결과 대기업들의 전쟁에 대한 이야기를 해볼까 합니다.

100년 뒤에 AI가 세상을 지배 할 것 인지의 여부와는 상관없이, 오늘을 사는 투자자라면 당연지사 세계의 이목이 집중되는 기술 변화에 관심을 가져보는 것이 좋기 때문입니다.

최소한 메타버스 붐보다는 오래갈 것이고, 파생되는 폰지 사기는 훨씬 적을 ‘진짜 기술 변화’입니다.

"AI is the big one. I don't think Web3 was that big or that metaverse stuff alone was revolutionary but AI is quite revolutionary."
“AI가 진짜 거대한 기술 변화죠. 웹3.0이 크다거나 메타버스에 관련된 것들이 그렇게 혁신적이라 생각지는 않지만, AI는 꽤 혁신적입니다.”

- Bill Gates, Reddit

상자 안에 숨은 사람. — 사실 챗지피티 안에 진짜 사람이 있을지도 모릅니다

AI 훈련이란? Chat GPT 훈련 방식

AI라고 하면 가장 먼저 생각나는 것은 역시 Open AI사의 Chat GPT입니다.

다양한 답변들을 기가 막히게 해주고, ‘정말 이 안에 사람이 들어가 있는 게 아닐까’ 싶을 정도로 사람 같은 AI를 만드는데에는 역시 어마무시한 비용이 들어갔습니다.

무슨 비용 때문에 이렇게나 돈이 많이 들어가는 걸까요? 챗지피티 상자 속에서 답변을 위해 구글 검색을 열심히 하는 알바의 임금…?

초밥을 만드는데 가장 돈이 많이 들어가는게 생선이라면, AI는 훈련 비용이 되겠습니다.

“Chat GPT, 물어!”

훈련이라는 단어를 듣자마자 떠오르는 모습이 있을 겁니다. 바로 그 모습 때문에 “AI 모델 훈련”은 정말 훈련 외에 적합한 단어가 떠오르지 않습니다.

AI 모델 훈련이라는 것은 알고리즘에 데이터를 집어 넣고 결과를 검사하고 모델의 출력을 조절하는 것을 반복적으로 하는 것을 의미합니다. 이 과정에서 훈련 중인 알고리즘은 패턴을 인지하기 시작하고 - 적당한 결정을 내리기 시작하며 - 점점 오차가 줄어들기 시작합니다.

챗지피티의 경우를 생각해봅니다. 챗지피티는 무슨 AI인가요?

챗지피티는 ‘가장 적합한 단어’를 고르는 AI입니다.

이러한 모델을 훈련시킨다고 생각해보면:

“그는 왼쪽으로 돌아서는 대신 ___으로 돌아섰습니다.”

우리는 논리적인 사고방식으로 바로 알 수 있습니다. 위 문장에서 밑줄에 들어갈 단어는 “오른쪽”이라는 것을요.

맨 처음 학습 시킬 땐 패턴을 충분히 인지하기 이전이기 때문에 랜덤한 단어들을 출력할 것입니다. 예를 들면 왼쪽으로 돌아서는 대신 널뛰기로 돌아섰다던지, 수영으로 돌아섰다던지, 강아지로 돌아섰다던지 등이 되겠죠.

반복된 데이터 입력으로 어느 정도 학습이 되었다면 점점 ‘말이 되는’ 단어들을 집어 넣을 것입니다. “돌아서다” 앞에 들어갈 만한 단어들로요. 반대편이라던지, 장소를 뜻하는 단어들 이라던지…

하지만 아직 오차는 존재합니다. 밑줄의 앞에 왼쪽, 대신 등의 보충 설명이 있기 때문입니다.

정답인 단어, 즉 “오른쪽”을 출력하는 모습이 될 때까지 반복되는 일련의 과정이 바로 AI 모델 훈련입니다.

개념적으로는 이렇습니다. 아쉽게도 기술 보고서에서 학습 방법에 대한 핵심적인 내용은 다루지 않기에, 우리는 우리에게 딱 필요한 정도만 이해하고 넘어가도록 하겠습니다.

Chat GPT 얼마? 훈련 비용

“AI프로젝트를 진행하는 기업의 약 1/4에 달하는 기업들이 50%에 육박하는 프로젝트 실패율을 보이며, AI 및 ML 프로젝트 중 78%가 배포되기 전의 단계에서 정체되었고,
AI를 학습시키는 과정 중 81%가 그들의 예상보다 어려웠다고 조사되었습니다.”

- 세상을 놀라게 한 기술 기업들이 한 마음으로 돕는 'AI 기업'

이런 식으로 삽질을 계속 하다 보면 완성되는 것이 AI모델이지만, 이 삽질은 얼핏봐도 엄청나게 어렵고, 실제로는 더 어렵고, 정말 방대한 양의 데이터가 필요하다는 것 정도는 알 수 있습니다. 그래서 돈은 얼마나 들었을까요?

Chat GPT-3에 들어간 훈련 비용은 $4,300,000

그리고 Chat GPT-4에 들어간 훈련 비용은 이를 아득히 뛰어넘는 $78,400,000 입니다.

그런데 이 GPT-4보다 2배 넘게 돈을 쏟아부은 모델이 있었으니.. 이름하야 제미나이 울트라

LLM 훈련 비용 비교. — Training Costs of AI Models

제미나이 울트라는 구글 딥마인드에서 개발한 AI 모델로, 이전에 발표한 적 있는 “Bard”를 새로운 이름으로 리브랜딩한 이후 지속적으로 디벨롭하고 있는 모델입니다.

제미나이 울트라는 총 $191,400,000의 훈련 비용, GPT-4 대비 2.44배 더 많은 비용이 들었습니다.

Gemini: 제미나이 울트라, 성능과 후기

‘그’ Chat GPT 4의 두 배가 넘는 지출을 감수하면서까지 개발했는데, 성능은 어떨까요?

정말 아쉽게도 국내외로 모두 평가가 좋지 못한 모습입니다.

대규모언어모델(LLM)을 평가하는 기준 몇 가지로 비교해보겠습니다.

The Strategy Deck에 의하면:

MMLU 5-shot

GPT-4: 86.4% / Gemini Ultra: 83.7%

MMLU: 언어 내에서 다양한 주제를 얼마나 깊고 폭 넓게 이해할 수 있는지 판단하는 기준

DROP F1 score

GPT-4: 80.9% / Gemini Ultra: 82.4%

DROP: 텍스트 내 서술과 추론에 대한 이해

HellaSwag 10-shot

GPT-4: 95.3% / Gemini Ultra: 74.4%

HellaSwag: 현실세계의 역학, 원인과 결과에 관한 상식적 추론

유일하게 Chat GPT-4보다 앞서는 것은 추론 능력이고, 상식은 크게 뒤떨어지는 모습입니다.

영상에 의하면 환각 문제도 심하다는데요, 여기서 AI환각(AI Hallucination)이란 Chat GPT나 Geminai와 같은 대규모언어모델(LLM)이 실제 데이터에 기반하지 않은 거짓 정보를 말하는 것을 뜻합니다.

챗지피티 사용모습, AI 환각에 대한 사진. — 존재하지 않는 거짓 정보는 확인되지 않았다 답하는 것이 옳습니다.

Chat GPT - 4o 모델에게 존재하지 않는 사건인 “어웨어랩 코인 사기 사건”이라고 질문하면 확인되지 않았다고 답변하는 모습입니다. 당연합니다. 어웨어는 신뢰를 가장 중요한 가치로 여기기 때문입니다.
그런데 영상 속 제미나이는 없는 사건에 대해 거짓 정보를 만들어내서 답변을 하는 모습(2:09)을 보입니다.

물론 영어로 질문하면 조금 더 나은 모습을 보이긴 하지만, 아직 업데이트가 많이 필요하다는 것은 부정할 수 없는 사실입니다.

먹잇감이 된 검색 시장, 변화하는 패러다임

“구글은 도대체 왜, 돈은 더 내고 성능은 뒤떨어지는 걸 만드는거야?”

알파벳(구글)의 주식을 하나라도 들고 계셨다면, 정말 울화가 치미는 내용이었을 것입니다.

그런데 알파벳이 어떤 방식으로 돈을 벌고 있는지 알면 이해가 됩니다. 이 돈 낭비(?)에는 비하인드 스토리가 있거든요.

바로 검색 시장이 위협 받고 있기 때문입니다. 이쯤에서 한번 구글링을 해보자고요. 미국 수도나 내일 날씨같이 쉽게 접근 가능한 정보 말고, “미국 건축물의 평균 높이”처럼, 뜬금없는 질문 어떠세요?

구글에 그대로 검색해보면 “미국의 마천루 목록, 미국의 10대 초고층 건물, 초고층 건물의 높이” 정도의 정보가 상단에 올라옵니다.

반면 Chat GPT에게 그대로 물어보면 “건물의 종류와 위치에 따라 크게 다르다”고 하며 “몇 미터짜리 주거용부터 도시 중심지에는 200미터가 넘는 고층 건물들이 많다”, “미국 지질 조사국 (USGS)의 데이터를 통해 건물 높이 및 분류 시스템에 대한 참조가 필요하다”고 전합니다.

질문자가 원하는 답변은 아니었을지라도, 필요한 답변을 하는 모습입니다. 검색을 하는 과정에서 큰 불편함으로 작용되는 ‘과한 정보의 양’을 해결하는 모습이죠. ‘사람들은 구글 대신 챗지피티를 사용하는게 편하지 않을까?’라는 생각을 해볼 수 있겠습니다.

구글의 분야 별 영업이익. — Distribution of Google segment revenues from 2017 to 2023

검색 시장, 매출 ‘전략’에 영향 주는 AI

검색 시장의 90%는 구글이 점유하고 있고, 알파벳 매출의 77.8%는 광고를 통해, 그리고 이 광고 매출은 검색엔진(=구글)을 통해 발생합니다. 사람들이 궁금한 것들을 찾아볼 때 구글 대신 챗GPT를 사용한다면 알파벳은 분명 광고매출에 적지 않은 타격을 입게 될 것입니다.

이전 글을 읽고 오신 분이라면 바로 이해하셨으리라 생각합니다.

“From now on, the [gross margin] of search is going to drop forever.”
“지금부터 검색 비즈니스의 [매출총이익률]은 영원히 떨어질 것입니다.”

마이크로소프트의 CEO가 했던 말, 기억나시죠?

이거 그냥 경쟁사 꼴 보기 싫어서 비아냥거린거 아니냐고요? 자세히 보시면 GPT-3이 출시된 2020년부터 알파벳의 광고 매출 비중은 줄어들고 있습니다. 매출이 매년 증가하고 있음에도 광고의 비중은 줄어들고 있다는 것이 포인트입니다. 이는 알파벳도 마이크로소프트가 한 말에 대해 동의, 이에 맞는 장기적인 전략을 수립하고 있다는 것을 의미하고,

믿거나 말거나 우연일 수 있지만 해석해보자면: 우리가 잘 알고 있는 AI가 검색 시장 매출 전략에 천천히 영향을 주고 있다는 것을 의미합니다.

다시 한번, 알파벳 매출의 77.8%는 검색엔진을 통한 광고 매출입니다. 인체의 70%가 수분으로 이루어져 있다는 것을 떠올려보면… 알파벳(구글)에게 광고 매출을 뜯어간다는 것은 우리로 치면 수분이 사라지는 것, 탈수 증상이 오고 말 것입니다. 당장은 문제 없지만, 5년, 10년 뒤에 탈수 증상이 오게 되는 미래가 그려진다면 오늘부터 이를 예방하기 위한 전략을 준비해야 합니다.

다른 방법은 없었을까? Chat GPT를 견제하는게 최선이었던 이유

이쯤에서 생기는 의문점이 하나 있습니다. AI가 답변을 잘 한다 하더라도 사용자들에게 필요한 정보를 긁어 오려면 검색 엔진을 사용해야 하지 않을까요? 이 과정에 수수료를 부과한다면 하락하는 광고 매출을 일부 방어할 수 있지 않을까요?

1. Chat GPT: Google, 사실… 나 너 필요 없어

우선 챗지피티는 우리가 상상하는 모습으로 정보를 가져오지 않습니다.

GPT-3은 2021년까지의 데이터, GPT-4는 2023년 4월까지의 데이터로 학습되었습니다.

겉보기에는 인간을 대신해 검색을 해주는 것처럼 보이지만, 사실 기술적으로 검색을 대신 해주는 것이 아니라는 뜻입니다. 단지 수많은 데이터들로 학습된 알고리즘이 데이터에 기반해 ‘밑줄에 올 만한 단어’를 조합해주는 것 뿐입니다.

우리가 세운 가설은 Chat GPT에게 구글이 필요하다는 전제 하에 세워졌습니다. Chat GPT가 구글이 필요 없다하면… 붙잡지 못하는 실정이라는 뜻입니다.

2. 가재는 게 편, GPT는 Bing 편

물론 사용자들은 매일 더 나은 기술을 요구합니다. 당장은 LLM에게 검색 기능이 필요 없을지 몰라도 유료로 사용 가능한 GPT의 최신 모델은 브라우징 기능을 제공하는 모습입니다. 진짜 검색을 대신해준다는 말입니다.

그런데 문제는: Chat GPT는 Microsoft사의 Bing을 통해 브라우징을 합니다.

Chat GPT를 만든 Open AI는 Microsoft와 꽤 깊은 이해관계가 존재하기 때문입니다.

Microsoft는 2023년 Open AI사에 $100억 넘는 금액을 투자, Open AI의 지분 49%를 확보하고 AI 지식재산권을 공유하며 독점 클라우드 서비스 제공 업체가 되었습니다.

이 파트너십을 통해 Open AI는 MS의 클라우드 컴퓨팅 플랫폼인 Azure를 AI 모델 훈련 및 배포에 사용합니다.

2024년 3월에는 그 10배에 육박하는 $1000억을 투자해 데이터 센터를 구축하려는 계획을 발표한 바 있습니다.

챗지피티에게 검색엔진이 없어서는 안될 시점이 온다 해도, 구글 대신 빙이 존재하는 한 명함을 내밀 자리는 없을 것입니다.

그렇다면, 결국 Chat GPT같은 LLM이 검색 엔진을 대체하게 되기 때문에 Gemini 개발에 돈을 써야 했던 것일까요?

Gemini가 필요했던 이유, 단순히 검색이 아냐

여기서 잠시 요약 정리를 해보자면,

Alphabet(Google)이 돈을 비효율적이라 생각이 들 정도로 쏟아부으면서 Chat GPT에 대항할 LLM인 Gemini Ultra를 개발 했으나, 성능은 뒤떨어짐
그렇게까지 해야만 했던 이유는 AI가 검색시장에 영향을 끼치고 있기 때문
Chat GPT는 Microsoft 편이기 때문에 당장 Alphabet과 협업할 이유가 없음

“…in the next 3years, office co-pilot itself can be multi billion dollar business and that's assuming 2~3% penetration rate.”
“…시장침투율을 2~3%로 가정했을 때, 향후 3년 내에 office co-pilot 비즈니스는 수 십억 달러 규모로 성장할 수 있습니다.”

-Rishi Jaluria, RBC Capital Stock Analyst

한 발자국 떨어져서 한번 숲을 보자면, 마이크로소프트와 구글이 AI에 미친 듯이 돈을 쏟아붓는 것은:

단순히 검색엔진에 AI를 달아두기 위함이 아닙니다. 앞으로의 거대한 기술 변화를 맞이함에 따라 자연스러운 포지셔닝을 할 수 있는 기회, 그리고 이를 위한 인프라 구축 경쟁이라고 보는 것이 맞습니다.

Google Meet, Google Calendar, Google Doc, Gmail…

MS Teams, One Calendar, MS365, Outlook…

대중의 시선을 사로잡는 그 어떤 기술도 관심이 사라지면 몰려든 돈은 사라지기 마련입니다.

결국 돈을 버는 건 생태계를 갖고 있는 기업입니다.

Microsoft의 CEO인 Satya Nadella가 발언한 “검색 시장의 매출총이익률이 영원히 떨어질 것”의 속뜻, 비로소 이해가 되기 시작합니다.

이건 검색 시장에 국한되지 않습니다. 조금 더 포괄적입니다.

개발, 리서치, 디자인… 일상에 녹아있는, 부가가치를 만들기 위한 모든 업무에는 검색이 필요합니다. 앞으로는 이 문장에서 “LLM”이 “검색”의 위치를 대신 할 것입니다.

검색 시장의 대부분을 점유하고 있는 구글의 위기감은 바로 이 대목에서 시작됩니다. 상사가 “AI 코파일럿을 사용하면 되는 걸 왜 검색하고 앉아 있냐”고 말하는 순간이 오면, 그 순간이 구글이 죽는 순간이 될 것입니다. 우리의 마음 속엔 “검색 하면 구글”이 자리 잡혀 있습니다.

AI코파일럿 하면 누구? 아직 마음 속에 완벽하게 자리 잡힌 프로덕트가 없습니다.

이는 Microsoft가 Open AI에 돈을 쏟아붓고 GPT의 브라우징에 Bing을 붙이고 워드나 엑셀에 코파일럿을 추가하는 모습과 Alphabet이 열심히 Gemini를 디벨롭하는 모습은 결국 같은 선상에서 경쟁하는 모습임을 시사합니다.

검색을 대체한다?: 챗GPT vs Gemini, 구글이 포기 않는 이유