우리가 리서치를 할 때 제 1 원칙은 한국어로 된 자료를 참고하거나 믿지 않는것이다. 제 2 원칙은 원 출처에 기반할 것이다. 제 3 원칙은 소셜 미디어에서 유명한 사람(인플루언서)의 말을 신뢰하지 않는것이다.
신뢰할 수 없는 정보의 예시
다음은 DeepSeek에 대한 신영증권 반도체 담당 박상욱 선임연구원의 코멘트이다.
DeepSeek, AI 기술주 급락 코멘트
중국 딥시크(DeepSeek)의 영향으로 브로드컴, 엔비디아, 마이크론 등 AI 관련 업체들의 주가가 약세를 보임.
딥시크는 2023년에 설립된 중국의 AI 스타트업으로, 효율적인 AI 모델 개발로 주목받고 있음. 딥시크가 발표한 바에 따르면 첨단 하드웨어가 없이도 저비용으로 고성능 AI를 구현 가능함. 실제로 챗GPT o1과 비교했을 때 답변 수준이 유사한 것으로 확인됨.
외신에 따르면 딥시크는 대중 규제로 성능이 하향된 H800 칩을 사용했음. 딥시크는 H800을 시간의 2달러의 비용으로 2개월을 대여했다고 추측되며 총 비용은 약 58만달러로 라마3 학습 비용의 10분의 1수준임. 딥시크는 제한된 자원으로 고성능 AI 개발이 가능하단 점을 입증함.
딥시크의 발표로 향후 미국 빅테크 업체들의 효율성 중심 개발 트렌드가 강화될 가능성 높다는 판단. 비용 효율화가 비용 절감을 뜻 하는건 아니지만 투자를 보수적으로 집행할 가능성 높음. 1월 말부터 시작될 빅테크 업체들의 실적발표에 주목할 필요 있음.
또한 금번 발표로 인해 대중 수출 규제 강화될 가능성 높음. 중국이 낮은 비용으로 고성능 AI를 구현 가능한게 확인되면서 H800과 같은 대중 수출용 AI 반도체도 규제에 걸릴 것으로 전망됨. 반도체 소재, 부품, 장비 또한 규제에서 자유롭지 않다는 판단. 딥시크는 미중 무역 분쟁 심화의 계기가 될 것으로 예상됨.
당사는 딥시크가 H800으로 AI를 학습시켰는지에 대한 사실 여부를 확인할 필요 있다고 판단함. 중국은 미국 수출 규제를 우회해 H100 등 최신 AI 반도체를 수입하고 있다고 파악됨. 최근 Scale AI CEO인 Alexandr Wang은 CNBC 인터뷰에서 딥시크가 이미 5만개 이상의 H100을 보유하고 있다고 밝힘. 5만개의 H100의 가격은 대략 15억달러로 딥시크의 AI 개발 비용으로 추정되는 58만달러의 2,586배 수준. 루이싱커피, 이항 등 내부 정보를 통제했던 사례들을 고려하면 딥시크에 대한 정보도 과장됐을 가능성 존재한다는 판단.
논란이 된 건 DeepSeek의 V3 모델로, 기존보다 저비용에 OpenAI의 o1 모델과 비슷한 수준의 성능을 낸다고 주장하면서 AI 인프라(GPU 등)에 대한 과잉투자가 이루어진 것 아니냐는 우려를 일으켜 월요일 AI 관련주의 패닉셀을 불러 일으켰다. AI 인프라 대장주인 엔비디아(NVDA)의 경우 하루만에 16.97% 폭락할 정도로 투자자 심리에 거대한 악영향을 끼쳤다고 할 수 있다.
원 출처에 기반한 정보
DeepSeek는 V3 Technical Report에서 훈련 비용이 $5.57 million, 즉 557만 달러라고 밝혔다. 박상욱 연구원의 58만 달러는 어디서 나온 숫자인지 모르겠는데, 부디 오타이길 바란다.
DeepSeek는 엔비디아의 H800 GPU 2,048개가 NVLink와 NVSwitch로 연결되어 있는 GPU 클러스터를 사용하여 V3 모델을 학습했다고 밝혔다.
해당 클러스터로 Pre-Training에 사용된 H800 GPU Hours를 나누면 약 2개월이 못 미치는 기간이 나온다. 모든 과정이 두 달만에 완료되었다는 이야기는 아니다.
DeepSeek는 "위에서 언급한 비용은 DeepSeek-V3의 공식 트레이닝에만 해당되며, 아키텍처, 알고리즘, 데이터와 관련된 사전 연구나 ablation에 들어간 비용은 포함되지 않는다"고 명시했다.
DeepSeek-V3 훈련 비용: 557만 달러는 전체 훈련 비용이 아니라 GPU 임대 시간 기준으로 계산된 값이다.
훈련 시간 및 토큰 수치: 논문에서 제시한 2.788M GPU 시간과 14.8조 토큰 수치는 충분히 가능하다고 판단된다.
병목현상 감소: fp8 혼합 정밀도와 MoE 최적화 덕분에 훈련 효율성을 높였다.
결론: 논문에서 주장한 훈련 시간과 비용은 현실적이며, 기술적 개선으로 이를 가능하게 했다.
DeepSeek-V3 논문에서 주장한 훈련 시간과 토큰 수치는 충분히 검증 가능한 수준이다. 논문에서 주장한 557만 달러의 비용은 모델 전체의 훈련 비용이 아니라 GPU 임대 시간 기준으로 계산된 값이다. 결론적으로, DeepSeek-V3가 14.8조 토큰을 2.788M GPU 시간으로 훈련했다는 주장은 현실적이며, 논문에서 제시된 모델 최적화와 병목현상 감소가 이를 뒷받침하고 있다.
음모론 검증 및 결론
신영증권 박상욱 연구원 등을 비롯한 음모론자들이 제기하는 "DeepSeek가 실제로는 H800 보다 성능이 높은 (중국에 수출이 제한된)H100 GPU를 이용해서 훈련을 했을것이다"는 주장은 신빙성이 떨어진다. DeepSeek 연구진은 H100 대비 인터커넥트 대역폭이 제한된 H800 클러스터의 병목현상을 보완하기 위해 여러 최적화 기법(fp8 훈련, load-balancing MoE, DualPipe 등)을 동원해서 이를 약 13% 줄인것으로 추정되는데, H100을 이용해서 훈련했었으면 이 정도의 최적화는 필요 없었을 가능성이 매우 높다.
DeepSeek는 논문을 통해 실현 불가능한 수준의 주장을 한게 아니다. 일부가 논문의 내용을 확대해석해서 "누구나 550만 달러가 있으면 GPT o1에 비견하는 모델을 두 달 만에 만들어낼 수 있다"는 잘못된 주장을 하고 있는것이 문제의 본질이다. OpenAI GPT o1이나 DeepSeek V3 수준의 모델을 만드려면 뛰어난 인력들의 광범위한 선행연구와 여러번의 모델 훈련이 필요하다. DeepSeek는 V3 모델의 가장 성공적인 훈련을 실행하는데 557만 달러가 들었다고 밝힌것이다.