AWARE オリジナル

2025年08月20日

韓国発のAI半導体スタートアップ「FuriosaAI」は、NVIDIAを超えることができるか?

ソン・リュンス    avatar

ソン・リュンス

Furiosa AI's RNGD accelerator product image on a red colored background.
「NVIDIAがガソリン車なら、Furiosaは電気自動車」
「NVIDIAとFuriosaAIは、いわば『F1(フォーミュラ1)』のレースをしているようなものだ。F1で生き残るには、極限までスピードを上げ、パフォーマンスを高めなければならない」。FuriosaAIの創業者であるペク・ジュンホ代表は14日、ユニコーン(企業価値1兆ウォン以上のスタートアップ)入りを果たして以降初めて…
チャン・ウンジ記者 favicon
東亜日報 - チャン・ウンジ記者

数日前、テスラは自社製AIアクセラレータであるDojoの開発を中断し、エンジニアリングチームを公式に解散した。現在、完工済みまたは計画中のテスラのデータセンターでは、AIモデルの学習に主にNVIDIAのデータセンター向け製品群が使用されているが、Dojoの第1世代チップも一部活用されていると伝えられている。

2016年にテスラへ移籍し、Dojoのハードウェア/ソフトウェア設計から量産までを統括したGanesh Venkataramanan氏は、以前AMDで設計エンジニアリングを担当し、200名以上のエンジニアを管理していたシニアディレクター(Sr. Director)であり、2023年10月に起業のためテスラを去った。イーロン・マスクに直接報告を行っていたカスタム半導体および低電圧電気部門統括副社長のPeter Bannon氏も今月会社を去ったことから、テスラは車両に優先的に搭載されるAI6チップの開発に集中するものと予測される。

FuriosaAIのペク・ジュンホ代表は、AMDのGPUソフトウェアエンジニア、サムスン電子のメモリハードウェアエンジニアを経て、2017年にFuriosaAIを設立した。ペク代表は現在、圧倒的な性能を誇るNVIDIAを「ガソリン車」に、自社が開発中の推論専用アクセラレータを「電気自動車」に例え、NVIDIAの最上位推論用製品であるL40Sと同等の性能を達成しつつ、電力効率は2倍以上高いと主張している。

L40Sはメモリ容量が48GBと比較的少なく、NVIDIAのフラッグシップデータセンター製品群が対応しているNVLinkが省かれた製品だ。NVLinkは複数のチップを束ねて一つのように扱えるようにする技術だが、非常に巨大な言語モデルを扱ったり、ユーザーからの推論リクエストを並列処理したりするには、チップ単体の容量(H100基準で80GB)を超えるメモリが必要となるため、多くのデータセンター環境においてH100は8つのチップが1つのノード(node)として束ねられ、セッティングされている。

最近、モデルパラメータの拡大による性能改善が限界に達したという懸念(正確には、これ以上学習させるデータがない)が共通して提起される中、推論プロセスにより重点を置いたモデルが登場しており(例:GPT o3)、これらは推論プロセスにコンピューティングリソースを多く割り当てれば、アウトプットの性能改善につながることを証明している。それゆえ、ペク代表が主張する今後到来する「推論の時代」については、大きな異論の余地はない。フロンティアモデルのパラメータは拡大し続けるだろうが、その速度は鈍化するはずであり、AIモデルの性能が改善されるにつれて推論需要は絶えず増加しているからだ。

モデルを一度学習させれば終わる学習コスト(固定費)に比べ、推論コストはユーザーのリクエスト量に応じて増加するコスト(変動費)であり、したがってサービス提供者が非常に敏感に反応する領域である。主に「トークンあたりの単価」で測定されるが、モデルごとに1つのトークンが持つ情報の大きさが異なるため、絶対的な指標ではない。しかし、AIサービス提供において、トークンあたりの推論単価は考慮すべき要素の一部である。性能が維持されつつも、反応速度とトークン生成速度が十分に速くなければならず、適切なコンテキストウィンドウ(context window)を確保し、入力された情報をすべて考慮した回答を提供する必要があるだろう。

出所:FuriosaAI
出所:FuriosaAI

LLMの推論性能ベンチマークで頻繁に使用されるtoken/sという指標は絶対的なものではない。FuriosaがRNGDの製品ページでNVIDIAのH100やL40Sを上回ると主張する際に使用しているデータは、テスト環境に関する情報が非常に限定的であり、実際のデータセンターにおけるサービス環境での性能を推し量るには無意味だと判断する。さらに、同社のウェブサイトで性能テストの値をどのような環境で導出したのかを説明する資料があるか探してみたが、見つけることはできなかった。

主にアピールしている指標であるtoken/s/Wは電力効率を測定するためのものと思われるが、以下に我々が独自に計算した表を見ると、AIアクセラレータがLlama 3.1 70Bモデルを推論する際、実際に消費する電力ではなく、TDP(熱設計電力)基準で測定したことがほぼ確実である。この仮定を適用した場合、H100 SXM比で80%優れ、L40S比では1,038%高い数値が同様に算出されることがわかる。TDPはチップが放出可能な最大熱量を表記した値であるため、サーバーの冷却ソリューション設計に最適化された値であり、実際の使用時の電力消費量とは直接的な関係はない。また、TDPの計算方式は規格化されておらず、メーカーごとに異なる方法で測定するため、電力効率を論じるにはなおさら信頼性が低い。

出所:AWARE
出所:AWARE

Furiosaが比較対象としていないモデルであるH100 NVLの場合、TDPを一般モデル(H100 SXM)の半分程度に抑え、メモリ帯域幅を高めた「推論に適した」派生モデルであるが、同社が好んで用いるTDPあたりの指標では4.32 FLOPSと、圧倒的な効率を誇っていることがわかる。

NVIDIAが実際に大規模推論サービスにおいて効率的であるとするH100 NVLモデルに関するテストデータはない。しかし、もしFuriosaがRNGDを宣伝するために選択した指標をこの製品に同様に適用した場合、どのような結果が出るのか興味深かったため、Google DeepMindが運営するブログの「Theoretical Max Tokens/s(理論上の最大トークン数/秒)」および「Theoretical Step Time (General)」の公式を使用して理論的な最大スループット値である2,690を算出した。そして、Furiosaが提供したH100 SXMのテストデータと理論上の最大値の比率(77%)を適用して予想実効スループットである2,091トークン/秒を求め、これをメーカー発表のTDP(W)で割った5.98(アウトプットトークン/秒/ワット)という値を推算した。この場合、H100 NVLの純粋なスループット性能はRNGDより119%上回り、同一電力基準では12%上回る結果となった。

NVIDIA L40Sの場合、理論上の最大性能に対しわずか24%という結果を示したが、これはテストに使用されたLlama 3.1 70Bモデルの容量が約70GBに達するためである。L40SはGPUあたりのメモリ容量が48GBであるため、当該モデルを駆動するには複数台のGPUを接続する必要があるが、旧型のPCIe第4世代規格(双方向帯域幅64GB/s)を通じて接続するため、一度に複数のバッチを推論する場合、通信遅延が発生するのである。

以下はバッチサイズごとのスループット計算を示した表であるが、L40Sの場合、バッチサイズ32個からGPU間の通信遅延によるボトルネックが発生する可能性が高いと見られる。RNGDの場合、PCIe第5世代規格(双方向帯域幅128GB/s)を使用しているため、GPU間の通信遅延よりは演算速度(TFLOPS)の限界により、バッチサイズ170個からボトルネックが発生すると推定される。当該バッチサイズで予想されるKVキャッシュ(KV Cache)容量は53.1GBである。

出所:AWARE
出所:AWARE

もう一つ興味深い点は、RNGDの性能データが理論上の最大値に非常に近かったことだ。実に98%に達したが、実際の大規模サービス環境においてこれほどの効率を示すAIアクセラレータは存在しない。FuriosaAIのエンジニアたちが良い結果を出すために、凄まじいレベルの最適化を行ったものと思われる。同社が選択したインプットトークン(プロンプト)2,048個とアウトプットトークン128個を出力するテスト環境は、長文の資料を読み込ませて要約をリクエストする作業を念頭に置いたものだが、実際のユーザーリクエストは大部分がプロンプトに対してアウトプットが長く、したがってメモリ帯域幅がより重視される。逆にインプットトークンを128個、アウトプットトークンを2,048個と仮定して推計すると、H100 SXMのRNGDに対する最大秒間スループット倍率は2.94倍から3.74倍へと広がる。

FuriosaAIが提示する推論用性能判断指標とデータを額面通りに受け取ったとしても、RNGDモデルはペク・ジュンホ代表が「ガソリン車メーカー」に例えたNVIDIAの推論専用モデルであるH100 NVLの予想電力あたり性能に対し、89%程度にとどまると見られる。NVIDIA製品の場合、すでに世界中のデータセンターの至る所に膨大な数が普及しており、それゆえ最適化のノウハウが研究者や開発者の間に広く行き渡っているため、実際の大規模サービス環境での性能格差はさらに広がると予想される。しかし、会社側が恣意的に選択したデータであることを考慮しても、RNGDの製品スペックはAIアクセラレータのスタートアップ製品の中では非常に優れた性能を示していると私は考える。

しかし、NVIDIAをガソリン車に例え、FuriosaAIをあたかも10年前のテスラのように、既存のメーカーが成し遂げられなかった完全に新しい市場を開拓する企業であるかのようにポジショニングする発言は、AIに関する専門知識を持たない大多数の人々に対しては、相当な誤解を招く恐れがある。ペク・ジュンホ代表の肩にかかる重圧を考慮したとしても、である。

コメント0

ニュースレター

オリジナルコンテンツ、ニュースレター、特別イベントに関する最新情報をいち早くお届けします。

続きを読む