オンライン問い合わせ

ニュース

Nvidiaの新しいBlackwell AIチップは、過熱の問題を抱えているようにさらされており、来年1月まで配達の遅れを引き起こします


Nvidiaの次世代Blackwell AIチップは、大容量のサーバーラックにインストールされた場合、深刻な過熱の問題に直面しています。これらの問題は、設計の変更と遅延につながり、Google、Meta、Microsoftなどの顧客の間でBlackwellサーバーのタイムリーな展開について懸念を提起しました。

インサイダーは、72チップを備えたサーバーで使用すると、NvidiaのBlackwell GPUが過熱できることを明らかにしました。これらのデバイスは、ラックごとに最大120kWの電力を消費することが期待されています。これらの問題により、NVIDIAは、過熱がGPUのパフォーマンスを制限し、コンポーネントの損傷のリスクをもたらす可能性があるため、サーバーラックの設計を複数回評価することを余儀なくされました。顧客は、これらのset折がデータセンターに新しいチップを展開するためのスケジュールを妨げる可能性があることを懸念しています。

報告によると、Nvidiaはサプライヤに、過熱の問題に対処するためにラックに複数の設計を変更するように指示しています。同社は、サプライヤーとパートナーと緊密に連携して、サーバーの冷却を改善するためのエンジニアリング改訂を開発しています。これらの調整は、このような大規模なテクノロジーリリースの標準的な慣行ですが、遅延を追加し、予想される配達日をさらに遅らせることです。

First Financialのレポートによると、遅延と過熱の問題に応じて、Nvidiaのスポークスマンは、「私たちはエンジニアリングチームとプロセスの重要な部分として、主要なクラウドサービスプロバイダーと協力しています。エンジニアリングの反復は正常であり、期待されます。これまでで最も先進的なシステムであるGB200は、さまざまなデータセンター環境に登場するには、お客様との共同設計が必要です。」Nvidiaはまた、「顧客は現在、GB200システムの市場機会を押収している」と述べています。

以前は、Nvidiaはチップ収量の設計上の欠陥のためにBlackwellの生産を延期しなければなりませんでした。NvidiaのBlackwell B100およびB200 GPUは、TSMC Cowos-Lパッケージテクノロジーを使用して2つのチップを接続します。この設計には、LSI(ローカルシリコンインターコネクト)ブリッジを備えたRDL中間層が含まれており、最大10TB/sのデータ転送速度をサポートしています。これらのLSIブリッジの正確な位置決めは、テクノロジーが予想どおり動作するために不可欠です。ただし、GPUチップ、LSIブリッジ、RDLインターレイヤー、マザーボード基板間の熱膨張特性の不一致により、反りおよびシステムの故障が生じています。この問題に対処するために、NvidiaはGPUシリコンの上部金属層とバンプ構造を変更して、生産の信頼性を向上させました。

したがって、最終改訂されたNvidia Blackwell GPUは、10月下旬に大量生産を開始するだけで、Nvidiaは来年1月下旬からこれらのチップを出荷できるようになります。

Google、Meta、Microsoftなどのハイテク大手を含むNvidiaのクライアントは、Nvidia GPUを使用して、最も強力な大手言語モデルを訓練します。Blackwell AI GPUの遅延は、Nvidiaの顧客の計画と製品に自然に影響を与えます。