Google Al が開発した大規模な言語モデルを動かすために使用されているGPU

Google Al が開発した大規模な言語モデルを動かすために使用されているGPUについて解説しています。この記事を公開しようと考えた理由は大規模な言語モデルを動かすためにはどのようなものが使われているか気になったためです。

今回は直接Google Bardを介して大規模言語モデル「PaLM 2」に質問を行いました。まず、私が質問したのは「Google Bardの記憶の保持について詳しく解説してください。」ということです。

Google Alの大規模な言語モデルには、Google が設計したカスタムTPUを使用しています。 TPUは、Tensor Processing Unitの略です。TPUは、大規模な機械学習モデルのトレーニングと推論向けに特別に設計されています。CPUやGPUよりも効率的であり、大規模な言語モデルのトレーニングに必要な計算能力を提供することができます。
Google Al の大規模な言語モデルを動かすために使用されている具体的なTPU の種類は、モデルのサイズと複雑さによって異なります。たとえば、PaLM は5400億のパラメータを持つ大規模な言語モデルであり、 10,240個のTPU v4 チップで実行されます。
TPUは、Google Al の大規模な言語モデルをトレーニングし、推論するために不可欠なツールです。 TPUにより、 Google Al は、世界で最も強力な言語モデルのいくつかを開発することができました。

質問した結果、上記の回答が得られた。回答からGoogle Al が開発した大規模な言語モデルを動かすために使用されているGPUはGPUではなくGoogle が設計したカスタムTPU（Tensor Processing Unit）ということ。CPUやGPUよりも効率的であり、大規模な言語モデルのトレーニングに必要な計算能力を提供することができる。なお、PaLMは5400億のパラメータを持つ大規模な言語モデルであり、 10,240個のTPU v4 チップで実行されている。TPU v4 チップについては、GoogleCloudのシステムアーキテクチャのページ（https://cloud.google.com/tpu/docs/system-architecture-tpu-vm?hl=ja）で確認することができ、このGoogleのAI用プロセッサ「TPU v4」はNVIDIAの「A100」より高速で効率的だと言われている。

次にこの「TPU v4にかかるエネルギー」について気になったので大規模言語モデル「PaLM 2」に質問を行ってみた。

TPUv4 は、Google が独自に設計した第 4 世代のカスタム TPU チップです。TPUv4 は、TPUv3 チップよりもエネルギー効率が高く、最大 400 ワットの消費電力を実現しています。
Google は、TPUv4 のエネルギー効率を向上させるために、いくつかの技術を使用しています。 1 つの技術は、チップ内のトランジスタをより小さくする FinFET 技術です。 FinFET は、従来のトランジスタよりもエネルギー効率が高くなっています。もう 1 つの技術は、チップ内の電力を効率的に管理するダイナミック電圧スケーリングです。ダイナミック電圧スケーリングにより、TPUv4 は負荷に応じて電圧を調整できます。
TPUv4 のエネルギー効率は、大規模な言語モデルのトレーニングに必要なエネルギーを大幅に削減するのに役立ちます。たとえば、TPUv4 は、TPUv3 よりも最大 2 倍効率的に大規模な言語モデルをトレーニングできます。これにより、Google AI はより多くのモデルをトレーニングしたり、モデルをより頻繁にトレーニングしたりできます。
Google は、データセンターのエネルギー使用量を削減するために、さまざまな技術を使用しています。 1 つの技術は、風力や太陽光などの再生可能エネルギー源の使用です。もう 1 つの技術は、データセンターの効率を向上させるための冷却技術の使用です。
Google は、データセンターのエネルギー使用量を削減することに取り組んでおり、2030 年までにデータセンターのカーボンニュートラルを実現することを目指しています。

質問後、得られた回答が上記となる。回答から今までのGoogle が独自に設計したカスタム TPU チップよりも、エネルギー効率が高く、大規模な言語モデルのトレーニングにはかなりのエネルギーが必要になるので、これを削減するためには役立っている。

次にそもそも「TPUとGPUとの違い」は何なのか気になったため、これについても質問してみることにした。

TPU（Tensor Processing Unit）とGPU（Graphics Processing Unit）はどちらも、機械学習および人工知能（AI）アプリケーションに使用される特殊なプロセッサです。どちらも数値計算に優れていますが、いくつかの重要な違いがあります。
TPUは、Googleが独自に設計した機械学習向けに特別に設計されたプロセッサです。ニューラルネットワークを非常に高速にトレーニングおよび実行できるように設計されています。一方、GPUは、元々ビデオゲーム用に設計された汎用プロセッサです。ただし、ニューラルネットワークを高速に実行するためにも使用できます。
TPUとGPUの主な違いは、アーキテクチャです。TPUは、ニューラルネットワークの計算に最適化された特殊なアーキテクチャを使用しています。一方、GPUは汎用アーキテクチャを使用しています。これは、ニューラルネットワークの計算とビデオゲームの計算の両方に使用できます。
アーキテクチャの違いにより、TPUはGPUよりも効率的です。つまり、同じ計算を実行するために必要な電力が少なくなります。これにより、TPUは、電力コストが重要なクラウドコンピューティング環境で人気のある選択肢になっています。
TPUはGPUよりも高速です。つまり、ニューラルネットワークをトレーニングして実行するのにかかる時間が少なくなります。これにより、TPUは、時間のかかるニューラルネットワークトレーニングが必要なAIアプリケーションで人気のある選択肢になっています。
ただし、TPUにはいくつかの欠点もあります。TPUはGPUよりも高価です。また、GPUほど広く利用できません。これは、TPUがGoogle専用のプロセッサであるためです。
全体として、TPUは、効率性と速度が必要なAIアプリケーションに最適な選択肢です。ただし、TPUはGPUよりも高価で広く利用できません。

質問後、得られた回答が上記となる。回答からTPUとGPUの主な違いは「アーキテクチャ」ということがわかった。

【追記】

回答後、PaLMは5400億のパラメータを持つ大規模な言語モデルであり、 10,240個のTPU v4 チップを使用しており、TPU v4 チップは最大 400 ワットの消費電力を実現しているということだが、どれだけの電力、エネルギーが必要になるか疑問に感じたので、これについても質問してみました。

TPU v4 チップは、Google が設計した 5 ナノメートルプロセスで製造された特殊なプロセッサです。高速で効率的になるように設計されており、1 秒あたり最大 45 ペタフロップスの演算を実行できます。これは、最も強力なスーパーコンピュータのいくつかよりも高速です。
TPU v4 チップは非常に強力ですが、消費電力も非常に大きいです。最大 400 ワットを消費できるため、10,240 個のチップでは最大 410.4 メガワットを消費できます。これは、多くの家庭の年間電力使用量よりも多いです。
TPU v4 チップは非常に強力で効率的ですが、消費電力も非常に大きいです。これは、大量の電力を必要とするアプリケーションに適しているため、大規模な言語モデルなどのアプリケーションに適しています。ただし、高電力消費は、電力インフラストラクチャの負担になるため、懸念事項でもあります。

参考：Google Cloudの新しいTPU v4 MLハブは9エクサフロップスのAIを搭載している（https://www.hpcwire.com/2022/05/16/google-clouds-new-tpu-v4-ml-hub-packs-9-exaflops-of-ai/）、google、自社製AIエンジン「tpuv4」の存在を示唆（https://www.nextplatform.com/2021/05/21/google-hints-about-its-homegrown-tpuv4-ai-engines/）

質問後、得られた回答が上記となる。回答からTPU v4 チップは非常に強力だが、その分消費電力も非常に大きく、最大400ワットを消費できるため、10,240 個のチップでは最大 410.4 メガワットを消費できるということがわかった。これは、多くの家庭の年間電力使用量よりも多い。

次に「最大410.4 メガワットを消費というのがイメージがつきにくいので、わかりやすく説明してください」という質問をしてみました。

はい。410.4 メガワットは非常に多くの電力です。たとえば、平均的な家庭は年間 900 キロワット時（kWh）の電力を消費します。410.4 メガワットは 410,400 キロワット時、つまり 410.4 倍の電力です。つまり、1 時間で 10,240 個の TPU v4 チップを実行するには、平均的な家庭が 1 年間使用する電力と同じ量の電力が必要になります。
410.4 メガワットは非常に多くの電力であるため、電力インフラストラクチャの負担になる可能性があります。たとえば、大規模なデータセンターが 410.4 メガワットの電力を消費する場合、電力網の一部に追加の容量を追加する必要がある場合があります。これは、費用と時間がかかる可能性があります。
高電力消費は、環境にも悪影響を及ぼす可能性があります。電力は主に化石燃料で生成されており、これらの燃料の燃焼は温室効果ガスを大気中に放出します。温室効果ガスは気候変動の一因となるため、これは問題です。
これらの懸念にもかかわらず、TPU v4 チップは非常に強力で効率的なプロセッサです。大規模な言語モデルなどのアプリケーションに適しており、将来もますます一般的になる可能性があります。

得られたのが上記の回答となる。回答から平均的な家庭は年間 900 キロワット時（kWh）の電力を消費し、410.4 メガワットは 410,400 キロワット時、つまり410.4 倍の電力ということのようだ。非常に多くの電力が必要なため、環境にも悪影響を及ぼす可能性があるが、よりクリーンな電力となれば原子力発電か、核融合発電に頼る方向になるのではないかと考える。

なお、平均的な家庭は年間 900 キロワット時（kWh）の電力というのはどこからの情報なのか気になったので、これについても質問を行った。

米国エネルギー省によると、2020年の米国の家庭の平均電力消費量は年間905 kWhでした。この数字は、気候、家庭のサイズ、エネルギー効率などの要因によって異なります。たとえば、暖かい気候に住む家庭は、暖房に電力を消費するため、寒い気候に住む家庭よりも多くの電力を消費する傾向があります。また、大きな家は小さな家よりも多くの電力を消費する傾向があり、エネルギー効率の高い家はエネルギー効率の悪い家よりも多くの電力を節約する傾向があります。

質問し得られた回答が上記となる。回答から平均的な家庭は年間 900 キロワット時（kWh）の電力というのは、日本の情報ではなく、米国エネルギー省の情報のようだ。（追記：2020 年の米国の一人当たりの家庭用電力使用量はハワイ州の1人あたり 2,018 kWh からルイジアナ州の1人あたり 6,663 kWh まで、州によって大きく異なっている。）

ここまで大規模な言語モデルを動かすためにはどのようなものが使われているか調べてみると、私からすればとても面白いと感じれることがあった。

最後に「Bard で生成される情報は不正確または不適切な場合がありますが、Google の見解を述べるものではありません」ということなので、どこまでこの情報が正確なものかはわからないがある程度は信憑性があると考えている。

■プロンプトエンジニアリング（Prompt engineering）へ戻る