Microsoftが2024年2月に発表した技術「BitNet」を一般公開した。LLMの性能は落とさず、推論にかかる消費メモリや電力を大きく削減できる可能性がある。
この記事は会員限定です。会員登録すると全てご覧いただけます。
AIやデータ分析の分野では、毎日のように新しい技術やサービスが登場している。その中にはビジネスに役立つものも、根底をひっくり返すほどのものも存在する。本連載では、ITサービス企業・日本TCSの「AIラボ」で所長を務める三澤瑠花氏が、データ分析や生成AIの分野で注目されている最新論文や企業発表をビジネス視点から紹介する。
「LLMの小型化なんて結局は出力品質とのトレードオフでしょう」──そんな常識が覆される日が迫っているかもしれません。
Microsoftは2024年2月に「BitNet」という技術を発表しました。一般的なLLMはパラメーターを16bitで表現していますが、BitNetはこれを約1.58bit(1、0、-1の3値)で表現することに成功したのです。
この技術が驚異的なのは、モデルの性能を犠牲にせずに推論に必要なメモリ使用量と消費電力を削減できる点です。理論的には70B(700億パラメーター)モデルで16bitから1.58bitに落とした場合、メモリ使用量を約86%削減できる可能性が示されました。
そして2024年10月、この革新的な技術にさらなる転機が訪れます。Microsoftが「bitnet.cpp」という名前でこの技術を一般公開したのです。誰もがこの技術を検証し、活用できるようになりました。
この技術は本当に実用に耐え得るのでしょうか。企業はどのようにこの革新的な技術を活用できるのでしょうか。
現在の主流ではLLMのパラメーター1つ当たり16bitで表現されます。この場合、出力品質が高い代わりにモデルサイズが大きくなり、推論の際のメモリ使用量が莫大になることがあります。性能が低い汎用PCで動作させる場合はパラメーター1つ当たりの情報量を8bitや4bitまで落とすといった工夫がなされます。この場合、モデルサイズが小さくなる代わりに出力品質が落ちますが、BitNetではパラメーター1つを「1」「0」「-1」の3つの値を1桁で表現するという特殊な手法で、性能を落とさずにモデルサイズを圧縮しました。「1」「0」で表現する1bitを少し拡張した1.58bitとしています。
BitNetの真の革新性はその処理方式にあります。論文によれば、従来のAIモデルが必要としていた複雑な浮動小数点演算をシンプルな整数演算に置き換えることに成功しています。16bitでの推論に比べて速度は最大6.17倍向上し、算術演算のエネルギー消費は最大82.2%削減を達成しました。
実際の性能評価では、さまざまなタスクで従来モデルと同等以上の結果を示しています。特に3B(30億)パラメーター以上のモデルサイズでは、標準的なベンチマークテストで16bitモデルを上回る性能を示すケースも確認されています。
GitHub(ギットハブ)で公開されたbitnet.cppの実装は、現時点で主にCPU上での推論に最適化されています。特筆すべきは、100B(1兆)パラメーターの巨大なモデルでさえ、単一のCPUで人間の読書速度(約6トークン/秒)に匹敵する処理速度を実現できる点です。
しかし、現状では幾つかの制約も存在します。GPU/NPUへの対応は開発中であり、対応モデルサイズにも制限があります。これらは今後のアップデートで改善が期待される部分です。
論文では、BitNetが切りひらく3つの重要な可能性が示唆されています:
企業がBitNetの導入を検討する際、特に注目すべきはBitNetが既存の「llama.cpp」と互換の実装方式を採っていることです。現在llama.cppを使用している企業は、比較的少ない工数で移行検証を始められます。
ただし、全ての企業に即座の導入を推奨するわけではありません。3B未満の小規模モデルでは従来の手法が優位な場合もあり、実環境での安定性検証もまだ発展途上です。
BitNetの利用を試みる場合、とるべきアクションは以下の通りです。
BitNetはAIの民主化と効率化に向けた重要な一歩を示しています。その真価は理論的な可能性だけでなく、実装の公開により現実的な検証が可能になった点にあります。今後の発展と実用化の進展に、業界の注目が集まっています。
Copyright © ITmedia, Inc. All Rights Reserved.