オープンソースChameleon_7B_mGPTモデル - モデル初期化プロセスを簡素化し、無料でデプロイするのが超安心

ホーム

Chameleon 7B Mgpt

Alpha-VLLMによって開発

Chameleon-7bはLumina-mGPTリポジトリから変換されたチェックポイントモデルで、モデル初期化プロセスを簡素化することを目的としています。

大規模言語モデル

Transformers

#任意から任意への変換 #モデル並列最適化 #アテンションヘッドパラメータの一貫性

ダウンロード数 129

リリース時間 : 7/28/2024

モデル概要

このモデルはChameleon-7bの変換バージョンで、主にテキスト生成タスクに使用され、多言語処理をサポートします。

モデル特徴

初期化プロセスの簡素化

変換スクリプトによりLumina-mGPTトレーニングの初期化プロセスを簡素化しました。

改良されたqk-norm実装

qk-norm層の実装を最適化し、グループ内でパラメータが一貫するようにし、ファインチューニング時のパラメータ分化問題を回避しました。

モデル能力

テキスト生成

多言語処理

使用事例

自然言語処理

テキスト生成

一貫性のあるテキストコンテンツを生成するために使用されます。

🚀 カメレオン-7bチェックポイント

このモデルは、Lumina-mGPTリポジトリのスクリプトconvert_chameleon_weights_to_hf.pyを使用して変換されたカメレオン-7bチェックポイントです。このリリースは、Lumina-mGPTのトレーニングの初期化を容易にすることを目的としています。このモデルを使用する前に、Hugging Faceで入手可能な公式のカメレオンチェックポイントへのアクセス許可を取得していることを確認してください。このモデルの使用はユーザーの自己責任です。

📚 ドキュメント

公式chameleon-7Bリリースとの違い

このモデルは公式のchameleon-7Bリリースとほぼ同じですが、qk-normの実装に重要な違いがあります。

理由は不明ですが、34Bのカメレオンモデルでは、トレーニング中に8ウェイのモデル並列化が採用されており、モデル並列ランク間で同じであることが期待されるqk-norm層の重みが異なっていることがわかりました（詳細はこちらを参照）。より直感的に言うと、これは7Bモデルの場合、アテンションヘッドを1つのグループに、34Bモデルの場合、8つのグループに分割できることを意味します。これらのグループ内ではqk-normパラメータが同じですが、グループ間では異なります。

この問題を軽減するために、transformersではqk-normパラメータをnum_heads * head_dimの形状にコピーする実装を開発しました。しかし、これはLumina-mGPTのようにカメレオンモデルをさらにファインチューニングする場合、qk-normパラメータがさらに発散し、2つのアテンションヘッド間でパラメータが異なる程度になり、理想的ではありません。

この問題を解決するために、我々は実装を少し変更して、qk-normパラメータをmodel_parallel_size x head_dimの形状にしました。ここで、model_parallel_sizeは7Bモデルの場合は1、34Bモデルの場合は8です。そして、順伝播時にrepeat_interleaveを通じてnum_heads * head_dimに拡張されます。この変更により、qk-normパラメータは既存のグループ内で常に一致することが保証されます。