🚀 Viking 7B
Viking 7Bは、フィンランド語、英語、スウェーデン語、デンマーク語、ノルウェー語、アイスランド語およびコードに関して事前学習された、70億パラメータのデコーダー専用トランスフォーマーです。2兆トークンで学習されています。Viking 7Bは完全にオープンソースのモデルで、Apache 2.0ライセンスの下で利用可能です。
Vikingは、トゥルク大学のTurkuNLPグループ、Silo AIのSiloGen、およびHigh Performance Language Technologies (HPLT)の共同で作成されました。学習は、フィンランドの科学情報センターであるCSCから提供された計算資源を使用して、LUMIスーパーコンピュータ上で行われました。
このプロジェクトは、非英語、特にフィンランド語のような低資源言語のオープンソース大規模言語モデルを作成するための継続的な取り組みの一部です。このモデルは、フィンランド語、英語、スカンジナビア諸語に流暢で、それらの間の基本的な翻訳が可能です。また、コードを理解し生成することもできます。
✨ 主な機能
モデルファミリー
VikingはLumiOpenによってリリースされた2番目のモデルセットで、3つのパラメータ数で利用可能です。
モデル概要
⚠️ 重要提示
Vikingは基本モデルであり、ほとんどのユースケースではさらなる微調整が必要です。
Vikingは、LLaMAのようなGPTアーキテクチャを使用する生成型事前学習トランスフォーマーで、ロータリー位置埋め込みとフラッシュアテンションを利用しています。
ハイパーパラメータ |
値 |
n_parameters |
75.5億 |
n_layers |
32 |
n_heads |
32 |
d_model |
4096 |
vocab_size |
131072 |
sequence_length |
4096 |
学習
Viking 7Bは、LUMIスーパーコンピュータ上で、256台のAMD MI250X GPUを使用して学習されました。各MI250X GPUには2つのグラフィックスコンプレックスダイ(GCD)があり、学習中のワールドサイズは512となります。アクティベーションチェックポイント、マイクロバッチサイズ1、勾配累積16、およびTP=1、PP=4、DP=128の3D並列化戦略を使用しています。
学習は2023年9月に、Megatron-Deepspeedフレームワークのカスタムフォークを使用して開始されました。
学習ハイパーパラメータ
ハイパーパラメータ |
値 |
コメント |
Precision |
bfloat16 |
|
Optimizer |
AdamW |
|
Learning rate |
3e-4 |
100億トークンのウォームアップ、3e-5までコサイン減衰 |
Weight decay |
1e-1 |
|
Batch size |
1024 |
1024サンプル x 4096トークン = 4194304トークン |
トークナイザー
Vikingは、モデルの学習に使用された同じ英語、フィンランド語、スウェーデン語、デンマーク語、ノルウェー語、アイスランド語およびコードのデータセットで学習された、カスタムの128K Bloomトークナイザーを使用しています。
データセット
Vikingは、英語、フィンランド語、スウェーデン語、デンマーク語、ノルウェー語、アイスランド語およびコードの2兆トークンの混合データセットで学習されています。
正確なデータセットの詳細は近日公開されます。
評価結果
完全な評価結果は、最終モデルとともに公開されます。
学習チェックポイント
学習チェックポイントは、リポジトリのブランチとして利用可能です。チェックポイントはおよそ100億トークンごとにリリースされます。メインブランチは常に最新のチェックポイントを指します。以下のチェックポイントが利用可能です。
transformersライブラリを使用すると、以下のようにブランチからチェックポイントをロードすることができます。
branch = "2000B"
model = transformers.AutoModelForCausalLM.from_pretrained(
"LumiOpen/Viking-7B",
torch_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16,
revision=branch,
)
倫理的な考慮事項と制限事項
⚠️ 重要提示
Viking 7Bは部分的に学習されたモデルのリリースであり、出力を使用する際には特別な注意が必要です。
Vikingは高度な言語モデルで、主に英語、フィンランド語、スウェーデン語、ノルウェー語、デンマーク語、アイスランド語およびコードに最適化されており、他の言語にはほとんど能力がありません。ほとんどのAI駆動システムと同様に、Vikingは学習に使用された大量のデータの産物であり、ウェブ全体の不完全性、バイアス、特異性を反映している可能性があります。Vikingは時々、不正確、偏見的、または物議を醸すと見なされる出力を生成することがあります。Vikingを使用するユーザーと開発者は、裁量を行使し、モデルの応答が彼らの特定のニーズと倫理基準に合致することを確保するために、追加の評価とカスタマイズを検討する必要があります。
📄 ライセンス
VikingはApache 2.0ライセンスの下でリリースされています。