🚀 Viking 13B
Viking 13Bは、フィンランド語、英語、スウェーデン語、デンマーク語、ノルウェー語、アイスランド語、およびコードについて事前学習された、130億パラメータのデコーダ専用トランスフォーマーモデルです。2兆トークン(このリリース時点では1.3兆トークン)で学習中です。Viking 13Bは完全にオープンソースのモデルで、Apache 2.0ライセンスの下で利用可能です。
Vikingは、トゥルク大学のTurkuNLPグループ、Silo AIのSilogen、およびHigh Performance Language Technologies(HPLT)の共同プロジェクトです。学習は、CSC - フィンランドの科学用ITセンターから提供されたコンピューティングリソースを使用して、LUMIスーパーコンピュータ上で行われました。
このプロジェクトは、非英語、特にフィンランド語のような低リソース言語向けのオープンソース大規模言語モデルを作成するための継続的な取り組みの一部です。このモデルは、フィンランド語、英語、スカンジナビア諸語に流暢で、それらの言語間の基本的な翻訳が可能です。また、コードの理解と生成もできます。
✨ 主な機能
モデルファミリー
VikingはLumiOpenによってリリースされた2番目のモデルセットで、3種類のパラメータ数で利用可能です。
モデル概要
⚠️ 重要提示
これはベースモデルであり、ほとんどのユースケースではさらなるファインチューニングが必要です。
Vikingは、LLaMAに似たGPTアーキテクチャを使用する生成型事前学習トランスフォーマーで、ロータリー位置埋め込みとフラッシュアテンションを利用しています。
ハイパーパラメータ |
値 |
n_parameters |
14B |
n_layers |
40 |
n_heads |
40 |
d_model |
5120 |
vocab_size |
131072 |
sequence_length |
4096 |
学習
Viking 13Bは、LUMIスーパーコンピュータ上で、512台のAMD MI250X GPUを使用して学習されました。各MI250X GPUには2つのグラフィックスコンプレックスダイ(GCD)があり、学習時のワールドサイズは1024です。アクティベーションチェックポイント、マイクロバッチサイズ1、勾配累積16、およびTP = 2、PP = 4、DP = 128の3D並列化戦略を使用しています。
学習は2023年9月に、Megatron - Deepspeedフレームワークのカスタムフォークを使用して開始されました。
学習ハイパーパラメータ
ハイパーパラメータ |
値 |
コメント |
Precision |
bfloat16 |
|
Optimizer |
AdamW |
|
Learning rate |
3e - 4 |
100億トークンのウォームアップ、コサイン減衰で3e - 5 |
Weight decay |
1e - 1 |
|
Batch size |
1024 |
1024サンプル x 4096トークン = 4194304トークン |
トークナイザー
Vikingは、モデルの学習に使用された同じ英語、フィンランド語、スウェーデン語、デンマーク語、ノルウェー語、アイスランド語、およびコードのデータセットで学習された、カスタムの128K Bloomトークナイザーを使用しています。
データセット
Vikingは、英語、フィンランド語、スウェーデン語、デンマーク語、ノルウェー語、アイスランド語、およびコードの2兆トークンの混合データセットで学習されています。
正確なデータセットの詳細は近日公開予定です。
評価結果
完全な評価結果は、最終モデルとともに公開されます。
学習チェックポイント
学習チェックポイントは、リポジトリのブランチとして利用可能です。チェックポイントはおよそ100億トークンごとにリリースされます。メインブランチは常に最新のチェックポイントを指します。以下のチェックポイントが利用可能です。
transformersライブラリを使用すると、次のようにブランチからチェックポイントをロードできます。
branch = "1700B"
model = transformers.AutoModelForCausalLM.from_pretrained(
"LumiOpen/Viking-13B",
torch_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16,
revision=branch,
)
倫理的考慮事項と制限
⚠️ 重要提示
Viking 13Bは部分的に学習されたモデルのリリースであり、出力を使用する際には特別な注意が必要です。
Vikingは高度な言語モデルで、主に英語、フィンランド語、スウェーデン語、ノルウェー語、デンマーク語、アイスランド語、およびコードに最適化されており、他の言語にはほとんど能力がありません。ほとんどのAI駆動システムと同様に、Vikingは学習に使用された大量のデータの産物であり、ウェブ全体の不完全性、バイアス、特異性を反映している可能性があります。Vikingは時々、不正確、偏見、または物議を醸すと見なされる出力を生成することがあります。Vikingを使用するユーザーと開発者は、裁量を行使し、モデルの応答が特定のニーズと倫理基準に沿うように、追加の評価とカスタマイズを検討する必要があります。
📄 ライセンス
VikingはApache 2.0ライセンスの下でリリースされています。