🚀 Vikhr-Llama-3.2-1B-instruct
Vikhr-Llama-3.2-1B-instructは、Llama-3.2-1B-Instructをベースにした指示型モデルです。ロシア語データセットGrandMaster-PRO-MAXで学習されており、ベースモデルよりも5倍の効率を誇り、低電力デバイスやモバイルデバイスへのデプロイに最適です。
🚀 クイックスタート
Vikhr-Llama-3.2-1B-instructは、Llama-3.2-1B-Instructをベースに、ロシア語データセットGrandMaster-PRO-MAXで学習された指示型モデルです。ベースモデルよりも5倍の効率を持ち、低電力またはモバイルデバイスへのデプロイに最適です。
✨ 主な機能
- 高効率:ベースモデルよりも5倍の効率を誇ります。
- 低リソース要件:モデルサイズが3GB以下で、低電力またはモバイルデバイスへのデプロイに適しています。
- 多言語対応:ロシア語と英語に対応しています。
📦 インストール
以下のコードを使用して、必要なライブラリをインストールできます。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Vikhrmodels/Vikhr-Llama-3.2-1B-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Vikhrmodels/Vikhr-Llama-3.2-1B-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
input_text = "ここに入力テキストを記述します。"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(
input_ids,
max_length=1512,
temperature=0.3,
num_return_sequences=1,
no_repeat_ngram_size=2,
top_k=50,
top_p=0.95,
)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
📚 ドキュメント
モデル情報
属性 |
詳情 |
モデルタイプ |
Vikhr-Llama-3.2-1B-instruct |
ベースモデル |
meta-llama/Llama-3.2-1B-Instruct |
言語 |
ru, en |
ライセンス |
llama3.2 |
学習データセット |
Vikhrmodels/GrandMaster-PRO-MAX |
モデルの学習
このモデルは、SFT (Supervised Fine-Tuning) 手法を使用して、合成データセットVikhrmodels/GrandMaster-PRO-MAX (150k instructions) で学習されました。CoT (Chain-Of-Thought) をサポートし、GPT-4-turbo用のプロンプトを利用しています。
SFTを実行するスクリプトは、GitHubリポジトリ effective_llm_alignment で見つけることができます。
メトリクス
モデル |
スコア |
95% CI |
平均トークン数 |
トークン数の標準偏差 |
LCスコア |
kolibri-vikhr-mistral-0427 |
22.41 |
+1.6 / -1.6 |
489.89 |
566.29 |
46.04 |
storm-7b |
20.62 |
+2.0 / -1.6 |
419.32 |
190.85 |
45.78 |
neural-chat-7b-v3-3 |
19.04 |
+2.0 / -1.7 |
927.21 |
1211.62 |
45.56 |
Vikhrmodels-Vikhr-Llama-3.2-1B-instruct |
19.04 |
+1.3 / -1.6 |
958.63 |
1297.33 |
45.56 |
gigachat_lite |
17.2 |
+1.4 / -1.4 |
276.81 |
329.66 |
45.29 |
Vikhrmodels-vikhr-qwen-1.5b-it |
13.19 |
+1.4 / -1.6 |
2495.38 |
741.45 |
44.72 |
meta-llama-Llama-3.2-1B-Instruct |
4.04 |
+0.8 / -0.6 |
1240.53 |
1783.08 |
43.42 |
🔧 技術詳細
学習方法
このモデルは、SFT (Supervised Fine-Tuning) 手法を使用して学習されました。合成データセットVikhrmodels/GrandMaster-PRO-MAX (150k instructions) を使用し、CoT (Chain-Of-Thought) をサポートし、GPT-4-turbo用のプロンプトを利用しています。
モデルサイズ
モデルサイズは3GB以下で、低電力またはモバイルデバイスへのデプロイに適しています。
📄 ライセンス
このモデルは、llama3.2ライセンスの下で提供されています。
著者
引用
@article{nikolich2024vikhr,
title={Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian},
author={Aleksandr Nikolich and Konstantin Korolev and Sergey Bratchikov and Nikolay Kompanets and Artem Shelmanov},
journal={arXiv preprint arXiv:2405.13929},
year={2024},
url={https://arxiv.org/pdf/2405.13929}
}