🚀 Llama-Krikri-8B-Base: ギリシャ語向けの大規模言語モデル
2024年3月26日にMeltemi-7Bがリリースされた後、ILSPのオープンギリシャ語LLMファミリーにKrikriを迎えることができて嬉しいです。
KrikriはLlama-3.1-8Bをベースに構築されており、高品質で地域に関連する大量のギリシャ語テキストコーパスを用いた継続的な事前学習により、ギリシャ語に対する能力を拡張しています。ここではLlama-Krikri-8B-Baseと、命令型バージョンのLlama-Krikri-8B-Instructを紹介します。

📚 モデル情報
プロパティ |
詳細 |
モデルタイプ |
Llama-Krikri-8B-Baseは、ギリシャ語向けに拡張された大規模言語モデルです。 |
トークナイザー |
Llama-3.1のトークナイザーをギリシャ語トークンで拡張しています。 |
コンテキスト長 |
128k(約80,000ギリシャ語単語) |
学習データ |
学習データは、以下のサブコーパスから構成されています。 - ギリシャ語: 567億トークン (62.3%) - 英語: 210億トークン (23.1%) - 並列データ: 55億トークン (6.0%) - 数学/コード: 78億トークン (8.6%) 合計: 910億トークン。選択されたサブセットはアップサンプリングされ、最終的に1100億トークンとなりました。 |
🚀 クイックスタート
基礎的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Llama-Krikri-8B-Base")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Llama-Krikri-8B-Base")
model.to(device)
input_text = tokenizer("Ένα κρικρί διαφέρει απο ένα λάμα επειδή", return_tensors='pt').to(device)
outputs = model.generate(input_text['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
高度な使用法
vLLMを使用したOpenAI互換サーバーでの使用
vllm serve ilsp/Llama-Krikri-8B-Base \
--enforce-eager \
--dtype 'bfloat16' \
--api-key token-abc123
次に、Pythonを使用してモデルを使用することができます。
from openai import OpenAI
api_key = "token-abc123"
base_url = "http://localhost:8000/v1"
client = OpenAI(
api_key=api_key,
base_url=base_url,
)
response = client.completions.create(model="ilsp/Llama-Krikri-8B-Base",
prompt="Η εκπαίδευση μεγάλων γλωσσικών μοντέλων περιλαμβάνει")
print(response.choices[0].text)
📈 評価
以下に、Llama-Krikri-8B-BaseがLlama-3.1-8Bに対してギリシャ語と英語で改善した点を報告します。
- ギリシャ語のベンチマークでは +10.8%
- 英語のベンチマークでは +0.8%
Llama-Krikri-8B-Base、Llama-3.1-8B、およびMeltemi 7B v1.5の評価は、Open LLM leaderboardの設定と一致するフェデレーションラーニングの設定で行われました。
ギリシャ語のベンチマーク
ギリシャ語用に作成した評価セットには6つのテストセットが含まれています。このセットは、このlightevalフォークをクローンすることで実行できます。
評価セットには以下が含まれています。
継続的な事前学習方法により、すべてのギリシャ語テストセットでのパフォーマンスがベースモデルに比べて平均 +10.8% 向上していることがわかります。ギリシャ語テストセットの結果は以下の表に示されています。
|
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
平均 |
Meltemi 7B v1.5 |
42.2% |
61.0% |
53.8% |
40.0% |
49.0% |
41.2% |
47.9% |
Llama-3.1-8B |
33.4% |
72.8% |
52.1% |
39.9% |
51.1% |
42.6% |
48.7% |
Llama-Krikri-8B |
53.8% |
82.7% |
64.6% |
49.4% |
54.2% |
52.0% |
59.5% |
英語のベンチマーク
学習方法は、災害的忘却を効果的に軽減するだけでなく、すべての英語テストセットでの平均パフォーマンスを +0.8% 向上させていることもわかります。英語テストセットの結果は以下の表に示されています。
|
Winogrande (5-shot) |
Belebele (5-shot) |
HellaSwag (10-shot) |
ARC-Challenge (25-shot) |
TruthfulQA MC2 (0-shot) |
MMLU (5-shot) |
平均 |
Meltemi 7B v1.5 |
73.4% |
77.7% |
79.6% |
54.1% |
40.5% |
56.9% |
63.7% |
Llama-3.1-8B |
74.6% |
71.5% |
82.0% |
58.5% |
44.2% |
66.2% |
66.2% |
Llama-Krikri-8B |
72.6% |
79.8% |
80.7% |
57.8% |
44.8% |
65.1% |
67.0% |
すべての評価は最新バージョンのlightevalで実行されており、過去のバージョンとは若干異なるため、Meltemi-7B-v1.5のスコアが異なって報告されています。
⚠️ 倫理的な考慮事項
このモデルは人間の好みに合わせて調整されていないため、誤解を招く、有害な、有毒なコンテンツを生成する可能性があります。
🙏 謝辞
ILSPチームは、OCRE Cloudフレームワークの下でGRNETを通じて提供されたAmazonのクラウドコンピューティングサービスを利用しています。これにより、ギリシャの学術および研究コミュニティにAmazon Web Servicesが提供されています。
📄 ライセンス
このモデルはllama3.1ライセンスの下で提供されています。