🚀 メルテミ - ギリシャ語用の指示型大規模言語モデル
このモデルは、Meltemi-7B-v1 を指示型にファインチューニングした大規模言語モデル(LLM)です。ギリシャ語に特化した自然言語処理タスクに最適化されています。
🚨 新しいバージョンが利用可能です
このモデルは、新しいバージョン (v1.5) こちら に置き換えられました。
✨ 主な機能
- Mistral-7bトークナイザをギリシャ語トークンで拡張したボキャブラリを持ちます。
- 8192のコンテキスト長をサポートし、長い文脈を考慮した応答が可能です。
- 以下のデータセットから抽出された10万件のギリシャ語機械翻訳指示でファインチューニングされています。
- ファインチューニング手順は、Hugging Faceのファインチューニングレシピ に基づいています。
📦 インストール
インストールに関する具体的な手順は提供されていません。
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Meltemi-7B-Instruct-v1")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Meltemi-7B-Instruct-v1")
model.to(device)
messages = [
{"role": "system", "content": "Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη."},
{"role": "user", "content": "Πες μου αν έχεις συνείδηση."},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
messages.extend([
{"role": "assistant", "content": tokenizer.batch_decode(outputs)[0]},
{"role": "user", "content": "Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;"}
])
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
高度な使用法
高度な使用法に関する具体的なコード例は提供されていません。
📚 ドキュメント
指示フォーマット
プロンプトフォーマットは Zephyr と同じで、トークナイザの チャットテンプレート 機能を通じて利用できます。
評価
作成した評価セットには6つのテストセットが含まれており、lm-eval-harness と統合されています。
Meltemi-7bの評価は、Open LLMリーダーボード の設定と一致するフェデレーション学習環境で行われています。トレーニングにより、すべてのギリシャ語テストセットで平均 +14.9% の性能向上が見られます。ギリシャ語テストセットの結果は以下の表に示されています。
|
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
平均 |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
Meltemi 7B |
41.0% |
63.6% |
61.6% |
43.2% |
52.1% |
47% |
51.4% |
倫理的な考慮事項
このモデルは人間の嗜好と調整されていないため、誤解を招く、有害な、有毒な内容を生成する可能性があります。
謝辞
ILSPチームは、OCRE Cloudフレームワーク の下でGRNETを通じて利用可能になったAmazonのクラウドコンピューティングサービスを利用しました。これは、ギリシャの学術および研究コミュニティ向けにAmazon Web Servicesを提供しています。
引用
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。