🚀 メルテミ:ギリシャ語向けの大規模言語モデル
このモデルは、ギリシャ語に特化した初の大規模言語モデル(LLM)であり、アテネ研究・イノベーションセンターの言語と音声処理研究所によって開発されました。メルテミはMistral-7Bをベースに構築され、高品質で地域に関連する大量のギリシャ語テキストコーパスを用いた継続的事前学習により、ギリシャ語に対する能力を拡張しています。ここではメルテミ-7B-v1と、命令に対応したファインチューニング版のメルテミ-7B-Instruct-v1を紹介します。

🚀 クイックスタート
新バージョンのお知らせ
このモデルは、新しいバージョン(v1.5)に置き換えられました。こちらから新バージョンを確認できます。
📚 ドキュメント
モデル情報
- Mistral-7Bのトークナイザにギリシャ語トークンを追加した語彙拡張
- 8192のコンテキスト長
- 約400億トークンからなる大規模コーパスを利用して、Mistral-7Bの事前学習を拡張し、ギリシャ語に対する能力を向上させています。
- このコーパスには、公開されているリソースから構築された285億の単言語ギリシャ語トークンが含まれています。また、災害的忘却を軽減し、モデルがバイリンガル能力を持つようにするために、単言語英語テキスト(105億トークン)とギリシャ語-英語の並列データ(6億トークン)を含む追加のサブコーパスを使用しています。
- このコーパスは、データ品質を確保するために処理、フィルタリング、重複排除されています(データ処理パイプラインの詳細な説明は、今後公開する論文で紹介されます)。以下に概要を示します。
サブコーパス |
トークン数 |
割合 |
ギリシャ語 |
28,555,902,360 |
72.0% |
英語 |
10,478,414,033 |
26.4% |
並列データ |
633,816,023 |
1.6% |
合計 |
39,668,132,416 |
100% |
使用方法
トークナイズされたプロンプトには常にBOSトークンを含めるようにしてください。すべての評価またはファインチューニングフレームワークでこれがデフォルト設定になっているとは限りません。
評価
私たちが作成した評価セットには6つのテストセットが含まれています。このセットはlm-eval-harnessと統合されています。
評価セットには以下が含まれています。
メルテミ-7Bの評価は、Open LLMリーダーボードの設定と一致するフューショット設定で行われました。トレーニングにより、すべてのギリシャ語テストセットで平均**+14.9%**の性能向上が見られます。ギリシャ語テストセットの結果は以下の表に示されています。
|
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
平均 |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
Meltemi 7B |
41.0% |
63.6% |
61.6% |
43.2% |
52.1% |
47% |
51.4% |
倫理的考慮事項
このモデルは人間の好みに合わせて調整されていないため、誤解を招く、有害な、有毒なコンテンツを生成する可能性があります。
謝辞
ILSPチームは、OCRE CloudフレームワークのもとGRNETを通じて提供されたアマゾンのクラウドコンピューティングサービスを利用しました。このサービスは、ギリシャの学術および研究コミュニティ向けにアマゾンウェブサービスを提供しています。
引用
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。