🚀 メルテミ:ギリシャ語向けの大規模基礎言語モデル
メルテミは、アテネ研究・革新センター(Athena Research & Innovation Center)の言語と音声処理研究所(Institute for Language and Speech Processing)によって訓練された大規模基礎言語モデルです。このモデルはMistral 7Bをベースに構築され、大量の高品質で地域に関連するギリシャ語テキストコーパスでの継続的な事前学習を通じて、ギリシャ語の処理能力を拡張しています。本プロジェクトでは、メルテミ7B v1.5版と、命令による微調整を行ったバージョンであるメルテミ7B Instruct v1.5を公開しています。

✨ 主な機能
- 語彙拡張:Mistral 7Bのトークナイザーをギリシャ語の語彙で拡張し、コストを削減し、推論速度を向上させています(ギリシャ語のトークン化効率が、単語あたり6.80トークンから1.52トークンに向上)。
- 長いコンテキスト処理:8192のコンテキスト長をサポートしています。
- 多言語能力:約550億トークンの大規模コーパスを利用して、Mistral 7Bの事前学習を拡張し、ギリシャ語の処理能力を強化しています。このコーパスには、433億の単言語ギリシャ語トークン、105億の単言語英語トークン、および6億のギリシャ語 - 英語の平行データトークンが含まれており、モデルのバイリンガル能力を保証しています。
📦 モデル情報
訓練コーパスの詳細
データ品質を確保するために、コーパスの処理、フィルタリング、重複排除を行いました。以下は、メルテミ7B v1.5の事前学習に使用されたトークン数と割合(括弧内はメルテミ7B v1の対応する値)です。
サブコーパス |
トークン数 |
割合 |
ギリシャ語 |
43,383,244,502 (28,555,902,360) |
79.5% (72.0%) |
英語 |
10,538,413,259 (10,478,414,033) |
19.3% (26.4%) |
平行コーパス |
633,816,023 (633,816,023) |
1.2% (1.6%) |
合計 |
54,555,473,784 (39,668,132,416) |
100% |
メルテミ7B v1.5の訓練ステップ数は、メルテミ7B v1の2/3未満です。
💻 使用例
使用する際には、トークン化されたプロンプトに常にBOSトークンを含めるようにしてください。なぜなら、すべての評価または微調整フレームワークがデフォルトでこのトークンを含んでいるわけではないからです。
📚 ドキュメント
評価結果
私たちが作成した評価セットは6つのテストセットで構成されており、lightevalフレームワークのブランチを使用して実装されています。新しい訓練プロセスにより、モデルはすべてのギリシャ語テストセットでの性能が、Mistral 7Bと比較して平均16.3%向上しています。具体的な結果は以下の通りです。
モデル |
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
平均 |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
メルテミ7B v1 |
46.3% |
68.5% |
63.3% |
43.6% |
44.6% |
42.4% |
51.4% |
メルテミ7B v1.5 |
48.1% |
68.6% |
65.7% |
47.1% |
45.1% |
42.4% |
52.8% |
倫理的な考慮事項
このモデルは人間の嗜好に合わせて調整されていますが、誤解を招く、有害な、有毒な内容を生成する可能性があります。
謝辞
ILSPチームは、GRNETを通じてOCRE Cloudフレームワークの下でギリシャの学術および研究コミュニティに提供されているアマゾンのクラウドコンピューティングサービスを利用しています。
引用情報
このモデルを使用した場合は、以下の文献を引用してください。
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 ライセンス
本プロジェクトはApache-2.0ライセンスを採用しています。