🚀 Meltemi:面向希臘語的大型基礎語言模型
Meltemi是由雅典研究與創新中心(Athena Research & Innovation Center)的語言與語音處理研究所(Institute for Language and Speech Processing)訓練的大型基礎語言模型。它基於Mistral 7B構建,通過在大量高質量且與當地相關的希臘語文本語料庫上進行持續預訓練,擴展了其對希臘語的處理能力。本項目推出了Meltemi 7B v1.5版本,以及經過指令微調的版本Meltemi 7B Instruct v1.5。

✨ 主要特性
- 詞彙擴展:對Mistral 7B分詞器進行了希臘語詞彙擴展,降低成本並加快推理速度(希臘語的分詞效率從每詞6.80個標記提升至1.52個標記)。
- 長上下文處理:支持8192的上下文長度。
- 多語言能力:利用約550億個標記的大型語料庫,擴展了Mistral 7B的預訓練,增強了對希臘語的處理能力。該語料庫包括433億個單語希臘語標記、105億個單語英語標記和6億個希臘語 - 英語平行數據標記,確保了模型的雙語能力。
📦 模型信息
訓練語料詳情
為確保數據質量,我們對語料庫進行了處理、過濾和去重。以下是用於預訓練Meltemi 7B v1.5的標記數量和百分比(括號內為Meltemi 7B v1的相應值):
子語料庫 |
標記數量 |
百分比 |
希臘語 |
43,383,244,502 (28,555,902,360) |
79.5% (72.0%) |
英語 |
10,538,413,259 (10,478,414,033) |
19.3% (26.4%) |
平行語料 |
633,816,023 (633,816,023) |
1.2% (1.6%) |
總計 |
54,555,473,784 (39,668,132,416) |
100% |
Meltemi 7B v1.5的訓練步數不到Meltemi 7B v1的2/3。
💻 使用示例
使用時,請確保在分詞後的提示中始終包含BOS標記,因為並非所有評估或微調框架都默認包含該標記。
📚 詳細文檔
評估情況
我們創建的評估套件包含6個測試集,基於lighteval框架的一個分支實現。與Mistral 7B相比,新的訓練過程使模型在所有希臘語測試集上的性能平均提高了16.3%。具體結果如下:
模型 |
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
平均 |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
Meltemi 7B v1 |
46.3% |
68.5% |
63.3% |
43.6% |
44.6% |
42.4% |
51.4% |
Meltemi 7B v1.5 |
48.1% |
68.6% |
65.7% |
47.1% |
45.1% |
42.4% |
52.8% |
倫理考量
該模型已與人類偏好對齊,但仍可能生成誤導性、有害和有毒的內容。
致謝
ILSP團隊利用了亞馬遜的雲計算服務,這些服務通過GRNET在OCRE Cloud框架下提供給希臘學術和研究社區。
引用信息
如果您使用了該模型,請引用以下文獻:
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 許可證
本項目採用Apache-2.0許可證。