🚀 Meltemi:適用於希臘語的大型基礎語言模型
我們推出了Meltemi,這是由雅典研究與創新中心旗下的語言與語音處理研究所訓練的首個希臘語大型語言模型(LLM)。Meltemi基於[Mistral - 7B](https://huggingface.co/mistralai/Mistral - 7B - v0.1)構建,通過在大量高質量且與當地相關的希臘語文本語料庫上進行持續預訓練,擴展了其對希臘語的處理能力。我們推出了Meltemi - 7B - v1,以及經過指令微調的版本[Meltemi - 7B - Instruct - v1](https://huggingface.co/ilsp/Meltemi - 7B - Instruct - v1)。

🚀 快速開始
新版本提示
⚠️ 重要提示
此模型已被新版本(v1.5)取代,新版本可在[此處](https://huggingface.co/ilsp/Meltemi - 7B - v1.5)獲取。
✨ 主要特性
- 基於Mistral - 7B,通過在大規模希臘語文本語料庫上持續預訓練,擴展了對希臘語的處理能力。
- 推出基礎版本Meltemi - 7B - v1和指令微調版本Meltemi - 7B - Instruct - v1。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
基於Mistral - 7B擴展的希臘語大型語言模型 |
詞彙擴展 |
對Mistral - 7B分詞器進行擴展,加入希臘語標記 |
上下文長度 |
8192 |
訓練數據 |
利用約400億個標記的大規模語料庫進行預訓練,其中包括285億個單語希臘語標記(來自公開資源)、105億個單語英語標記和6億個希臘 - 英語平行數據標記。該語料庫經過處理、過濾和去重以確保數據質量。 |
訓練數據詳情
子語料庫 |
標記數量 |
百分比 |
希臘語 |
28,555,902,360 |
72.0% |
英語 |
10,478,414,033 |
26.4% |
平行語料 |
633,816,023 |
1.6% |
總計 |
39,668,132,416 |
100% |
使用說明
請確保在分詞後的提示中始終包含BOS標記,因為並非所有評估或微調框架都默認包含該標記。
評估
評估套件包含6個測試集,並與[lm - eval - harness](https://github.com/EleutherAI/lm - evaluation - harness)集成。具體測試集如下:
對Meltemi - 7B的評估在少樣本設置下進行,與開放大語言模型排行榜的設置一致。訓練使模型在所有希臘語測試集上的性能平均提高了**+14.9%**。希臘語測試集的結果如下表所示:
|
醫學多選問答希臘語(15樣本) |
Belebele希臘語(5樣本) |
HellaSwag希臘語(10樣本) |
ARC挑戰希臘語(25樣本) |
真實問答多選2希臘語(0樣本) |
MMLU希臘語(5樣本) |
平均 |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
Meltemi 7B |
41.0% |
63.6% |
61.6% |
43.2% |
52.1% |
47% |
51.4% |
倫理考量
⚠️ 重要提示
此模型未與人類偏好對齊,因此可能會生成誤導性、有害和有毒的內容。
致謝
ILSP團隊使用了亞馬遜的雲計算服務,該服務由GRNET通過[OCRE雲框架](https://www.ocre - project.eu/)為希臘學術和研究社區提供。
引用
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 許可證
本模型採用Apache - 2.0許可證。