Meltemi-7B-v1開源大型語言模型 - 增強希臘語及英語能力助力交流表達

首頁

Meltemi 7B V1

由ilsp開發

首個希臘語大型基礎語言模型，基於Mistral-7B架構，通過400億token的希臘語和英語語料增強希臘語能力

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #希臘語大模型 #雙語增強 #醫療問答

下載量 49

發布時間 : 3/22/2024

模型概述

由雅典研究與創新中心下屬的語言與語音處理研究所訓練的首個希臘語大語言模型，支持希臘語和英語，具備文本生成能力

模型特點

希臘語優化

擴展Mistral-7B分詞器以支持希臘語詞彙，通過285億希臘語token增強希臘語能力

雙語能力

在增強希臘語能力的同時保持英語能力，防止災難性遺忘

長上下文支持

支持8192個token的上下文長度

高質量語料

使用嚴格清洗去重的400億token語料庫進行訓練

模型能力

希臘語文本生成

英語文本生成

雙語文本處理

使用案例

教育

希臘語學習輔助

幫助學習者理解和生成希臘語內容

醫療

醫療問答

基於希臘語醫療考試數據集的問答能力

在醫療MCQA希臘語測試集上達到41.0%準確率

🚀 Meltemi：適用於希臘語的大型基礎語言模型

我們推出了Meltemi，這是由雅典研究與創新中心旗下的語言與語音處理研究所訓練的首個希臘語大型語言模型（LLM）。Meltemi基於[Mistral - 7B](https://huggingface.co/mistralai/Mistral - 7B - v0.1)構建，通過在大量高質量且與當地相關的希臘語文本語料庫上進行持續預訓練，擴展了其對希臘語的處理能力。我們推出了Meltemi - 7B - v1，以及經過指令微調的版本[Meltemi - 7B - Instruct - v1](https://huggingface.co/ilsp/Meltemi - 7B - Instruct - v1)。

image/png

🚀 快速開始

新版本提示

⚠️ 重要提示

此模型已被新版本（v1.5）取代，新版本可在[此處](https://huggingface.co/ilsp/Meltemi - 7B - v1.5)獲取。

✨ 主要特性

基於Mistral - 7B，通過在大規模希臘語文本語料庫上持續預訓練，擴展了對希臘語的處理能力。
推出基礎版本Meltemi - 7B - v1和指令微調版本Meltemi - 7B - Instruct - v1。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於Mistral - 7B擴展的希臘語大型語言模型
詞彙擴展	對Mistral - 7B分詞器進行擴展，加入希臘語標記
上下文長度	8192
訓練數據	利用約400億個標記的大規模語料庫進行預訓練，其中包括285億個單語希臘語標記（來自公開資源）、105億個單語英語標記和6億個希臘 - 英語平行數據標記。該語料庫經過處理、過濾和去重以確保數據質量。

訓練數據詳情

子語料庫	標記數量	百分比
希臘語	28,555,902,360	72.0%
英語	10,478,414,033	26.4%
平行語料	633,816,023	1.6%
總計	39,668,132,416	100%

使用說明

請確保在分詞後的提示中始終包含BOS標記，因為並非所有評估或微調框架都默認包含該標記。

評估

評估套件包含6個測試集，並與[lm - eval - harness](https://github.com/EleutherAI/lm - evaluation - harness)集成。具體測試集如下：

四個對成熟英語語言理解和推理基準進行機器翻譯後的希臘語版本：ARC希臘語、Truthful QA希臘語、HellaSwag希臘語、MMLU希臘語。
一個現有的希臘語問答基準：Belebele。
由ILSP團隊創建的基於DOATAP醫學考試的醫學問答新基準：Medical MCQA。

對Meltemi - 7B的評估在少樣本設置下進行，與開放大語言模型排行榜的設置一致。訓練使模型在所有希臘語測試集上的性能平均提高了**+14.9%**。希臘語測試集的結果如下表所示：

	醫學多選問答希臘語（15樣本）	Belebele希臘語（5樣本）	HellaSwag希臘語（10樣本）	ARC挑戰希臘語（25樣本）	真實問答多選2希臘語（0樣本）	MMLU希臘語（5樣本）	平均
Mistral 7B	29.8%	45.0%	36.5%	27.1%	45.8%	35%	36.5%
Meltemi 7B	41.0%	63.6%	61.6%	43.2%	52.1%	47%	51.4%

倫理考量

⚠️ 重要提示

此模型未與人類偏好對齊，因此可能會生成誤導性、有害和有毒的內容。

致謝

ILSP團隊使用了亞馬遜的雲計算服務，該服務由GRNET通過[OCRE雲框架](https://www.ocre - project.eu/)為希臘學術和研究社區提供。

引用

@misc{voukoutis2024meltemiopenlargelanguage,
      title={Meltemi: The first open Large Language Model for Greek}, 
      author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
      year={2024},
      eprint={2407.20743},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.20743}, 
}