🚀 希臘語Meltemi指令大語言模型
Meltemi-7B-Instruct-v1大語言模型(LLM)是Meltemi-7B-v1的指令微調版本,它能有效助力希臘語相關的語言處理任務。
🚨 新版本可用
本模型已被新版本(v1.5)取代,點擊此處查看。
✨ 主要特性
- 詞彙擴展:對Mistral-7b分詞器進行了擴展,加入了希臘語詞彙。
- 長上下文處理:具備8192的上下文長度。
- 多源數據微調:使用從多個數據源提取的100k條希臘語機器翻譯指令進行微調,這些數據源包括:
- 微調程序:基於Hugging Face微調食譜進行監督微調(SFT)。
📚 詳細文檔
指令格式
提示格式與Zephyr格式相同,可通過分詞器的聊天模板功能實現,示例代碼如下:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Meltemi-7B-Instruct-v1")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Meltemi-7B-Instruct-v1")
model.to(device)
messages = [
{"role": "system", "content": "Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη."},
{"role": "user", "content": "Πες μου αν έχεις συνείδηση."},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
messages.extend([
{"role": "assistant", "content": tokenizer.batch_decode(outputs)[0]},
{"role": "user", "content": "Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;"}
])
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
請注意,分詞後的提示中應始終包含BOS標記,因為並非所有評估或微調框架都默認包含該標記。
評估
創建的評估套件包含6個測試集,該套件與lm-eval-harness集成。評估套件具體包括:
對Meltemi-7b的評估採用少樣本設置,與Open LLM排行榜中的設置一致。可以看到,訓練使所有希臘語測試集的性能平均提高了**+14.9%**。希臘語測試集的結果如下表所示:
|
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
Average |
Mistral 7B |
29.8% |
45.0% |
36.5% |
27.1% |
45.8% |
35% |
36.5% |
Meltemi 7B |
41.0% |
63.6% |
61.6% |
43.2% |
52.1% |
47% |
51.4% |
倫理考量
該模型未與人類偏好對齊,因此可能會生成誤導性、有害和有毒的內容。
致謝
ILSP團隊利用了亞馬遜的雲計算服務,該服務通過GRNET在OCRE Cloud框架下為希臘學術和研究社區提供亞馬遜網絡服務。
引用
@misc{voukoutis2024meltemiopenlargelanguage,
title={Meltemi: The first open Large Language Model for Greek},
author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
year={2024},
eprint={2407.20743},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.20743},
}
📄 許可證
本項目採用Apache-2.0許可證。