🚀 Llama-Krikri-8B-Base:面向希臘語的大型基礎語言模型
Llama-Krikri-8B-Base是一款專門為希臘語設計的大型基礎語言模型。它在Llama-3.1-8B的基礎上進行了擴展,通過在大量高質量且與當地相關的希臘語文本語料庫上進行持續預訓練,增強了對希臘語的處理能力。本項目不僅提供了基礎版本,還推出了指令版本Llama-Krikri-8B-Instruct,為希臘語的自然語言處理任務提供了更強大的支持。
🚀 快速開始
在2024年3月26日發佈 Meltemi-7B 之後,我們很高興地將Krikri引入ILSP開放希臘大語言模型家族。Krikri基於 Llama-3.1-8B 構建,通過在大量高質量且與當地相關的希臘語文本語料庫上進行持續預訓練,擴展了其對希臘語的處理能力。我們推出了Llama-Krikri-8B-Base及其指令版本 Llama-Krikri-8B-Instruct。

✨ 主要特性
- 詞彙擴展:對Llama-3.1分詞器進行了擴展,加入了希臘語詞彙。
- 長上下文處理:支持128k的上下文長度(約80,000個希臘語單詞)。
- 多語言能力:通過使用包含希臘語、英語和數學代碼等多種數據的訓練語料庫,模型不僅在希臘語上表現出色,還具備雙語能力,同時有效緩解了災難性遺忘問題。
📦 安裝指南
本項目未提供明確的安裝步驟,可參考使用示例中的代碼,確保相關依賴庫已正確安裝。
💻 使用示例
基礎用法
使用 transformers
庫調用模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Llama-Krikri-8B-Base")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Llama-Krikri-8B-Base")
model.to(device)
input_text = tokenizer("Ένα κρικρί διαφέρει απο ένα λάμα επειδή", return_tensors='pt').to(device)
outputs = model.generate(input_text['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
高級用法
通過 vLLM
搭建OpenAI兼容服務器使用模型:
vllm serve ilsp/Llama-Krikri-8B-Base \
--enforce-eager \
--dtype 'bfloat16' \
--api-key token-abc123
然後,使用Python代碼調用模型:
from openai import OpenAI
api_key = "token-abc123"
base_url = "http://localhost:8000/v1"
client = OpenAI(
api_key=api_key,
base_url=base_url,
)
response = client.completions.create(model="ilsp/Llama-Krikri-8B-Base",
prompt="Η εκπαίδευση μεγάλων γλωσσικών μοντέλων περιλαμβάνει")
print(response.choices[0].text)
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
基於Llama-3.1-8B擴展的希臘語大語言模型 |
訓練數據 |
訓練語料庫包含567億單語希臘語標記、210億單語英語標記、55億希臘 - 英語平行數據標記和78億數學與代碼標記。經過處理、過濾和去重以確保數據質量。部分語料進行了上採樣,最終語料庫大小達到1100億標記。 |
評估
以下是Llama-Krikri-8B-Base相對於Llama-3.1-8B在希臘語和英語基準測試中的性能提升:
- 希臘語基準測試:提升了 +10.8%
- 英語基準測試:提升了 +0.8%
評估在少樣本設置下進行,與 Open LLM排行榜 的設置一致。
希臘語基準測試
我們為希臘語創建的評估套件包含6個測試集,可通過克隆 lighteval分支 運行該套件。評估結果如下:
|
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
Average |
Meltemi 7B v1.5 |
42.2% |
61.0% |
53.8% |
40.0% |
49.0% |
41.2% |
47.9% |
Llama-3.1-8B |
33.4% |
72.8% |
52.1% |
39.9% |
51.1% |
42.6% |
48.7% |
Llama-Krikri-8B |
53.8% |
82.7% |
64.6% |
49.4% |
54.2% |
52.0% |
59.5% |
英語基準測試
我們的訓練方法不僅有效緩解了災難性遺忘問題,還使所有英語測試集的平均性能提升了 +0.8%。評估結果如下:
|
Winogrande (5-shot) |
Belebele (5-shot) |
HellaSwag (10-shot) |
ARC-Challenge (25-shot) |
TruthfulQA MC2 (0-shot) |
MMLU (5-shot) |
Average |
Meltemi 7B v1.5 |
73.4% |
77.7% |
79.6% |
54.1% |
40.5% |
56.9% |
63.7% |
Llama-3.1-8B |
74.6% |
71.5% |
82.0% |
58.5% |
44.2% |
66.2% |
66.2% |
Llama-Krikri-8B |
72.6% |
79.8% |
80.7% |
57.8% |
44.8% |
65.1% |
67.0% |
請注意,所有評估均使用最新版本的lighteval進行,與過去版本存在一些差異,因此我們報告的Meltemi-7B-v1.5分數與以往不同。
倫理考量
該模型尚未與人類偏好對齊,因此可能會生成誤導性、有害和有毒的內容。
致謝
ILSP團隊使用了亞馬遜的雲計算服務,該服務通過GRNET在 OCRE Cloud框架 下為希臘學術和研究社區提供亞馬遜網絡服務。
📄 許可證
本項目使用Llama3.1許可證。