模型概述
模型特點
模型能力
使用案例
🚀 Llama-Krikri-8B-Instruct:適用於希臘語的指令調優大語言模型
Llama-Krikri-8B-Instruct是基於Llama-3.1-8B擴展而來的大語言模型,通過在大量高質量希臘語文本上持續預訓練,增強了對希臘語的處理能力,在多語言任務中表現出色。
🚀 快速開始
使用Transformers庫
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Llama-Krikri-8B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Llama-Krikri-8B-Instruct")
model.to(device)
system_prompt = "Είσαι το Κρικρί, ένα εξαιρετικά ανεπτυγμένο μοντέλο Τεχνητής Νοημοσύνης για τα ελληνικα και εκπαιδεύτηκες από το ΙΕΛ του Ε.Κ. \"Αθηνά\"."
user_prompt = "Σε τι διαφέρει ένα κρικρί από ένα λάμα;"
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_prompt},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
通過vLLM使用兼容OpenAI的服務器
vllm serve ilsp/Llama-Krikri-8B-Instruct \
--enforce-eager \
--dtype 'bfloat16' \
--api-key token-abc123
然後,可以通過Python使用該模型:
from openai import OpenAI
api_key = "token-abc123"
base_url = "http://localhost:8000/v1"
client = OpenAI(
api_key=api_key,
base_url=base_url,
)
system_prompt = "Είσαι ένα ανεπτυγμένο μεταφραστικό σύστημα που απαντάει με λίστες Python. Δεν γράφεις τίποτα άλλο στις απαντήσεις σου πέρα από τις μεταφρασμένες λίστες."
user_prompt = "Δώσε μου την παρακάτω λίστα με μεταφρασμένο κάθε string της στα ελληνικά: ['Ethics of duty', 'Postmodern ethics', 'Consequentialist ethics', 'Utilitarian ethics', 'Deontological ethics', 'Virtue ethics', 'Relativist ethics']"
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_prompt},
]
response = client.chat.completions.create(model="ilsp/Llama-Krikri-8B-Instruct",
messages=messages,
temperature=0.0,
top_p=0.95,
max_tokens=8192,
stream=False)
print(response.choices[0].message.content)
# ['Ηθική καθήκοντος', 'Μεταμοντέρνα ηθική', 'Συνεπειοκρατική ηθική', 'Ωφελιμιστική ηθική', 'Δεοντολογική ηθική', 'Ηθική αρετών', 'Σχετικιστική ηθική']
✨ 主要特性
- 增強的聊天和指令遵循能力:在希臘語和英語中都具備出色的聊天能力和指令遵循能力。
- 多語言文檔翻譯:支持希臘語與英語、法語、德語、意大利語、葡萄牙語、西班牙語之間的文檔翻譯。
- 多樣化任務表現:在生成、理解和編輯任務(如總結、創意內容創作、文本修改、實體識別、情感分析等)中表現出色。
- 特定領域專業知識:適用於法律、金融、醫療和科學等專業領域的應用。
- 檢索增強生成(RAG):利用128k上下文長度的多個文檔進行檢索增強生成。
- 改進的編碼和代理能力:具備正確的格式和工具使用能力。
- 數據轉換和提取:支持在數據到文本和文本到數據的設置中進行轉換或結構化提取(如XML、JSON)。
- 分析思維和鏈式思維推理:具備解決問題的分析思維和鏈式思維推理能力。
📦 安裝指南
暫未提供相關安裝步驟信息。
📚 詳細文檔
模型信息
基礎模型
- 詞彙擴展:對Llama - 3.1分詞器進行了希臘語詞彙擴展。
- 上下文長度:具有128k的上下文長度(約80,000個希臘語單詞)。
- 預訓練擴展:通過使用大型訓練語料庫,擴展了Llama - 3.1 - 8B對希臘語的預訓練能力。該語料庫包括:
- 567億單語希臘語標記,由公開可用資源構建。
- 為減輕災難性遺忘並確保模型具備雙語能力,使用了額外的單語英語文本子語料庫(210億標記)和希臘語 - 英語平行數據(55億標記)。
- 訓練語料庫還包含78億數學和代碼標記。
- 該語料庫經過處理、過濾和去重,以確保數據質量,具體分佈如下:
子語料庫 | 標記數量 | 百分比 |
---|---|---|
希臘語 | 567億 | 62.3% |
英語 | 210億 | 23.1% |
平行數據 | 55億 | 6.0% |
數學/代碼 | 78億 | 8.6% |
總計 | 910億 | 100% |
選擇的910億語料庫子集進行上採樣,最終達到1100億標記。
指令模型
Llama - Krikri - 8B - Instruct是對Llama - Kriki - 8B - Base進行後訓練的結果,具有以下特點:
- 增強了希臘語和英語的聊天能力和指令遵循能力。
- 支持希臘語與英語、法語、德語、意大利語、葡萄牙語、西班牙語之間的文檔翻譯。
- 在生成、理解和編輯任務(如總結、創意內容創作、文本修改、實體識別、情感分析等)中表現出色。
- 具備法律、金融、醫療和科學等專業領域的特定專業知識。
- 利用128k上下文長度的多個文檔進行檢索增強生成(RAG)。
- 改進了編碼和代理能力,具備正確的格式和工具使用能力。
- 支持在數據到文本和文本到數據的設置中進行轉換或結構化提取(如XML、JSON)。
- 具備解決問題的分析思維和鏈式思維推理能力。
後訓練方法
採用多階段過程構建Llama - Krikri - 8B - Instruct,包括:
- 兩階段監督微調:結合希臘語和英語的指令 - 響應對(及多輪對話)。
- 第一階段:856,946個指令 - 響應對(371,379個希臘語 + 485,567個英語)。
- 第二階段:638,408個指令 - 響應對(279,948個希臘語 + 358,460個英語)。
- 對齊:結合希臘語和英語的偏好三元組(指令 - 選擇響應 - 拒絕響應)。
- 長度歸一化DPO:92,394個偏好三元組(47,132個希臘語 + 45,262個英語)。
後訓練數據構建
為構建SFT和DPO數據,採用了多種方法,包括:
- 收集現有高質量數據集,如Tulu 3、SmolTalk、MAGPIE Ultra等。
- 使用內部翻譯工具將各種數據翻譯成希臘語。
- 重新生成翻譯數據,並對比翻譯響應和重新生成的響應(用於創建偏好三元組)。
- 採用MAGPIE方法提煉在希臘語中表現出色的模型,如Gemma 2 27B IT。
- 使用Skywork Reward Gemma 2 27B v0.2獎勵模型對數據進行評分,並使用基於規則的過濾器進行過濾。
- 使用主要來自ELRC - SHARE的高質量平行語料庫創建句子和文檔翻譯數據。
- 從維基百科、EUR - LEX、希臘學校書籍和Kallipos等不同來源合成提取問答對和多輪對話。
評估
在以下表格中,報告了聊天評估套件的得分,包括:
- 希臘語IFEval(嚴格平均)
- 英語IFEval(嚴格平均)
- 希臘語MT - Bench,使用gpt - 4o - 2024 - 08 - 06作為評判模型。
- 英語MT - Bench,使用gpt - 4o - 2024 - 08 - 06作為評判模型。
可以觀察到,Llama - Krikri - 8B - Instruct在希臘語和英語的指令遵循方面表現最強,在希臘語和英語IFEval中分別比Llama - 3.1 - 8B - Instruct高出**+21.7%和+7.3%。它在希臘語MT - Bench基準測試中也表現出最強的聊天能力**(與Aya Expanse 8B相比高出+0.28),在英語MT - Bench基準測試中也具有很強的競爭力。
模型 | 希臘語IFEval(嚴格平均) | 英語IFEval(嚴格平均) | 希臘語MT - Bench | 英語MT - Bench |
---|---|---|---|---|
Qwen 2.5 7B Instruct | 46.2% | 74.8% | 5.83 | 7.87 |
EuroLLM 9B Instruct | 51.3% | 64.5% | 5.98 | 6.27 |
Aya Expanse 8B | 50.4% | 62.2% | 7.68 | 6.92 |
Meltemi 7B v1.5 Instruct | 32.7% | 41.2% | 6.25 | 5.46 |
Llama - 3.1 - 8B Instruct | 45.8% | 75.1% | 6.46 | 7.25 |
Llama - Krikri - 8B Instruct | 67.5% | 82.4% | 7.96 | 7.21 |
還使用了Arena - Hard - Auto自動評估工具,以及希臘語的翻譯(和後期編輯)版本,可在此處獲取。報告了Arena - Hard - Auto的兩個得分:
- 無風格控制:基準測試的原始版本。
- 有風格控制:對Markdown元素採用風格控制方法的基準測試。可以在此博客中瞭解更多關於方法和技術背景的信息。
以下展示了使用gpt - 4o - 2024 - 08 - 06作為評判模型和gpt - 4o - mini - 2024 - 07 - 18作為基線模型(即默認得分為50%)確定的各種開放和封閉聊天模型的希臘語Arena - Hard - Auto得分。
Llama - Krikri - 8B Instruct表現出非常強的聊天能力,得分高於其8倍以上規模的模型(如Llama - 3.1 - 70B Instruct),並且與閉源模型(如GPT - 4o - Mini)和高性能開源模型(如Gemma 2 27B IT和Aya Expanse 32B)具有競爭力。
以下展示了原始Arena - Hard - Auto數據集的各種開放和封閉聊天模型的得分。遵循原始方法,使用gpt - 4 - 1106 - preview作為評判模型和gpt - 4 - 0314作為基線模型。
Llama - Krikri - 8B Instruct在英語版Arena - Hard - Auto中也表現出色,與類似規模的大語言模型具有競爭力,並且比Llama - 3.1 - 8B Instruct提高了**+24.5% / +16%**(無風格控制/有風格控制)。
請注意,評判模型可能會偏向於使用從它們提煉的數據訓練的學生模型。可以在此處瞭解更多信息。
致謝
ILSP團隊利用了亞馬遜的雲計算服務,該服務通過GRNET在OCRE Cloud框架下提供,為希臘學術和研究社區提供亞馬遜網絡服務。
🔧 技術細節
暫未提供相關技術細節信息。
📄 許可證
本模型使用的許可證為llama3.1。
⚠️ 重要提示
請使用官方量化版本:GGUF 或請求特定版本。由於我們已經更新了模型的權重,不能保證您使用的是第三方量化的最新改進版本。
🚨 更多關於後訓練、方法和評估的信息即將推出。 🚨



