MamayLM-Gemma-2-9B-IT-v0.1開源模型 - 精準理解烏克蘭文化與語言，兼優英語能力

首頁

Mamaylm Gemma 2 9B IT V0.1

由INSAIT-Institute開發

INSAIT研究所推出的基於Gemma 2 9B的烏克蘭語優化模型，具備卓越的烏克蘭文化及語言理解能力，同時保留原版頂尖英語能力。

大型語言模型

Transformers

支持多種語言#烏克蘭語優化 #雙語指令微調 #文化理解增強

下載量 476

發布時間 : 4/25/2025

模型概述

該模型基於谷歌Gemma 2 9B開源模型構建，通過數據混合與模型融合技術，在大量烏克蘭語和英語數據集上持續預訓練，並在烏克蘭語指令數據集上進行微調，使其在烏克蘭語任務中表現優異。

模型特點

烏克蘭語優化

在大量烏克蘭語數據集上持續預訓練，具備卓越的烏克蘭文化及語言理解能力。

英語能力保留

完美繼承了Gemma 2原版的頂尖英語能力。

多領域知識

在烏克蘭高中課程（語言文學/歷史/數學/地理）等多個領域表現優異。

指令微調

在新構建的烏克蘭語指令數據集上進行微調，優化指令遵循能力。

模型能力

文本生成

世界知識與理解

句子補全

邏輯推理

常識知識

數學問題解決

多領域知識測試

指令遵循

使用案例

教育

烏克蘭高中課程測試

測試烏克蘭高中課程（語言文學/歷史/數學/地理）掌握程度。

在ZNO測試中表現優異。

通用問答

烏克蘭文化問答

回答關於烏克蘭文化和歷史的問題。

能夠準確回答關於烏克蘭文化的問題。

🚀 INSAIT-Institute/MamayLM-Gemma-2-9B-IT-v0.1

INSAIT推出了MamayLM-Gemma-2-9B-IT-v0.1，這是一款基於google/gemma-2-9b和google/gemma-2-9b-it的高性能烏克蘭語模型。MamayLM-Gemma-2-9B-IT-v0.1可免費使用，並遵循Gemma使用條款進行分發。該模型由保加利亞索非亞的索非亞大學聖克萊門特奧裡季斯基分校的INSAIT創建。

image/png

🚀 快速開始

安裝transformers庫

首先，安裝最新版本的transformers庫：

pip install -U 'transformers[torch]'

加載模型

然後，在transformers中加載模型：

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
    "INSAIT-Institute/MamayLM-Gemma-2-9B-IT-v0.1",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)

✨ 主要特性

多語言能力：該模型基於Google的Gemma 2 9B開放模型構建，通過在大規模預過濾數據集（總共750億個烏克蘭語和英語數據標記）上進行持續預訓練，結合數據混合和模型合併技術，使模型在保留英語性能的同時，獲得了出色的烏克蘭文化和語言能力。
優秀性能：在一系列標準英語基準測試、烏克蘭語翻譯版本測試以及特定的烏克蘭語基準測試中表現出色，能夠超越許多更大規模的模型，如阿里巴巴的Qwen 2.5 72B和Meta的Llama3.1 70B。
免費使用：遵循Gemma使用條款，可免費使用。

📦 安裝指南

安裝transformers庫

pip install -U 'transformers[torch]'

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
    "INSAIT-Institute/MamayLM-Gemma-2-9B-IT-v0.1",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)

高級用法

指令格式

為了利用指令微調，你的提示應以序列開始標記 <bos> 開頭，並按照Gemma 2聊天模板進行格式化。<bos> 應僅為聊天序列中的第一個標記。

例如：

<bos><start_of_turn>user
Хто такий Козак Мамай?<end_of_turn>
<start_of_turn>model

也可以通過 apply_chat_template() 方法使用聊天模板：

tokenizer = AutoTokenizer.from_pretrained(
    "INSAIT-Institute/MamayLM-Gemma-2-9B-IT-v0.1",
    use_default_system_prompt=False,
)
messages = [
    {"role": "user", "content": "Хто такий Козак Мамай?"},
]
input_ids = tokenizer.apply_chat_template(
  messages,
  return_tensors="pt",
  add_generation_prompt=True,
  return_dict=True
)
outputs = model.generate(
  **input_ids,
  generation_config=generation_params
)
print(tokenizer.decode(outputs[0]))

使用vLLM

from vllm import LLM, SamplingParams
from vllm.inputs import TokensPrompt
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
    "INSAIT-Institute/MamayLM-Gemma-2-9B-IT-v0.1",
    use_default_system_prompt=False,
)
sampling_params = SamplingParams(
    max_tokens=2048,
    temperature=0.1,
    top_k=25,
    top_p=1,
    repetition_penalty=1.1,
    stop_token_ids=[1, 107],
)
llm = LLM(
    model="INSAIT-Institute/MamayLM-Gemma-2-9B-IT-v0.1",
    dtype="bfloat16",
    enforce_eager=True
)
messages = [
    {"role": "user", "content": "Хто такий Козак Мамай?"},
]
formatted_prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
input_ids = tokenizer(
    formatted_prompt,
    add_special_tokens=False
).input_ids
prompt = TokensPrompt(prompt_token_ids=input_ids)
output = llm.generate(
    prompt,
    sampling_params
)
generated_text = output[0].outputs[0].text
print(generated_text)

使用GGML / llama.cpp

該模型的GGUF格式及使用說明可在INSAIT-Institute/MamayLM-Gemma-2-9B-IT-v0.1-GGUF獲取。

📚 詳細文檔

模型描述

該模型基於Google的Gemma 2 9B開放模型構建。通過在大規模預過濾數據集（總共750億個烏克蘭語和英語數據標記）上進行持續預訓練，結合數據混合和模型合併技術，使模型在保留英語性能的同時，獲得了出色的烏克蘭文化和語言能力。

在預訓練階段，使用了各種數據集，包括烏克蘭網絡爬取數據（FineWeb2）、免費可用的數據集（如維基百科）、一系列專業的烏克蘭數據集以及流行英語數據集的機器翻譯。然後，在一個新構建的烏克蘭指令數據集上進行指令微調，該數據集使用當前最佳英語數據集的機器翻譯和烏克蘭社區準備的專業烏克蘭數據集創建。

更多信息請查看我們的博客文章（英文，烏克蘭文）。

基準測試和結果

image/png

我們在一系列標準英語基準測試、烏克蘭語翻譯版本測試以及特定的烏克蘭語基準測試中對模型進行了評估：

Winogrande挑戰：測試世界知識和理解能力
Hellaswag：測試句子完成能力
ARC Easy/Challenge：測試邏輯推理能力
TriviaQA：測試常識知識
GSM-8k：解決高中數學選擇題
MMLU：測試多領域知識
IFEval：測試指令跟隨能力
ZNO：測試烏克蘭高中課程中烏克蘭語言與文學、歷史、數學和地理的知識

這些基準測試可在https://github.com/insait-institute/lm-evaluation-harness-uk獲取。

指令格式

為了利用指令微調，你的提示應以序列開始標記 <bos> 開頭，並按照Gemma 2聊天模板進行格式化。<bos> 應僅為聊天序列中的第一個標記。

例如：

<bos><start_of_turn>user
Хто такий Козак Мамай?<end_of_turn>
<start_of_turn>model

也可以通過 apply_chat_template() 方法使用聊天模板。

🔧 技術細節

該模型基於Google的Gemma 2 9B開放模型，通過持續預訓練和指令微調，結合數據混合和模型合併技術，在大規模預過濾數據集上進行訓練，從而獲得了出色的烏克蘭文化和語言能力。

在預訓練階段，使用了多種數據集，包括烏克蘭網絡爬取數據、免費可用的數據集、專業的烏克蘭數據集以及流行英語數據集的機器翻譯。在指令微調階段，使用了新構建的烏克蘭指令數據集，該數據集使用當前最佳英語數據集的機器翻譯和烏克蘭社區準備的專業烏克蘭數據集創建。

📄 許可證

MamayLM遵循Gemma使用條款進行分發。

📋 模型信息

屬性	詳情
微調基礎模型	google/gemma-2-9b-it；google/gemma-2-9b
模型類型	因果解碼器僅變壓器語言模型
支持語言	烏克蘭語和英語
聯繫方式	contact@insait.ai
許可證	Gemma使用條款