模型概述
模型特點
模型能力
使用案例
🚀 Cohere Labs Command R7B Arabic模型卡片
Cohere Labs Command R7B Arabic是一款專為阿拉伯語(現代標準阿拉伯語方言)和英語優化的70億參數定製模型的開放權重研究版本。該模型在企業關注的任務上表現出色,如指令遵循、長度控制、檢索增強生成(RAG)以及正確語言響應。它還展示了對阿拉伯語言和文化的出色通用知識和理解。
🚀 快速開始
你可以在下載權重之前,在我們託管的Hugging Face Space中試用Cohere Labs Command R7B Arabic。
請從包含此模型必要更改的源倉庫安裝transformers庫。
# pip install 'git+https://github.com/huggingface/transformers.git'
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/c4ai-command-r7b-arabic-02-2025"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# 使用c4ai-command-r7b-arabic-02-2025聊天模板格式化消息
messages = [{"role": "user", "content": "مرحبا، كيف حالك؟"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
✨ 主要特性
- 多語言支持:支持阿拉伯語、英語等多種語言。
- 任務表現出色:在標準化和可外部驗證的阿拉伯語基準測試中表現卓越,如AlGhafa-Native、阿拉伯語MMLU、指令遵循(IFEval阿拉伯語)和RAG(TyDi QA阿拉伯語和FaithEval阿拉伯語)。
- 聊天能力:可配置為對話模式和指令模式,以適應不同的使用場景。
- 長上下文支持:支持128,000個標記的上下文長度。
📦 安裝指南
請從包含此模型必要更改的源倉庫安裝transformers庫。
pip install 'git+https://github.com/huggingface/transformers.git'
💻 使用示例
基礎用法
# pip install 'git+https://github.com/huggingface/transformers.git'
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/c4ai-command-r7b-arabic-02-2025"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# 使用c4ai-command-r7b-arabic-02-2025聊天模板格式化消息
messages = [{"role": "user", "content": "مرحبا، كيف حالك؟"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
高級用法 - RAG示例
# 定義對話輸入
conversation = [{"role": "user", "content": "اقترح طبقًا يمزج نكهات من عدة دول عربية"}]
# 定義用於檢索生成的文檔
documents = [
{"heading": "المطبخ العربي: أطباقنا التقليدية", "body": "يشتهر المطبخ العربي بأطباقه الغنية والنكهات الفريدة. في هذا المقال، سنستكشف ..."},
{"heading": "وصفة اليوم: مقلوبة", "body": "المقلوبة هي طبق فلسطيني تقليدي، يُحضر من الأرز واللحم أو الدجاج والخضروات. في وصفتنا اليوم ..."}
]
# 獲取RAG提示
input_prompt = tokenizer.apply_chat_template(conversation=conversation,documents=documents, tokenize=False, add_generation_prompt=True, return_tensors="pt")
# 對提示進行分詞
input_ids = tokenizer.encode_plus(input_prompt, return_tensors="pt")
你可以像往常一樣從這個輸入生成文本。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
輸入 | 模型僅接受文本輸入。 |
輸出 | 模型僅生成文本輸出。 |
模型架構 | 這是一個自迴歸語言模型,使用優化的Transformer架構。預訓練後,該模型使用監督微調(SFT)和偏好訓練,使模型行為符合人類對有用性和安全性的偏好。該模型具有三層滑動窗口注意力(窗口大小4096)和旋轉位置編碼(ROPE),用於高效的局部上下文建模和相對位置編碼。第四層使用全局注意力,無需位置嵌入,可實現整個序列中不受限制的標記交互。 |
支持語言 | 該模型已針對阿拉伯語和英語進行了訓練和評估,但訓練數據包含其他語言的樣本。 |
上下文長度 | 支持128,000個標記的上下文長度。 |
聊天能力
Command R7B Arabic可以根據提供的前言配置為對話模型和指令模型。
- 對話模式:使模型具備交互行為,期望它以對話方式回覆,提供介紹性陳述和後續問題,並在適當的地方使用Markdown和LaTeX。它針對交互式體驗進行了優化,如聊天機器人。
- 指令模式:使模型提供簡潔而全面的響應,默認情況下不使用Markdown / LaTeX。它專為非交互式、任務導向的用例設計,如信息提取、文本摘要、翻譯和分類。
多語言RAG能力
Cohere Labs Command R7B Arabic專門針對阿拉伯語和英語的檢索增強生成(RAG)任務進行了訓練。通過Transformers中的聊天模板支持RAG。使用我們的RAG聊天模板,模型將對話(可選用戶提供的系統前言)和文檔片段列表作為輸入,生成的輸出包含帶內聯引用的響應。
模型性能
Cohere Labs Command R7B Arabic在標準化和可外部驗證的阿拉伯語基準測試中表現出色,如AlGhafa-Native、阿拉伯語MMLU、指令遵循(IFEval阿拉伯語)和RAG(TyDi QA阿拉伯語和FaithEval阿拉伯語)。
模型 | C4AI Command R7B Arabic | Command R7B | Gemma 9B | Llama 3.1 8B | Qwen 2.5 7B | Ministral 8B |
---|---|---|---|---|---|---|
平均 | 69.3 | 65.8 | 67.0 | 58.4 | 62.9 | 52.5 |
AlGhafa-Native | 82.2 | 81.5 | 81.3 | 80.1 | 80.2 | 76.6 |
阿拉伯語MMLU | 60.9 | 59.7 | 62.4 | 56.6 | 61.2 | 53.6 |
IFEval AR | 69.0 | 57.8 | 67.8 | 48.4 | 62.4 | 49.3 |
TyDI QA阿拉伯語 | 83.0 | 79.9 | 76.4 | 65.9 | 60.9 | 57.7 |
FaithEval阿拉伯語* | 51.6 | 49.9 | 47.0 | 40.9 | 49.9 | 25.5 |
* FaithEval阿拉伯語是基於著名的RAG基準(https://github.com/SalesforceAIResearch/FaithEval)從英語專業翻譯而來。
Cohere Labs Command R7B Arabic在標準化和可外部驗證的基準測試中也表現出色,如HuggingFace Open LLM Leaderboard。
C4AI Command R7B Arabic | Command R7B | Gemma 9B | Llama 3.1 8B | Qwen 2.5 7B | Ministral 8B | |
---|---|---|---|---|---|---|
平均 | 31.4 | 31.6 | 32.1 | 28.2 | 35.2 | 22.0 |
IfEval | 83.3 | 77.1 | 74.4 | 78.6 | 75.9 | 59.0 |
BBH | 36.2 | 36.0 | 42.1 | 29.9 | 34.9 | 25.8 |
MuSR | 11.9 | 10.2 | 9.7 | 8.4 | 8.5 | 8.4 |
GPQA | 7.9 | 7.8 | 14.8 | 2.4 | 5.5 | 4.5 |
MMLU Pro | 29.4 | 28.6 | 32.0 | 30.7 | 36.5 | 30.7 |
MATH* | 19.6 | 29.9 | 19.1 | 19.3 | 50.0 | 19.6 |
* 由於原始基準的DMCA下架通知,此排行榜中使用的MATH基準在1月初發生了變化。
🔧 技術細節
該模型是一個自迴歸語言模型,使用優化的Transformer架構。預訓練後,使用監督微調(SFT)和偏好訓練,使模型行為符合人類對有用性和安全性的偏好。模型具有三層滑動窗口注意力(窗口大小4096)和旋轉位置編碼(ROPE),用於高效的局部上下文建模和相對位置編碼。第四層使用全局注意力,無需位置嵌入,可實現整個序列中不受限制的標記交互。
📄 許可證
本模型受CC-BY-NC許可協議約束,還需遵守Cohere Lab's Acceptable Use Policy。
引用
@misc{alnumay2025command,
title={Command R7B Arabic: A Small, Enterprise Focused, Multilingual, and Culturally Aware Arabic LLM},
author={Yazeed Alnumay and Alexandre Barbet and Anna Bialas and William Darling and Shaan Desai and Joan Devassy and Kyle Duffy and Stephanie Howe and Olivia Lasche and Justin Lee and Anirudh Shrinivason and Jennifer Tracey},
year={2025},
eprint={2503.14603},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
模型卡片聯繫方式
如有關於此模型卡片細節的錯誤或其他問題,請聯繫labs@cohere.com。
試用聊天
你可以在這裡的遊樂場中試用Cohere Labs Command R7B Arabic聊天。你也可以在我們專用的Hugging Face Space 這裡中使用它。
⚠️ 重要提示
通過提交此表單,即表示你同意許可協議,並確認你提供的信息將按照Cohere的隱私政策進行收集、使用和共享。你將收到有關Cohere Labs和Cohere研究、活動、產品和服務的電子郵件更新。你可以隨時取消訂閱。
💡 使用建議
文檔片段應該是短塊,而不是長文檔,通常每個塊約100 - 400個單詞,格式為鍵值對。鍵應該是簡短的描述性字符串,值可以是文本或半結構化的。你可能會發現,直接在用戶消息中包含相關文檔與使用文檔參數渲染特殊RAG模板效果一樣好,甚至更好。RAG模板通常是一個很好的默認選擇,非常適合需要引用的用戶。我們鼓勵用戶嘗試兩種方式,並評估哪種模式最適合他們的用例。



