模型概述
模型特點
模型能力
使用案例
🚀 Fanar-1-9B-Instruct
Fanar-1-9B-Instruct 是一款強大的阿拉伯語 - 英語大語言模型,由位於 哈馬德·本·哈利法大學(HBKU) 的 卡塔爾計算研究機構(QCRI) 開發,該大學是卡塔爾教育、科學與社區發展基金會的成員。它是 Fanar-1-9B 經過指令微調後的版本。我們在 1 萬億個阿拉伯語和英語標記上對 google/gemma-2-9b
模型進行持續預訓練。特別注重阿拉伯語的豐富性,支持現代標準阿拉伯語(MSA)以及多種阿拉伯方言,包括海灣、黎凡特和埃及方言。通過精心策劃預訓練和指令微調數據,Fanar 模型與伊斯蘭價值觀和阿拉伯文化保持一致。
Fanar-1-9B-Instruct 是 Fanar 生成式人工智能平臺 的核心組件,該平臺提供了一系列功能,包括圖像生成、視頻和圖像理解、深度思考、高級文本轉語音(TTS)和自動語音識別(ASR)、歸因和事實核查、伊斯蘭檢索增強生成(RAG)等多種特性。
我們發佈了一份全面的 報告,涵蓋了 Fanar 生成式人工智能平臺的所有詳細信息。我們還為模型和生成式人工智能平臺提供了 API(在此 請求訪問權限)。
🚀 快速開始
Fanar-1-9B-Instruct 與 Hugging Face 的 transformers
庫(≥ v4.40.0)兼容。以下是如何加載和使用該模型的示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "QCRI/Fanar-1-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
# 消息內容可以是阿拉伯語或英語
messages = [
{"role": "user", "content": "ما هي عاصمة قطر؟"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=False, return_tensors="pt")
outputs = model.generate(**tokenizer(inputs, return_tensors="pt", return_token_type_ids=False), max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
也支持使用 VLLM 進行推理:
from vllm import LLM, SamplingParams
model_name = "QCRI/Fanar-1-9B-Instruct"
llm = LLM(model=model_name)
sampling_params = SamplingParams(temperature=0.7, max_tokens=256)
# 消息內容可以是阿拉伯語或英語
messages = [
{"role": "user", "content": "ما هي عاصمة قطر؟"},
]
outputs = llm.chat(messages, sampling_params)
print(outputs[0].outputs[0].text)
✨ 主要特性
- 多語言支持:支持阿拉伯語和英語,涵蓋現代標準阿拉伯語和多種阿拉伯方言。
- 文化對齊:通過精心策劃數據,與伊斯蘭價值觀和阿拉伯文化保持一致。
- 多功能平臺:作為 Fanar 生成式人工智能平臺的核心組件,提供圖像生成、視頻和圖像理解等多種功能。
📦 安裝指南
文檔未提及具體安裝步驟,可參考上述快速開始部分使用兼容的庫加載模型。
📚 詳細文檔
我們發佈了一份全面的 報告,涵蓋了 Fanar 生成式人工智能平臺的所有詳細信息。同時,也提供了模型和生成式人工智能平臺的 API(在此 請求訪問權限)。
🔧 技術細節
模型詳情
屬性 | 詳情 |
---|---|
開發者 | 位於 哈馬德·本·哈利法大學(HBKU) 的 卡塔爾計算研究機構(QCRI) |
贊助者 | 卡塔爾國通信和信息技術部 |
模型類型 | 自迴歸變壓器 |
參數數量 | 87 億 |
上下文長度 | 4096 個標記 |
輸入 | 僅文本 |
輸出 | 僅文本 |
訓練框架 | LitGPT |
預訓練標記數量 | 1 萬億(阿拉伯語 + 英語) |
監督微調指令數量 | 450 萬 |
直接偏好優化偏好對數量 | 25 萬 |
支持語言 | 阿拉伯語、英語 |
許可證 | Apache 2.0 |
模型訓練
預訓練
Fanar-1-9B-Instruct 在 1 萬億個標記上進行了持續預訓練,對阿拉伯語和英語給予了平衡的關注:約 5150 億個英語標記來自精心策劃的 Dolma 數據集子集,4100 億個阿拉伯語標記是我們從各種來源收集、解析和過濾得到的,1020 億個代碼標記來自 The Stack 數據集。我們的代碼庫使用了 LitGPT 框架。
後訓練
Fanar-1-9B-Instruct 經歷了兩階段的後訓練流程:
階段 | 規模 |
---|---|
監督微調(SFT) | 450 萬條指令 |
直接偏好優化(DPO) | 25 萬對偏好對 |
📄 許可證
該模型遵循 Apache 2.0 許可證。
🔍 評估
評估使用了改進版的 LM Evaluation Harness 和內部文化對齊基準進行。
模型 | MMLU (5-shot) | MMMLU (阿拉伯語) (0-shot) | ArabicMMLU (3-shot) | HellaSwag (0-shot) | PIQA (0-shot) | ARC Challenge (0-shot) | Belebele (阿拉伯語) (3-shot) | ACVA (5-shot) | GSM8k | OALL (0-shot) | OALL v2 (0-shot) | Almieyar 阿拉伯語 (3-shot) | 阿拉伯文化多項選擇題 (3-shot) | AraDiCE PIQA (MSA) (0-shot) | AraDiCE PIQA(埃及方言) (0-shot) | AraDiCE PIQA(黎凡特方言) (0-shot) | AraDiCE 阿拉伯語MMLU(埃及方言) (0-shot) | AraDiCE 阿拉伯語MMLU(黎凡特方言) (0-shot) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Fanar-1-9B-it | 71.53% | 58.89% | 67.69% | 83.16% | 82.54% | 67.15% | 83.22% | 80.02% | 74.60% | 68.32% | 66.29% | 78.68% | 72.40% | 67.68% | 63.66% | 59.03% | 59.63% | 60.62% |
ALLaM-7B-Instruct-preview | 60.72% | 54.89% | 68.59% | 76.35% | 80.52% | 51.62% | 75.80% | 74.52% | 46.63% | 57.31% | 63.66% | 76.31% | 74.20% | 67.52% | 63.44% | 60.88% | 62.50% | 64.17% |
aya-expanse-8b | 62.85% | 47.14% | 60.10% | 78.54% | 81.18% | 56.40% | 70.78% | 77.11% | 8.26% | 53.18% | 59.74% | 70.20% | 67.30% | 63.00% | 59.41% | 56.53% | 53.52% | 53.71% |
c4ai-command-r7b-arabic-02-2025 | 66.91% | 49.54% | 63.06% | 74.67% | 78.02% | 49.15% | 72.78% | 79.80% | 30.33% | 49.38% | 64.44% | 73.82% | 69.20% | 62.30% | 60.99% | 56.69% | 54.78% | 56.06% |
AceGPT-v2-8B-Chat | 66.45% | 51.16% | 62.61% | 79.21% | 80.58% | 53.50% | 74.56% | 77.66% | 41.77% | 50.16% | 60.40% | 74.31% | 68.90% | 64.58% | 61.32% | 56.91% | 54.53% | 53.91% |
gemma-2-9b-it | 71.65% | 57.93% | 64.16% | 79.06% | 79.38% | 63.99% | 78.31% | 80.67% | 60.95% | 56.11% | 64.21% | 73.69% | 68.60% | 61.26% | 59.96% | 57.24% | 57.95% | 59.25% |
jais-adapted-13b-chat | 56.64% | 44.45% | 58.97% | 80.86% | 80.47% | 54.27% | 67.52% | 75.24% | 44.05% | 46.41% | 56.56% | 65.46% | 65.30% | 61.10% | 58.05% | 55.77% | 52.87% | 53.59% |
jais-family-6p7b-chat | 49.42% | 41.59% | 55.80% | 72.04% | 74.05% | 44.62% | 65.11% | 72.04% | 53.68% | 48.20% | 54.73% | 61.72% | 64.10% | 62.51% | 60.12% | 57.24% | 49.11% | 47.49% |
Llama-3.1-8B-Instruct | 68.04% | 47.58% | 59.05% | 79.22% | 80.74% | 55.29% | 66.72% | 76.67% | 29.26% | 47.81% | 55.97% | 69.70% | 66.10% | 58.11% | 55.39% | 54.24% | 46.86% | 47.52% |
Qwen2.5-7B-Instruct | 74.21% | 55.63% | 63.96% | 80.44% | 79.92% | 55.03% | 74.61% | 78.09% | 71.34% | 54.19% | 62.69% | 75.69% | 68.10% | 60.55% | 58.65% | 56.04% | 48.74% | 53.42% |
📖 引用
如果您在研究或應用中使用 Fanar-1-9B-Instruct 或 Fanar 生成式人工智能系統,請引用:
@misc{fanarllm2025,
title={Fanar: An Arabic-Centric Multimodal Generative AI Platform},
author={Fanar Team and Ummar Abbas and Mohammad Shahmeer Ahmad and Firoj Alam and Enes Altinisik and Ehsannedin Asgari and Yazan Boshmaf and Sabri Boughorbel and Sanjay Chawla and Shammur Chowdhury and Fahim Dalvi and Kareem Darwish and Nadir Durrani and Mohamed Elfeky and Ahmed Elmagarmid and Mohamed Eltabakh and Masoomali Fatehkia and Anastasios Fragkopoulos and Maram Hasanain and Majd Hawasly and Mus'ab Husaini and Soon-Gyo Jung and Ji Kim Lucas and Walid Magdy and Safa Messaoud and Abubakr Mohamed and Tasnim Mohiuddin and Basel Mousi and Hamdy Mubarak and Ahmad Musleh and Zan Naeem and Mourad Ouzzani and Dorde Popovic and Amin Sadeghi and Husrev Taha Sencar and Mohammed Shinoy and Omar Sinan and Yifan Zhang and Ahmed Ali and Yassine El Kheir and Xiaosong Ma and Chaoyi Ruan}},
year={2025},
url={https://arxiv.org/abs/2501.13944},
}
🙏 致謝
本項目來自 哈馬德·本·哈利法大學(HBKU) 的 卡塔爾計算研究機構(QCRI),該大學是卡塔爾基金會的成員。感謝我們的工程師、研究人員和支持團隊為推進以阿拉伯語為中心的大語言模型所做出的努力。 特別感謝 卡塔爾國通信和信息技術部 通過谷歌雲平臺提供計算基礎設施的持續支持。
📄 許可證
該模型遵循 Apache 2.0 許可證。
⚠️ 重要提示
該模型可能會產生有偏見、冒犯性或不正確的輸出,不適合用於高風險決策(如法律、醫療或財務建議)。建議開發者實施安全檢查,並針對敏感用例進行特定領域的微調。請參考我們的 服務條款 和 隱私政策。
💡 使用建議
Fanar-1-9B-Instruct 可以作為更廣泛的人工智能系統的一部分進行部署。開發者應實施適當的保障措施,以確保文化上的尊重、準確性和安全部署。避免使用該模型生成或傳播有害、非法或誤導性內容。可以通過 Fanar Chat 訪問該模型的一個版本,但請注意,我們正在不斷改進 Fanar 的模型和功能,其答案可能與 Fanar-1-9B-Instruct 的輸出有所不同。



