模型简介
模型特点
模型能力
使用案例
🚀 Fanar-1-9B-Instruct
Fanar-1-9B-Instruct 是一款强大的阿拉伯语 - 英语大语言模型,由位于 哈马德·本·哈利法大学(HBKU) 的 卡塔尔计算研究机构(QCRI) 开发,该大学是卡塔尔教育、科学与社区发展基金会的成员。它是 Fanar-1-9B 经过指令微调后的版本。我们在 1 万亿个阿拉伯语和英语标记上对 google/gemma-2-9b
模型进行持续预训练。特别注重阿拉伯语的丰富性,支持现代标准阿拉伯语(MSA)以及多种阿拉伯方言,包括海湾、黎凡特和埃及方言。通过精心策划预训练和指令微调数据,Fanar 模型与伊斯兰价值观和阿拉伯文化保持一致。
Fanar-1-9B-Instruct 是 Fanar 生成式人工智能平台 的核心组件,该平台提供了一系列功能,包括图像生成、视频和图像理解、深度思考、高级文本转语音(TTS)和自动语音识别(ASR)、归因和事实核查、伊斯兰检索增强生成(RAG)等多种特性。
我们发布了一份全面的 报告,涵盖了 Fanar 生成式人工智能平台的所有详细信息。我们还为模型和生成式人工智能平台提供了 API(在此 请求访问权限)。
🚀 快速开始
Fanar-1-9B-Instruct 与 Hugging Face 的 transformers
库(≥ v4.40.0)兼容。以下是如何加载和使用该模型的示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "QCRI/Fanar-1-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
# 消息内容可以是阿拉伯语或英语
messages = [
{"role": "user", "content": "ما هي عاصمة قطر؟"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=False, return_tensors="pt")
outputs = model.generate(**tokenizer(inputs, return_tensors="pt", return_token_type_ids=False), max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
也支持使用 VLLM 进行推理:
from vllm import LLM, SamplingParams
model_name = "QCRI/Fanar-1-9B-Instruct"
llm = LLM(model=model_name)
sampling_params = SamplingParams(temperature=0.7, max_tokens=256)
# 消息内容可以是阿拉伯语或英语
messages = [
{"role": "user", "content": "ما هي عاصمة قطر؟"},
]
outputs = llm.chat(messages, sampling_params)
print(outputs[0].outputs[0].text)
✨ 主要特性
- 多语言支持:支持阿拉伯语和英语,涵盖现代标准阿拉伯语和多种阿拉伯方言。
- 文化对齐:通过精心策划数据,与伊斯兰价值观和阿拉伯文化保持一致。
- 多功能平台:作为 Fanar 生成式人工智能平台的核心组件,提供图像生成、视频和图像理解等多种功能。
📦 安装指南
文档未提及具体安装步骤,可参考上述快速开始部分使用兼容的库加载模型。
📚 详细文档
我们发布了一份全面的 报告,涵盖了 Fanar 生成式人工智能平台的所有详细信息。同时,也提供了模型和生成式人工智能平台的 API(在此 请求访问权限)。
🔧 技术细节
模型详情
属性 | 详情 |
---|---|
开发者 | 位于 哈马德·本·哈利法大学(HBKU) 的 卡塔尔计算研究机构(QCRI) |
赞助者 | 卡塔尔国通信和信息技术部 |
模型类型 | 自回归变压器 |
参数数量 | 87 亿 |
上下文长度 | 4096 个标记 |
输入 | 仅文本 |
输出 | 仅文本 |
训练框架 | LitGPT |
预训练标记数量 | 1 万亿(阿拉伯语 + 英语) |
监督微调指令数量 | 450 万 |
直接偏好优化偏好对数量 | 25 万 |
支持语言 | 阿拉伯语、英语 |
许可证 | Apache 2.0 |
模型训练
预训练
Fanar-1-9B-Instruct 在 1 万亿个标记上进行了持续预训练,对阿拉伯语和英语给予了平衡的关注:约 5150 亿个英语标记来自精心策划的 Dolma 数据集子集,4100 亿个阿拉伯语标记是我们从各种来源收集、解析和过滤得到的,1020 亿个代码标记来自 The Stack 数据集。我们的代码库使用了 LitGPT 框架。
后训练
Fanar-1-9B-Instruct 经历了两阶段的后训练流程:
阶段 | 规模 |
---|---|
监督微调(SFT) | 450 万条指令 |
直接偏好优化(DPO) | 25 万对偏好对 |
📄 许可证
该模型遵循 Apache 2.0 许可证。
🔍 评估
评估使用了改进版的 LM Evaluation Harness 和内部文化对齐基准进行。
模型 | MMLU (5-shot) | MMMLU (阿拉伯语) (0-shot) | ArabicMMLU (3-shot) | HellaSwag (0-shot) | PIQA (0-shot) | ARC Challenge (0-shot) | Belebele (阿拉伯语) (3-shot) | ACVA (5-shot) | GSM8k | OALL (0-shot) | OALL v2 (0-shot) | Almieyar 阿拉伯语 (3-shot) | 阿拉伯文化多项选择题 (3-shot) | AraDiCE PIQA (MSA) (0-shot) | AraDiCE PIQA(埃及方言) (0-shot) | AraDiCE PIQA(黎凡特方言) (0-shot) | AraDiCE 阿拉伯语MMLU(埃及方言) (0-shot) | AraDiCE 阿拉伯语MMLU(黎凡特方言) (0-shot) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Fanar-1-9B-it | 71.53% | 58.89% | 67.69% | 83.16% | 82.54% | 67.15% | 83.22% | 80.02% | 74.60% | 68.32% | 66.29% | 78.68% | 72.40% | 67.68% | 63.66% | 59.03% | 59.63% | 60.62% |
ALLaM-7B-Instruct-preview | 60.72% | 54.89% | 68.59% | 76.35% | 80.52% | 51.62% | 75.80% | 74.52% | 46.63% | 57.31% | 63.66% | 76.31% | 74.20% | 67.52% | 63.44% | 60.88% | 62.50% | 64.17% |
aya-expanse-8b | 62.85% | 47.14% | 60.10% | 78.54% | 81.18% | 56.40% | 70.78% | 77.11% | 8.26% | 53.18% | 59.74% | 70.20% | 67.30% | 63.00% | 59.41% | 56.53% | 53.52% | 53.71% |
c4ai-command-r7b-arabic-02-2025 | 66.91% | 49.54% | 63.06% | 74.67% | 78.02% | 49.15% | 72.78% | 79.80% | 30.33% | 49.38% | 64.44% | 73.82% | 69.20% | 62.30% | 60.99% | 56.69% | 54.78% | 56.06% |
AceGPT-v2-8B-Chat | 66.45% | 51.16% | 62.61% | 79.21% | 80.58% | 53.50% | 74.56% | 77.66% | 41.77% | 50.16% | 60.40% | 74.31% | 68.90% | 64.58% | 61.32% | 56.91% | 54.53% | 53.91% |
gemma-2-9b-it | 71.65% | 57.93% | 64.16% | 79.06% | 79.38% | 63.99% | 78.31% | 80.67% | 60.95% | 56.11% | 64.21% | 73.69% | 68.60% | 61.26% | 59.96% | 57.24% | 57.95% | 59.25% |
jais-adapted-13b-chat | 56.64% | 44.45% | 58.97% | 80.86% | 80.47% | 54.27% | 67.52% | 75.24% | 44.05% | 46.41% | 56.56% | 65.46% | 65.30% | 61.10% | 58.05% | 55.77% | 52.87% | 53.59% |
jais-family-6p7b-chat | 49.42% | 41.59% | 55.80% | 72.04% | 74.05% | 44.62% | 65.11% | 72.04% | 53.68% | 48.20% | 54.73% | 61.72% | 64.10% | 62.51% | 60.12% | 57.24% | 49.11% | 47.49% |
Llama-3.1-8B-Instruct | 68.04% | 47.58% | 59.05% | 79.22% | 80.74% | 55.29% | 66.72% | 76.67% | 29.26% | 47.81% | 55.97% | 69.70% | 66.10% | 58.11% | 55.39% | 54.24% | 46.86% | 47.52% |
Qwen2.5-7B-Instruct | 74.21% | 55.63% | 63.96% | 80.44% | 79.92% | 55.03% | 74.61% | 78.09% | 71.34% | 54.19% | 62.69% | 75.69% | 68.10% | 60.55% | 58.65% | 56.04% | 48.74% | 53.42% |
📖 引用
如果您在研究或应用中使用 Fanar-1-9B-Instruct 或 Fanar 生成式人工智能系统,请引用:
@misc{fanarllm2025,
title={Fanar: An Arabic-Centric Multimodal Generative AI Platform},
author={Fanar Team and Ummar Abbas and Mohammad Shahmeer Ahmad and Firoj Alam and Enes Altinisik and Ehsannedin Asgari and Yazan Boshmaf and Sabri Boughorbel and Sanjay Chawla and Shammur Chowdhury and Fahim Dalvi and Kareem Darwish and Nadir Durrani and Mohamed Elfeky and Ahmed Elmagarmid and Mohamed Eltabakh and Masoomali Fatehkia and Anastasios Fragkopoulos and Maram Hasanain and Majd Hawasly and Mus'ab Husaini and Soon-Gyo Jung and Ji Kim Lucas and Walid Magdy and Safa Messaoud and Abubakr Mohamed and Tasnim Mohiuddin and Basel Mousi and Hamdy Mubarak and Ahmad Musleh and Zan Naeem and Mourad Ouzzani and Dorde Popovic and Amin Sadeghi and Husrev Taha Sencar and Mohammed Shinoy and Omar Sinan and Yifan Zhang and Ahmed Ali and Yassine El Kheir and Xiaosong Ma and Chaoyi Ruan}},
year={2025},
url={https://arxiv.org/abs/2501.13944},
}
🙏 致谢
本项目来自 哈马德·本·哈利法大学(HBKU) 的 卡塔尔计算研究机构(QCRI),该大学是卡塔尔基金会的成员。感谢我们的工程师、研究人员和支持团队为推进以阿拉伯语为中心的大语言模型所做出的努力。 特别感谢 卡塔尔国通信和信息技术部 通过谷歌云平台提供计算基础设施的持续支持。
📄 许可证
该模型遵循 Apache 2.0 许可证。
⚠️ 重要提示
该模型可能会产生有偏见、冒犯性或不正确的输出,不适合用于高风险决策(如法律、医疗或财务建议)。建议开发者实施安全检查,并针对敏感用例进行特定领域的微调。请参考我们的 服务条款 和 隐私政策。
💡 使用建议
Fanar-1-9B-Instruct 可以作为更广泛的人工智能系统的一部分进行部署。开发者应实施适当的保障措施,以确保文化上的尊重、准确性和安全部署。避免使用该模型生成或传播有害、非法或误导性内容。可以通过 Fanar Chat 访问该模型的一个版本,但请注意,我们正在不断改进 Fanar 的模型和功能,其答案可能与 Fanar-1-9B-Instruct 的输出有所不同。



