🚀 Fanar-1-9B-Instruct
Fanar-1-9B-Instruct は、カタール教育科学社会開発財団の一員である ハマード・ビン・ハリファ大学 (HBKU) の カタールコンピューティング研究所 (QCRI) によって開発された強力なアラビア語と英語の大規模言語モデルです。これは Fanar-1-9B を命令微調整したバージョンです。google/gemma-2-9b
モデルを1兆のアラビア語と英語のトークンで継続的に事前学習しています。特に、現代標準アラビア語 (MSA) や、湾岸、レバント、エジプトなどの多様なアラビア方言をサポートすることで、アラビア語の豊かさに配慮しています。Fanarモデルは、事前学習と命令微調整のデータを細心の注意を払って選りすぐっているため、イスラム教の価値観やアラブ文化に沿っています。
Fanar-1-9B-Instruct は、Fanar GenAIプラットフォーム の核心的なコンポーネントで、画像生成、ビデオと画像の理解、深層思考、高度なテキスト読み上げ (TTS) と自動音声認識 (ASR)、帰属と事実検証、イスラム教関連のRAGなど、さまざまな機能を提供します。
Fanar GenAIプラットフォームに関する詳細をすべて記載した包括的な レポート を公開しています。また、モデルとGenAIプラットフォームへのAPIも提供しています(こちら からアクセスを申請できます)。
🚀 クイックスタート
Fanar-1-9B-Instructは、Hugging Faceの transformers
ライブラリ (≥ v4.40.0) と互換性があります。以下は、モデルをロードして使用する方法です。
基本的な使用法
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "QCRI/Fanar-1-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
messages = [
{"role": "user", "content": "ما هي عاصمة قطر؟"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=False, return_tensors="pt")
outputs = model.generate(**tokenizer(inputs, return_tensors="pt", return_token_type_ids=False), max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
VLLMを使用した推論もサポートされています。
高度な使用法
from vllm import LLM, SamplingParams
model_name = "QCRI/Fanar-1-9B-Instruct"
llm = LLM(model=model_name)
sampling_params = SamplingParams(temperature=0.7, max_tokens=256)
messages = [
{"role": "user", "content": "ما هي عاصمة قطر؟"},
]
outputs = llm.chat(messages, sampling_params)
print(outputs[0].outputs[0].text)
✨ 主な機能
- 会話エージェント(アラビア語のみまたはバイリンガル)
- アラビア語の文化や方言に関する質問応答
- アラブ世界またはアラビア語話者を対象とした教育、政府、市民向けのNLPアプリケーション
- アラビア語の自然言語生成と理解に関する研究
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。Hugging Faceの transformers
ライブラリ (≥ v4.40.0) とVLLMを使用できます。以下は、transformers
ライブラリのインストール例です。
pip install transformers>=4.40.0
VLLMを使用する場合は、以下のようにインストールできます。
pip install vllm
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
開発元 |
HBKU の QCRI |
後援 |
カタール通信情報技術省 |
モデルタイプ |
自己回帰型Transformer |
パラメータ数 |
87億 |
コンテキスト長 |
4096トークン |
入力 |
テキストのみ |
出力 |
テキストのみ |
学習フレームワーク |
LitGPT |
事前学習トークン数 |
1兆 (アラビア語 + 英語) |
SFT命令数 |
450万 |
DPO好みのペア数 |
25万 |
言語 |
アラビア語、英語 |
ライセンス |
Apache 2.0 |
モデルの学習
事前学習
Fanar-1-9B-Instructは、1兆のトークンで継続的に事前学習され、アラビア語と英語にバランスよく焦点を当てています。具体的には、Dolma データセットの慎重に選りすぐったサブセットから約5150億の英語トークン、さまざまなソースから収集、解析、フィルタリングした4100億のアラビア語トークン、The Stack データセットから選りすぐった1020億のコードトークンを使用しています。コードベースは LitGPT フレームワークを使用しています。
事後学習
Fanar-1-9B-Instructは、2段階の事後学習パイプラインを経ています。
フェーズ |
サイズ |
教師付き微調整 (SFT) |
450万の命令 |
直接好み最適化 (DPO) |
25万の好みのペア |
意図された使用方法
Fanar-1-9B-Instructは、以下の用途に構築されています。
- 会話エージェント(アラビア語のみまたはバイリンガル)
- アラビア語の文化や方言に関する質問応答
- アラブ世界またはアラビア語話者を対象とした教育、政府、市民向けのNLPアプリケーション
- アラビア語の自然言語生成と理解に関する研究
Fanar-1-9B-Instructは、より広範なAIシステムの一部として展開することができます。開発者は、文化的に配慮した、正確で安全な展開を確保するために、適切なセーフガードを実装することを推奨します。有害な、違法な、または誤解を招く内容を生成または拡散するために使用してはなりません。
このモデルのバージョンは、Fanar Chat を通じてアクセスできます。Fanarのモデルと機能は継続的に改善されており、Fanar-1-9B-Instructから得られる回答は異なる場合があります。
倫理的な考慮事項と制限事項
Fanar-1-9B-Instructは、流暢で文脈に適した応答を生成することができます。しかし、他の生成モデルと同様に、不確実性があります。モデルは偏見のある、不快な、または誤った出力を生成する可能性があります。このモデルは高リスクの意思決定(例えば、法的、医療的、または金融的なアドバイス)には適していません。Fanar-1-9B-Instructを広範囲にテストし、これらの問題を軽減しようとしましたが、すべての可能なシナリオを解決することはできません。したがって、開発者は、安全チェックを実装し、敏感なユースケースに対してドメイン固有の微調整を行うことをお勧めします。利用規約 と プライバシーポリシー をご参照ください。
このモデルによって生成された出力は、QCRI、HBKU、カタール財団、MCITまたは他の組織や個人の声明とは見なされません。
評価
評価は、LM Evaluation Harnessの修正版と内部の文化的アライメントベンチマークを使用して行われました。
モデル |
MMLU (5-shot) |
MMMLU (アラビア語) (0-shot) |
ArabicMMLU (3-shot) |
HellaSwag (0-shot) |
PIQA (0-shot) |
ARC Challenge (0-shot) |
Belebele (アラビア語) (3-shot) |
ACVA (5-shot) |
GSM8k |
OALL (0-shot) |
OALL v2 (0-shot) |
Almieyarアラビア語 (3-shot) |
アラブ文化MCQ (3-shot) |
AraDiCE PIQA (MSA) (0-shot) |
AraDiCE PIQA(エジプト) (0-shot) |
AraDiCE PIQA(レバント) (0-shot) |
AraDiCE ArabicMMLU(エジプト) (0-shot) |
AraDiCE ArabicMMLU(レバント) (0-shot) |
Fanar-1-9B-it |
71.53% |
58.89% |
67.69% |
83.16% |
82.54% |
67.15% |
83.22% |
80.02% |
74.60% |
68.32% |
66.29% |
78.68% |
72.40% |
67.68% |
63.66% |
59.03% |
59.63% |
60.62% |
ALLaM-7B-Instruct-preview |
60.72% |
54.89% |
68.59% |
76.35% |
80.52% |
51.62% |
75.80% |
74.52% |
46.63% |
57.31% |
63.66% |
76.31% |
74.20% |
67.52% |
63.44% |
60.88% |
62.50% |
64.17% |
aya-expanse-8b |
62.85% |
47.14% |
60.10% |
78.54% |
81.18% |
56.40% |
70.78% |
77.11% |
8.26% |
53.18% |
59.74% |
70.20% |
67.30% |
63.00% |
59.41% |
56.53% |
53.52% |
53.71% |
c4ai-command-r7b-arabic-02-2025 |
66.91% |
49.54% |
63.06% |
74.67% |
78.02% |
49.15% |
72.78% |
79.80% |
30.33% |
49.38% |
64.44% |
73.82% |
69.20% |
62.30% |
60.99% |
56.69% |
54.78% |
56.06% |
AceGPT-v2-8B-Chat |
66.45% |
51.16% |
62.61% |
79.21% |
80.58% |
53.50% |
74.56% |
77.66% |
41.77% |
50.16% |
60.40% |
74.31% |
68.90% |
64.58% |
61.32% |
56.91% |
54.53% |
53.91% |
gemma-2-9b-it |
71.65% |
57.93% |
64.16% |
79.06% |
79.38% |
63.99% |
78.31% |
80.67% |
60.95% |
56.11% |
64.21% |
73.69% |
68.60% |
61.26% |
59.96% |
57.24% |
57.95% |
59.25% |
jais-adapted-13b-chat |
56.64% |
44.45% |
58.97% |
80.86% |
80.47% |
54.27% |
67.52% |
75.24% |
44.05% |
46.41% |
56.56% |
65.46% |
65.30% |
61.10% |
58.05% |
55.77% |
52.87% |
53.59% |
jais-family-6p7b-chat |
49.42% |
41.59% |
55.80% |
72.04% |
74.05% |
44.62% |
65.11% |
72.04% |
53.68% |
48.20% |
54.73% |
61.72% |
64.10% |
62.51% |
60.12% |
57.24% |
49.11% |
47.49% |
Llama-3.1-8B-Instruct |
68.04% |
47.58% |
59.05% |
79.22% |
80.74% |
55.29% |
66.72% |
76.67% |
29.26% |
47.81% |
55.97% |
69.70% |
66.10% |
58.11% |
55.39% |
54.24% |
46.86% |
47.52% |
Qwen2.5-7B-Instruct |
74.21% |
55.63% |
63.96% |
80.44% |
79.92% |
55.03% |
74.61% |
78.09% |
71.34% |
54.19% |
62.69% |
75.69% |
68.10% |
60.55% |
58.65% |
56.04% |
48.74% |
53.42% |
引用
Fanar-1-9B-InstructまたはFanar GenAIシステムを研究やアプリケーションで使用する場合は、以下のように引用してください。
@misc{fanarllm2025,
title={Fanar: An Arabic-Centric Multimodal Generative AI Platform},
author={Fanar Team and Ummar Abbas and Mohammad Shahmeer Ahmad and Firoj Alam and Enes Altinisik and Ehsannedin Asgari and Yazan Boshmaf and Sabri Boughorbel and Sanjay Chawla and Shammur Chowdhury and Fahim Dalvi and Kareem Darwish and Nadir Durrani and Mohamed Elfeky and Ahmed Elmagarmid and Mohamed Eltabakh and Masoomali Fatehkia and Anastasios Fragkopoulos and Maram Hasanain and Majd Hawasly and Mus'ab Husaini and Soon-Gyo Jung and Ji Kim Lucas and Walid Magdy and Safa Messaoud and Abubakr Mohamed and Tasnim Mohiuddin and Basel Mousi and Hamdy Mubarak and Ahmad Musleh and Zan Naeem and Mourad Ouzzani and Dorde Popovic and Amin Sadeghi and Husrev Taha Sencar and Mohammed Shinoy and Omar Sinan and Yifan Zhang and Ahmed Ali and Yassine El Kheir and Xiaosong Ma and Chaoyi Ruan}},
year={2025},
url={https://arxiv.org/abs/2501.13944},
}
謝辞
このプロジェクトは、カタール財団の一員である ハマード・ビン・ハリファ大学 (HBKU) の カタールコンピューティング研究所 (QCRI) からのものです。アラビア語中心の大規模言語モデルの開発に尽力してくれたエンジニア、研究者、サポートチームの皆さんに感謝します。
特に、カタール通信情報技術省 がGoogle Cloud Platformを通じてコンピューティングインフラを提供し、継続的にサポートしてくれていることに感謝します。
📄 ライセンス
このモデルは、Apache 2.0 License の下でライセンスされています。