🚀 アル・アトラス: モロッコ・アラビア語用大規模言語モデル
アル・アトラスは、モロッコの主要な方言であるダリジャ語に特化して学習された0.5Bパラメータの言語モデルです。これは、モロッコの主な口語方言に特化した最初の基盤モデルとなります。このモデルは[Qwen - 2.5](https://huggingface.co/Qwen/Qwen2.5 - 0.5B)からファインチューニングされ、1億5500万トークンのデータセットを使用して、純粋なモロッコ・ダリジャ語のコンテンツに焦点を当てて学習されました。
🚀 クイックスタート
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("atlasia/Al-Atlas-0.5B")
tokenizer = AutoTokenizer.from_pretrained("atlasia/Al-Atlas-0.5B")
text = "الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
**inputs,
max_new_tokens=1024,
pad_token_id=generator.tokenizer.pad_token_id or generator.tokenizer.eos_token_id,
repetition_penalty=1.5,
num_beams=8,
top_p= 0.9,
top_k= 150,
do_sample= True,
early_stopping = True,
)
response = tokenizer.decode(outputs[0])
الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز گاع على تطوير الآلات اللي قادرة تدير مهام اللي عادة خاصها ذكاء بشري، بحال التعرف على الأنماط، حل المشاكل، اتخاذ القرارات، وفهم اللغة الطبيعية. الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا.
واحد من أهم التطبيقات ديال الذكاء الاصطناعي هو فالصحة. الذكاء الاصطناعي يقدر يعاون الطبة باش يشخصو الأمراض بدقة أكبر، يأوتوماتيزيو المهام الروتينية، ويحسنو نتائج المرضى. مثلا، الخوارزميات ديال الذكاء الاصطناعي تقدر تحلل الصور الطبية باش تكتاشف العلامات الحيوية اللي ممكن ما تكونش واضحة للفحص البشري. زيادة على هادشي، الذكاء الاصطناعي يقدر يعاون الأطباء باش يصاوبو خطط علاج مخصصة حسب الاحتياجات الخاصة ديال كل مريض.
بالإضافة للصحة، الذكاء الاصطناعي عندو إمكانية باش يغير الطريقة اللي كنتفاعلو بيها مع التكنولوجيا. مثلا، الذكاء الاصطناعي يقدر يعاون الشركات باش يحسنو العمليات ديالهم، يأوتوماتيزيو المهام الروتينية، ويحسنو تجربة الزبون. زيادة على هادشي، الذكاء الاصطناعي يقدر يعاون الفلاحة باش يزيدو الإنتاجية، ينقصو التكاليف، ويحسنو جودة المحاصيل.
فالختام، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. من خلال تطوير أنظمة ذكاء اصطناعي متقدمة، نقدرو نحسنو الكفاءة، نحسنو جودة الحياة، ونخلقو عالم أحسن للأجيال الجاية. مع استمرار تطور الذكاء الاصطناعي، من المرجح أنه غادي يلعب دور أكثر أهمية فتشكيل مستقبل البشرية. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا
✨ 主な機能
- ダリジャ語専用モデル:モロッコ・アラビア語方言に特化して学習された最初の言語モデル
- 高品質データ:モロッコのソースから収集された1億5500万トークンのデータセット
- 文化理解:微妙な文化的コンテキストと地域表現を捉えることができます
📦 データセット
学習コーパスは、1億5500万トークンの純粋なモロッコ・ダリジャ語のコンテンツで構成されており、以下のソースから収集されました。
- ソーシャルメディアの会話
- 音声を文字起こししたコンテンツ
- オンラインフォーラムやディスカッション
- 地元のニュースやメディア
- ユーザー生成コンテンツ
各ソースは、方言の本質的な表現を確保し、現代標準アラビア語(MSA)や他のアラビア語方言の混入を排除するために慎重にチェックされました。
🔧 技術詳細
属性 |
详情 |
モデルタイプ |
トランスフォーマーベースの言語モデル |
パラメータ数 |
0.5B |
コンテキストウィンドウ |
2048トークン |
学習データ |
1億5500万トークンの純粋なダリジャ語コンテンツ |
📚 ドキュメント
利用事例
- モロッコのユーザー向けチャットボット
- ダリジャ語でのコンテンツ生成
- モロッコのコンテンツのテキスト分類
- 地元市場のセンチメント分析
- カスタマーサービスの自動化
- ダリジャ語話者向けの教育ツール
今後の予定
- より大きなモデルサイズへの拡張
- ダリジャ語用の評価ベンチマークの作成
- 学習データセットの拡張
- タスク固有のファインチューニングバージョンの開発
- SFT学習
引用
@misc{atlasia2025al-atlas-0.5B,
title={Al-Atlas: A Causal Language Model for Moroccan Darija},
author={Abdelaziz Bounhar},
year={2025},
howpublished={\url{https://huggingface.co/atlasia/Al-Atlas-0.5B/}},
organization={AtlasIA}
}