Al-Atlas-0.5B Open-Source Language Model - Specializing in Darija Language Processing, Free to Use!

Home

Al Atlas 0.5B

Developed by atlasia

The first 500M-parameter language model dedicated to Morocco's primary spoken dialect, Darija

Large Language Model

Transformers

Supports Multiple Languages#Exclusive to Moroccan Dialect #Darija Generation #Cultural Context Understanding

Downloads 577

Release Time : 3/5/2025

Model Overview

A Moroccan Darija-specific model fine-tuned on Qwen-2.5, trained on a 155M pure dialect token dataset with cultural context comprehension

Model Features

Dedicated Dialect Model

The first language model specifically trained for Moroccan Arabic dialect

High-Quality Data

Curated dataset of 155M tokens sourced natively from Morocco

Cultural Understanding

Capable of capturing nuanced cultural contexts and localized expressions

Model Capabilities

Darija Text Generation

Dialect Conversation Understanding

Cultural Context Analysis

Use Cases

Dialogue Systems

Moroccan User Chatbot

Provides dialect interaction experience for Moroccan users

Content Generation

Darija Content Creation

Generates culturally appropriate textual content

Educational Tools

Darija Learning Assistance

Helps learners understand and use Moroccan dialect

🚀 Al-Atlas: Large Language Model for Moroccan Arabic

Al-Atlas is a 0.5B parameter language model. It's specifically trained on Moroccan Darija, serving as the first dedicated foundation model for Morocco's primary spoken dialect. The model is finetuned from Qwen-2.5 and trained on a curated 155M - token dataset focused on authentic Moroccan Darija content.

🚀 Quick Start

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load model and tokenizer
model = AutoModelForCausalLM.from_pretrained("atlasia/Al-Atlas-0.5B")
tokenizer = AutoTokenizer.from_pretrained("atlasia/Al-Atlas-0.5B")

# Example usage
text = "الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
  **inputs,
  max_new_tokens=1024,
  pad_token_id=generator.tokenizer.pad_token_id or generator.tokenizer.eos_token_id,
  repetition_penalty=1.5,
  num_beams=8,
  top_p= 0.9,
  top_k= 150,
  do_sample= True,
  early_stopping = True,
)
response = tokenizer.decode(outputs[0])
# response: 
الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز گاع على تطوير الآلات اللي قادرة تدير مهام اللي عادة خاصها ذكاء بشري، بحال التعرف على الأنماط، حل المشاكل، اتخاذ القرارات، وفهم اللغة الطبيعية. الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا.
واحد من أهم التطبيقات ديال الذكاء الاصطناعي هو فالصحة. الذكاء الاصطناعي يقدر يعاون الطبة باش يشخصو الأمراض بدقة أكبر، يأوتوماتيزيو المهام الروتينية، ويحسنو نتائج المرضى. مثلا، الخوارزميات ديال الذكاء الاصطناعي تقدر تحلل الصور الطبية باش تكتاشف العلامات الحيوية اللي ممكن ما تكونش واضحة للفحص البشري. زيادة على هادشي، الذكاء الاصطناعي يقدر يعاون الأطباء باش يصاوبو خطط علاج مخصصة حسب الاحتياجات الخاصة ديال كل مريض.
بالإضافة للصحة، الذكاء الاصطناعي عندو إمكانية باش يغير الطريقة اللي كنتفاعلو بيها مع التكنولوجيا. مثلا، الذكاء الاصطناعي يقدر يعاون الشركات باش يحسنو العمليات ديالهم، يأوتوماتيزيو المهام الروتينية، ويحسنو تجربة الزبون. زيادة على هادشي، الذكاء الاصطناعي يقدر يعاون الفلاحة باش يزيدو الإنتاجية، ينقصو التكاليف، ويحسنو جودة المحاصيل.
فالختام، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. من خلال تطوير أنظمة ذكاء اصطناعي متقدمة، نقدرو نحسنو الكفاءة، نحسنو جودة الحياة، ونخلقو عالم أحسن للأجيال الجاية. مع استمرار تطور الذكاء الاصطناعي، من المرجح أنه غادي يلعب دور أكثر أهمية فتشكيل مستقبل البشرية. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا

✨ Features

Dedicated Darija Model: The first language model specifically trained for the Moroccan Arabic dialect.
High - Quality Data: A curated dataset of 155M tokens from authentic Moroccan sources.
Cultural Understanding: Captures nuanced cultural context and local expressions.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

Basic Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load model and tokenizer
model = AutoModelForCausalLM.from_pretrained("atlasia/Al-Atlas-0.5B")
tokenizer = AutoTokenizer.from_pretrained("atlasia/Al-Atlas-0.5B")

# Example usage
text = "الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
  **inputs,
  max_new_tokens=1024,
  pad_token_id=generator.tokenizer.pad_token_id or generator.tokenizer.eos_token_id,
  repetition_penalty=1.5,
  num_beams=8,
  top_p= 0.9,
  top_k= 150,
  do_sample= True,
  early_stopping = True,
)
response = tokenizer.decode(outputs[0])

📚 Documentation

Dataset

Our training corpus consists of 155M tokens of pure Moroccan Darija content, sourced from:

Social media conversations
Transcribed spoken content
Online forums and discussions
Local news and media
User - generated content

Each source was carefully vetted to ensure authentic representation of the dialect and remove any Modern Standard Arabic (MSA) or other Arabic dialect contamination.

Model Details

Property	Details
Model Type	Transformer - based language model
Parameters	0.5B
Context Window	2048 tokens
Training Data	155M tokens of pure Darija content

Use Cases

Chatbots for Moroccan users
Content generation in Darija
Text classification for Moroccan content
Sentiment analysis for local markets
Customer service automation
Educational tools for Darija speakers

Future Work

Scaling to larger model sizes
Creating evaluation benchmarks for Darija
Expanding the training dataset
Developing task - specific fine - tuned versions
SFT training

📄 License

No license information is provided in the original document.

BibTeX Citation

@misc{atlasia2025al-atlas-0.5B,
  title={Al-Atlas: A Causal Language Model for Moroccan Darija},
  author={Abdelaziz Bounhar},
  year={2025},
  howpublished={\url{https://huggingface.co/atlasia/Al-Atlas-0.5B/}},
  organization={AtlasIA}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご