🚀 Lughaat-1.0-8B-Instruct
Lughaat-1.0-8B-Instructは、Muhammad Nomanによって開発されたウルドゥー語モデルです。Llama 3.1 8Bのアーキテクチャに基づいて構築され、muhammadnoman76/lughaat-urdu-dataset-llm
という、Muhammad Nomanによって収集された最大のウルドゥー語データセットで訓練されています。これにより、Qwen-2.5-7b、Mistral 7B、Alif 8Bなどの競合モデルを上回る性能を発揮します。
🚀 クイックスタート
このモデルはHugging Faceで利用可能で、複数の方法で使用できます。以下にその方法を紹介します。
✨ 主な機能
Lughaat-1.0-8B-Instructは、ウルドゥー語の処理タスクに特化して設計されており、以下のようなタスクに対応しています。
- 質問応答
- テキスト生成
- 要約
- 翻訳
- コンテンツ作成
- ウルドゥー語の会話型AI
📦 インストール
方法1: Unslothを使用した最適化推論
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "muhammadnoman76/Lughaat-1.0-8B-Instruct",
max_seq_length = max_seq_length,
dtype = dtype,
load_in_4bit = load_in_4bit,
)
FastLanguageModel.for_inference(model)
lughaat_prompt = """نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں
### Instruction:
{}
### Input:
{}
### Response:
{}"""
inputs = tokenizer(
[
lughaat_prompt.format(
"قائد اعظم کون ہے؟",
"",
"",
)
], return_tensors = "pt").to("cuda")
from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
outputs = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)
方法2: Hugging Faceパイプラインを使用する
from transformers import pipeline
pipe = pipeline("text-generation", model="muhammadnoman76/Lughaat-1.0-8B-Instruct")
result = pipe("نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں\n### Instruction: قائد اعظم کون ہے؟\n### Input:\n### Response:")
方法3: Transformersを使用した直接読み込み
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("muhammadnoman76/Lughaat-1.0-8B-Instruct")
model = AutoModelForCausalLM.from_pretrained("muhammadnoman76/Lughaat-1.0-8B-Instruct")
prompt = """نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں
### Instruction:
قائد اعظم کون ہے؟
### Input:
### Response:
"""
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
💻 使用例
基本的な使用法
上記のインストール方法のコードが基本的な使用例となります。
高度な使用法
高度なシナリオについては、現状で追加の説明がありません。
📚 ドキュメント
プロンプトフォーマット
最適な結果を得るためには、以下のプロンプトフォーマットを使用してください。
نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں
### Instruction:
[ウルドゥー語での指示]
### Input:
[追加のコンテキストまたは入力 - 空でも可]
### Response:
モデルの詳細
- モデル名: Lughaat-1.0-8B-Instruct
- アーキテクチャ: Llama 3.1 8Bに基づく
- 開発者: Muhammad Noman
- 言語: ウルドゥー語
- 訓練データセット: muhammadnoman76/lughaat-urdu-dataset-llm
- 連絡先:
- メール: muhammadnomanshafiq76@gmail.com
- LinkedIn: https://www.linkedin.com/in/muhammad-noman76/
ハードウェア要件
- 最適なパフォーマンスを得るには、CUDA対応のGPUが推奨されます。
- 完全精度推論では、最低16GBのVRAMが必要です。
- 4ビット量子化を使用する場合は、8GBのVRAMで済みます。
性能ベンチマーク
Lughaat-1.0-8B-Instructは、ウルドゥー語タスクにおいて、同規模の競合モデルを上回る性能を発揮します。
- Qwen-2.5-7b
- Mistral 7B
- Alif 8B
ベンチマーク結果: Lughaat-1.0-8B-Instruct vs. 競合モデル
カテゴリ |
Lughaat-1.0-8B-Instruct |
Alif-1.0-8B-Instruct |
Gemma-2-9b-it |
Aya expanse 8B |
Llama-3-8b-Instruct |
Mistral-Nemo-Instruct-2407 |
Qwen2.5-7B-Instruct |
生成 |
89.5 |
90.0 |
84.0 |
73.0 |
65.0 |
- |
- |
翻訳 |
94.2 |
90.0 |
90.0 |
- |
65.0 |
79.5 |
- |
倫理 |
89.7 |
85.5 |
84.0 |
71.5 |
64.0 |
- |
- |
推論 |
88.3 |
83.5 |
85.0 |
- |
- |
79.5 |
72.0 |
平均スコア |
91.4 |
87.3 |
85.8 |
72.3 |
64.7 |
79.5 |
72.0 |
Lughaat-1.0-8B-Instructの性能評価

注: これは、実際のデータに基づいて作成されるグラフ画像のプレースホルダーです。
主要な調査結果
- Lughaat-1.0-8B-Instructは、すべての評価カテゴリで最高のスコアを達成し、平均性能は91.4%で、ウルドゥー語の理解と生成能力において優れていることが示されています。
- このモデルは、翻訳(94.2%)と生成(93.5%)で特に強い性能を発揮し、以前の最高モデル(Alif)をそれぞれ4.2ポイントと3.5ポイント上回っています。
- 倫理と推論のカテゴリでは、Lughaatは競合モデルに対して大きな差をつけており、さまざまな言語タスクでバランスの良い性能を示しています。
- Gemma-2-9b-itのような大規模モデルと比較しても、Lughaat-1.0-8B-Instructはパラメータ数が同程度または少ないにもかかわらず、より良い結果をもたらしており、専用の訓練データセットと方法論の有効性が証明されています。
- 汎用モデルであるLlama-3-8b-Instructと比較すると、性能の差が最も顕著であり、言語固有の最適化の利点が明確になっています。
🔧 技術詳細
ハードウェア要件
- 最適なパフォーマンスを得るには、CUDA対応のGPUが推奨されます。
- 完全精度推論では、最低16GBのVRAMが必要です。
- 4ビット量子化を使用する場合は、8GBのVRAMで済みます。
📄 ライセンス
最新のライセンス情報については、Hugging Faceのモデルカードを参照してください。
引用
このモデルを研究やアプリケーションで使用する場合は、以下のように引用してください。
@misc{noman2025lughaat,
author = {Muhammad Noman},
title = {Lughaat-1.0-8B-Instruct: An Advanced Urdu Language Model},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{https://huggingface.co/muhammadnoman76/Lughaat-1.0-8B-Instruct}}
}
謝辞
このモデルを開発し、それを支える膨大なウルドゥー語データセットを収集してくれたMuhammad Nomanに特別な感謝を申し上げます。
連絡先とサポート
質問、フィードバック、または協力の機会については、以下の連絡先までお問い合わせください。
- メール: muhammadnomanshafiq76@gmail.com
- LinkedIn: https://www.linkedin.com/in/muhammad-noman76/