Lughaat-1.0-8B-Instructオープンソースウルドゥー語大規模言語モデル - 無料でのデプロイでウルドゥー語タスクをサポート

ホーム

Lughaat 1.0 8B Instruct

muhammadnoman76によって開発

Lughaat-1.0-8B-InstructはLlama 3.1 8Bアーキテクチャに基づいて構築されたウルドゥー語大規模モデルで、最大のウルドゥー語データセットでトレーニングされ、ウルドゥー語タスクで優れたパフォーマンスを発揮します。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ウルドゥー語専門家 #命令微調整 #マルチタスク処理

ダウンロード数 42

リリース時間 : 3/22/2025

モデル概要

このモデルは、質問応答システム、テキスト生成、要約生成、翻訳タスク、コンテンツ作成、ウルドゥー語対話AIなどのウルドゥー語処理タスク専用に設計されています。

モデル特徴

ウルドゥー語最適化

最大のウルドゥー語データセットで特別にトレーニングされており、ウルドゥー語タスクで類似モデルよりも優れたパフォーマンスを発揮します

マルチタスクサポート

質問応答、テキスト生成、翻訳など様々なウルドゥー語処理タスクをサポートします

効率的な推論

4ビット量子化をサポートし、ハードウェア要件を低減します

モデル能力

質問応答システム

テキスト生成

要約生成

翻訳タスク

コンテンツ作成

ウルドゥー語対話AI

使用事例

教育

ウルドゥー語学習アシスタント

学生がウルドゥー語を学び理解するのを支援します

正確なウルドゥー語の説明と例を提供します

コンテンツ作成

ウルドゥー語記事生成

高品質なウルドゥー語コンテンツを生成します

文脈に合ったウルドゥー語テキストを生成します

🚀 Lughaat-1.0-8B-Instruct

Lughaat-1.0-8B-Instructは、Muhammad Nomanによって開発されたウルドゥー語モデルです。Llama 3.1 8Bのアーキテクチャに基づいて構築され、muhammadnoman76/lughaat-urdu-dataset-llmという、Muhammad Nomanによって収集された最大のウルドゥー語データセットで訓練されています。これにより、Qwen-2.5-7b、Mistral 7B、Alif 8Bなどの競合モデルを上回る性能を発揮します。

🚀 クイックスタート

このモデルはHugging Faceで利用可能で、複数の方法で使用できます。以下にその方法を紹介します。

✨ 主な機能

Lughaat-1.0-8B-Instructは、ウルドゥー語の処理タスクに特化して設計されており、以下のようなタスクに対応しています。

質問応答
テキスト生成
要約
翻訳
コンテンツ作成
ウルドゥー語の会話型AI

📦 インストール

方法1: Unslothを使用した最適化推論

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "muhammadnoman76/Lughaat-1.0-8B-Instruct", 
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

FastLanguageModel.for_inference(model)

# ウルドゥー語の指示用のプロンプトテンプレートを定義する
lughaat_prompt = """نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں
### Instruction:
{}
### Input:
{}
### Response:
{}"""

# 使用例
inputs = tokenizer(
[
    lughaat_prompt.format(
        "قائد اعظم کون ہے؟", 
        "", 
        "", 
    )
], return_tensors = "pt").to("cuda")

# ストリーミングで応答を生成する
from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
outputs = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)

方法2: Hugging Faceパイプラインを使用する

from transformers import pipeline

pipe = pipeline("text-generation", model="muhammadnoman76/Lughaat-1.0-8B-Instruct")
result = pipe("نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں\n### Instruction: قائد اعظم کون ہے؟\n### Input:\n### Response:")

方法3: Transformersを使用した直接読み込み

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("muhammadnoman76/Lughaat-1.0-8B-Instruct")
model = AutoModelForCausalLM.from_pretrained("muhammadnoman76/Lughaat-1.0-8B-Instruct")

# 入力を処理する
prompt = """نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں
### Instruction:
قائد اعظم کون ہے؟
### Input:

### Response:
"""

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

💻 使用例

基本的な使用法

上記のインストール方法のコードが基本的な使用例となります。

高度な使用法

高度なシナリオについては、現状で追加の説明がありません。

📚 ドキュメント

プロンプトフォーマット

最適な結果を得るためには、以下のプロンプトフォーマットを使用してください。

نیچے ایک ہدایت ہے جو کسی کام کی تفصیل بیان کرتی ہے، جس کے ساتھ ایک ان پٹ دیا گیا ہے جو مزید سندات فراہم کرتا ہے۔ تھوڑا وقت لیکر ایک جواب لکھیں جو درست طریقے سے درخواست مکمل کریں
### Instruction:
[ウルドゥー語での指示]
### Input:
[追加のコンテキストまたは入力 - 空でも可]
### Response:

モデルの詳細

モデル名: Lughaat-1.0-8B-Instruct
アーキテクチャ: Llama 3.1 8Bに基づく
開発者: Muhammad Noman
言語: ウルドゥー語
訓練データセット: muhammadnoman76/lughaat-urdu-dataset-llm
連絡先:
- メール: muhammadnomanshafiq76@gmail.com
- LinkedIn: https://www.linkedin.com/in/muhammad-noman76/

ハードウェア要件

最適なパフォーマンスを得るには、CUDA対応のGPUが推奨されます。
完全精度推論では、最低16GBのVRAMが必要です。
4ビット量子化を使用する場合は、8GBのVRAMで済みます。

性能ベンチマーク

Lughaat-1.0-8B-Instructは、ウルドゥー語タスクにおいて、同規模の競合モデルを上回る性能を発揮します。

Qwen-2.5-7b
Mistral 7B
Alif 8B

ベンチマーク結果: Lughaat-1.0-8B-Instruct vs. 競合モデル

カテゴリ	Lughaat-1.0-8B-Instruct	Alif-1.0-8B-Instruct	Gemma-2-9b-it	Aya expanse 8B	Llama-3-8b-Instruct	Mistral-Nemo-Instruct-2407	Qwen2.5-7B-Instruct
生成	89.5	90.0	84.0	73.0	65.0	-	-
翻訳	94.2	90.0	90.0	-	65.0	79.5	-
倫理	89.7	85.5	84.0	71.5	64.0	-	-
推論	88.3	83.5	85.0	-	-	79.5	72.0
平均スコア	91.4	87.3	85.8	72.3	64.7	79.5	72.0

Lughaat-1.0-8B-Instructの性能評価

Lughaat Performance Comparison

注: これは、実際のデータに基づいて作成されるグラフ画像のプレースホルダーです。

主要な調査結果

Lughaat-1.0-8B-Instructは、すべての評価カテゴリで最高のスコアを達成し、平均性能は91.4%で、ウルドゥー語の理解と生成能力において優れていることが示されています。
このモデルは、翻訳（94.2%）と生成（93.5%）で特に強い性能を発揮し、以前の最高モデル（Alif）をそれぞれ4.2ポイントと3.5ポイント上回っています。
倫理と推論のカテゴリでは、Lughaatは競合モデルに対して大きな差をつけており、さまざまな言語タスクでバランスの良い性能を示しています。
Gemma-2-9b-itのような大規模モデルと比較しても、Lughaat-1.0-8B-Instructはパラメータ数が同程度または少ないにもかかわらず、より良い結果をもたらしており、専用の訓練データセットと方法論の有効性が証明されています。
汎用モデルであるLlama-3-8b-Instructと比較すると、性能の差が最も顕著であり、言語固有の最適化の利点が明確になっています。

🔧 技術詳細

ハードウェア要件

最適なパフォーマンスを得るには、CUDA対応のGPUが推奨されます。
完全精度推論では、最低16GBのVRAMが必要です。
4ビット量子化を使用する場合は、8GBのVRAMで済みます。

📄 ライセンス

最新のライセンス情報については、Hugging Faceのモデルカードを参照してください。

引用

このモデルを研究やアプリケーションで使用する場合は、以下のように引用してください。

@misc{noman2025lughaat,
  author = {Muhammad Noman},
  title = {Lughaat-1.0-8B-Instruct: An Advanced Urdu Language Model},
  year = {2025},
  publisher = {Hugging Face},
  journal = {Hugging Face Model Hub},
  howpublished = {\url{https://huggingface.co/muhammadnoman76/Lughaat-1.0-8B-Instruct}}
}