Maral-7B-alpha-1オープンソース言語モデル - ペルシア語と英語のコンテンツ生成を無料でサポート

ホーム

Maral 7B Alpha 1

MaralGPTによって開発

Maralはペルシャ語に特化した大規模言語モデルで、Mistralアーキテクチャを基にペルシャ語Alpacaデータセットで訓練され、英語生成もサポートしています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #ペルシャ語大規模言語モデル #Mistralアーキテクチャ #バイリンガル生成

ダウンロード数 54

リリース時間 : 12/24/2023

モデル概要

Maralはペルシャ語向けに設計された大規模言語モデルで、ペルシャ語にAI時代の新たな活力を注入することを目的としています。Mistralアーキテクチャを基盤とし、ペルシャ語と英語のテキスト生成をサポートします。

モデル特徴

ペルシャ語最適化

ペルシャ語に特化して訓練・最適化されており、この言語分野では数少ない試みの一つです

バイリンガルサポート

Mistralの基本アーキテクチャにより、英語とペルシャ語の流暢な生成を同時にサポート

量子化バージョン

4ビット量子化バージョンを提供し、リソースが限られたデバイスでの実行に適しています

モデル能力

ペルシャ語テキスト生成

英語テキスト生成

質問応答システム

対話生成

使用事例

言語アプリケーション

ペルシャ語質問応答システム

ペルシャ語ユーザーの質問に回答するために使用

ペルシャ語の文法に沿った回答を生成可能

バイリンガル対話システム

英語とペルシャ語のバイリンガル対話をサポート

2言語間を流暢に切り替え可能

🚀 Maral 7B Alpha 1

Maralは、ペルシア語に特化した新しい大規模言語モデルです。このモデルは、AIの時代にペルシア語を新たな生命に満ちたものにするための、ペルシア語圏での数少ない取り組みの一つです。

🚀 クイックスタート

モデルの概要

Maralは、Mistralをベースに、Alpaca Persian データセットを用いて学習された大規模言語モデルです。このモデルは、ペルシア語に特化しており、英語の回答も生成することができます。

モデルの名前の由来

Maralは、イラン在来種のシカであるヨーロッパジカのペルシア語名です。この名前が選ばれた理由の一つは、環境問題への配慮であり、もう一つは、このモデルがイラン人によって作成されたペルシア語のLLMであるため、イランの名前にふさわしいと考えられたからです。

✨ 主な機能

推論

プロンプトフォーマット

このモデルは、Guanaco フォーマットを必要とします。形式は以下の通りです。

### Human: <prompt>
### Assistant: <answer>

コードでは、以下のようにプロンプトを記述できます。

prompt = "در سال ۱۹۹۶ چه کسی رییس جمهور آمریکا بود؟"
prompt = f"### Human:{prompt}\n### Assistant:"

推論セクションでこれに関する詳細情報を提供します。

4ビット量子化

4ビット量子化を使用する場合は、こちらにPEFTが用意されています。また、Google Colab ノートブックはこちらで見つけることができます。

ライブラリのインストール

pip install transformers accelerate bitsandbytes 注意: bitsandbytes ライブラリは8ビットバージョンでのみ必要です。それ以外の場合は不要です。

大型GPUでの推論

A100のような十分な大きさのGPUを持っている場合、以下のコードを使用できます。

from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
import torch

model_name_or_id = "MaralGPT/Maral-7B-alpha-1"

model = AutoModelForCausalLM.from_pretrained(model_name_or_id, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_id)

prompt = "در سال ۱۹۹۶ چه کسی رییس جمهور آمریکا بود؟"
prompt = f"### Human:{prompt}\n### Assistant:"

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

generation_config = GenerationConfig(
    do_sample=True,
    top_k=1,
    temperature=0.5,
    max_new_tokens=300,
    pad_token_id=tokenizer.eos_token_id
)

outputs = model.generate(**inputs, generation_config=generation_config)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

小型GPU（消費者向けハードウェア/無料Colab）での推論

コードは上記とほぼ同じですが、少し違いがあります。

bitsandbytes が正しくインストールされていることを確認してください。
モデルの読み込みは、model = AutoModelForCausalLM.from_pretrained(model_name_or_id, load_in_8bit=True, torch_dtype=torch.bfloat16, device_map="auto") とする必要があります。 Google Colabの無料版では、RAMの問題に直面する可能性があります。モデルの読み込み時に low_cpu_mem_usage=True を使用すると役立つと思われます。

🔧 技術詳細

既知の問題

モデルは文法（特にペルシア語）の面でGPT - 3.5レベルの回答を生成しますが、極端な幻覚を引き起こす可能性があります。この問題は、より良いデータセットとトレーニング手順（DPOなど）によって解決できます。
前の問題により、モデルは特にペルシア語の推論問題を扱う際に誤った情報を生成する可能性があります。
モデルは大きいため、正しく動作するために多くのリソースが必要です。ただし、GPTQ または GGUF バージョンも提供する予定です。
プロンプトフォーマットは機能し、指示に従うLLMのコンセプトを証明していますが、eos_token と bos_token を独自のものに変更していないため、モデルが不必要な情報を生成することがあります。
前の問題により、モデルは自身を繰り返す可能性があります。この問題を一時的に解決するには、温度を1未満に保つ必要があります。テストによると、0.5から0.7の間が最適です。