DiscoLM_German_7b_v1オープンソースのドイツ語言語モデル - ドイツ語と英語の双方向交流をサポート

ホーム

Discolm German 7b V1 AWQ

TheBlokeによって開発

DiscoLM German 7B v1はMistralアーキテクチャに基づく7Bパラメータのドイツ語言語モデルで、ドイツ語と英語をサポートし、Apache-2.0ライセンスで公開されています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ドイツ語会話最適化 #多言語混合トレーニング #ChatMLフォーマット対応

ダウンロード数 81

リリース時間 : 1/18/2024

モデル概要

このモデルはドイツ語に特化した言語モデルで、Mistralアーキテクチャに基づき、微調整が施されており、ドイツ語のテキスト生成や理解タスクに適しています。

モデル特徴

ドイツ語最適化

ドイツ語に特化して最適化と微調整が行われており、優れたドイツ語テキスト処理能力を提供します。

多言語サポート

ドイツ語に加えて英語もサポートしており、ある程度のクロスランゲージ能力を備えています。

効率的な推論

AWQ量子化技術を採用し、品質を維持しながら推論速度を向上させています。

モデル能力

ドイツ語テキスト生成

英語テキスト生成

対話システム

テキスト理解

使用事例

コンテンツ作成

ドイツ語記事執筆

ユーザーがドイツ語の記事やブログなどを生成するのを支援

流暢で文脈に合ったドイツ語テキストを生成

カスタマーサービス

ドイツ語カスタマーサービスボット

ドイツ語市場向けの自動カスタマーサービスシステム

ドイツ語の顧客相談を理解し回答可能

🚀 DiscoLM German 7B v1 - AWQ

このモデルは、ドイツ語に特化した大規模言語モデルで、Disco Researchによって開発されました。AWQ形式で量子化されており、GPUでの高速推論が可能です。

🚀 クイックスタート

このセクションでは、DiscoLM German 7B v1 - AWQモデルの基本的な情報と、各種環境での使用方法を説明します。

✨ 主な機能

AWQ量子化：効率的で高速な低ビット重み量子化手法で、4ビット量子化に対応しています。
多言語対応：ドイツ語と英語に対応しています。
複数の推論環境対応：Text Generation Webui、vLLM、Hugging Face Text Generation Inference (TGI)、Transformersなどの環境で使用できます。

📦 インストール

text-generation-webuiでの使用方法

text-generation-webuiの最新バージョンを使用していることを確認してください。
Model tabをクリックします。
Download custom model or LoRAの下に、TheBloke/DiscoLM_German_7b_v1-AWQを入力します。
Downloadをクリックします。
モデルのダウンロードが完了すると、"Done"と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンから、先ほどダウンロードしたモデルDiscoLM_German_7b_v1-AWQを選択します。
Loader: AutoAWQを選択します。
Loadをクリックすると、モデルがロードされ、使用可能になります。
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう！

必要なパッケージのインストール

Transformers 4.35.0以上が必要です。
AutoAWQ 0.1.6以上が必要です。

pip3 install --upgrade "autoawq>=0.1.6" "transformers>=4.35.0"

💻 使用例

vLLMを使用した推論

from vllm import LLM, SamplingParams

prompts = [
    "Tell me about AI",
    "Write a story about llamas",
    "What is 291 - 150?",
    "How much wood would a woodchuck chuck if a woodchuck could chuck wood?",
]
prompt_template=f'''<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
'''

prompts = [prompt_template.format(prompt=prompt) for prompt in prompts]

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="TheBloke/DiscoLM_German_7b_v1-AWQ", quantization="awq", dtype="auto")

outputs = llm.generate(prompts, sampling_params)

# Print the outputs.
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

Transformersを使用した推論

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model_name_or_path = "TheBloke/DiscoLM_German_7b_v1-AWQ"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    low_cpu_mem_usage=True,
    device_map="cuda:0"
)

# Using the text streamer to stream output one token at a time
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = "Tell me about AI"
prompt_template=f'''<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
'''

# Convert prompt to tokens
tokens = tokenizer(
    prompt_template,
    return_tensors='pt'
).input_ids.cuda()

generation_params = {
    "do_sample": True,
    "temperature": 0.7,
    "top_p": 0.95,
    "top_k": 40,
    "max_new_tokens": 512,
    "repetition_penalty": 1.1
}

# Generate streamed output, visible one token at a time
generation_output = model.generate(
    tokens,
    streamer=streamer,
    **generation_params
)

# Generation without a streamer, which will include the prompt in the output
generation_output = model.generate(
    tokens,
    **generation_params
)

# Get the tokens from the output, decode them, print them
token_output = generation_output[0]
text_output = tokenizer.decode(token_output)
print("model.generate output: ", text_output)

# Inference is also possible via Transformers' pipeline
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    **generation_params
)

pipe_output = pipe(prompt_template)[0]['generated_text']
print("pipeline output: ", pipe_output)

📚 詳細ドキュメント

提供されるファイルとAWQパラメータ

現在、128g GEMMモデルのみをリリースしています。グループサイズ32のモデルとGEMVカーネルモデルの追加が積極的に検討されています。

モデルはシャーディングされたsafetensorsファイルとしてリリースされます。

ブランチ	ビット数	GS	AWQデータセット	シーケンス長	サイズ
main	4	128	German Quad	4096	4.15 GB

プロンプトテンプレート: ChatML

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

互換性

提供されるファイルは、以下の環境で動作することがテストされています。

text-generation-webui で Loader: AutoAWQ を使用する場合。
vLLM バージョン0.2.0以上。
Hugging Face Text Generation Inference (TGI) バージョン1.1.0以上。
Transformers バージョン4.35.0以上。
AutoAWQ バージョン0.1.1以上。

🔧 技術詳細

AWQについて

AWQは、効率的で正確かつ非常に高速な低ビット重み量子化手法で、現在は4ビット量子化をサポートしています。GPTQと比較すると、同等またはそれ以上の品質で、Transformerベースの推論をより高速に行うことができます。

AWQモデルは現在、LinuxとWindowsで、NVidia GPUのみでサポートされています。macOSユーザーは、代わりにGGUFモデルを使用してください。

AWQは以下の環境でサポートされています。

Text Generation Webui - Loader: AutoAWQを使用する場合。
vLLM - すべてのモデルタイプをサポートするにはバージョン0.2.2以上。
Hugging Face Text Generation Inference (TGI)
Transformers バージョン4.35.0以上、Transformersをサポートする任意のコードまたはクライアントから。
AutoAWQ - Pythonコードから使用する場合。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご