yayi - 7b雅意オープンソース中国語大規模言語モデル、無料でデプロイ可能、多くの分野で数百種類の指令タスクをサポート

ホーム

Yayi 7b

wenge-researchによって開発

雅意大モデルは、百万レベルの高品質分野データを基に微調整された中国語大規模言語モデルで、多くの分野の数百種類の自然言語指令タスクをカバーしています。

大規模言語モデル

Transformers

複数言語対応#中国語分野の微調整 #マルチタスク指令処理 #オピニオン分析の最適化

ダウンロード数 939

リリース時間 : 6/2/2023

モデル概要

雅意大モデルは、中国語の基礎能力と分野分析能力を強化し、さまざまな自然言語処理タスクをサポートし、プラグイン機能も備えています。

モデル特徴

多分野データ訓練

百万レベルの人工的に構築された高品質分野データで指令微調整を行い、メディア宣伝、オピニオン分析、公共安全、金融リスク管理、都市管理などの五大分野をカバーしています。

能力強化

中国語の基礎能力と分野分析能力を強化し、一部のプラグイン機能も追加しました。

継続的な最適化

数百人のユーザーによる内部テストの過程で、継続的に人工フィードバックを受けて最適化を行い、モデルの性能とセキュリティを向上させました。

モデル能力

テキスト生成

分野分析

マルチラウンド対話

プラグインサポート

使用事例

メディア宣伝

ニュース稿生成

キー情報に基づいて自動的にニュース稿を生成

オピニオン分析

オピニオンレポート生成

オピニオンデータを分析してレポートを生成

公共安全

安全警報分析

安全関連データを分析して警報を生成

🚀 雅意大模型

雅意大模型は、百万レベルの人工的に構築された高品質な分野データで指令微調整を行って得られました。訓練データは、メディア宣伝、オピニオン分析、公共安全、金融リスク管理、都市管理などの五大分野と、数百種類の自然言語指令タスクをカバーしています。雅意大模型は、事前学習の初期化重みから分野モデルへの反復過程で、中国語の基礎能力と分野分析能力を徐々に強化し、一部のプラグイン機能も追加されました。同時に、数百人のユーザーによる内部テスト中に継続的に人工フィードバックを行い最適化することで、モデルの性能と安全性をさらに向上させました。

雅意大模型のオープンソース化を通じて、中国語事前学習大規模言語モデルのオープンソースコミュニティの発展に貢献し、オープンソースを通じて各パートナーと協力して雅意大模型のエコシステムを構築します。

🚀 クイックスタート

以下は、yayi - 7b を使用して下流タスクの推論を行う簡単なサンプルコードです。このコードは、単一の A100/A800/3090 などの GPU で実行でき、FP16 精度で推論する場合、約 20GB の VRAM を使用します。訓練データを取得するか、yayi - 7b をベースにモデルの微調整を行う場合は、[💻Github Repo](https://github.com/wenge - research/YaYi) を参照してください。

from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
import torch

yayi_7b_path = "wenge-research/yayi-7b"
tokenizer = AutoTokenizer.from_pretrained(yayi_7b_path)
model = AutoModelForCausalLM.from_pretrained(yayi_7b_path, device_map="auto", torch_dtype=torch.bfloat16)

prompt = "你好"
formatted_prompt = f"<|System|>:\nA chat between a human and an AI assistant named YaYi.\nYaYi is a helpful and harmless language model developed by Beijing Wenge Technology Co.,Ltd.\n\n<|Human|>:\n{prompt}\n\n<|YaYi|>:"
inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)

eos_token_id = tokenizer("<|End|>").input_ids[0]
generation_config = GenerationConfig(
    eos_token_id=eos_token_id,
    pad_token_id=eos_token_id,
    do_sample=True,
    max_new_tokens=100,
    temperature=0.3,
    repetition_penalty=1.1,
    no_repeat_ngram_size=0
)
response = model.generate(**inputs, generation_config=generation_config)
print(tokenizer.decode(response[0]))

注意: モデルの訓練時には、特殊トークン <|End|> がシーケンス終了マーカーとして追加されました。したがって、上記の GenerationConfig では、eos_token_id をこのシーケンス終了マーカーに対応するトークン ID に設定する必要があります。

✨ 主な機能

雅意大模型は、以下のような主な機能を備えています。

中国語の基礎能力と分野分析能力が強化されています。
マルチターン会話機能が強化され、一部のプラグイン機能が追加されています。
数百人のユーザーによる内部テストを通じて、性能と安全性が最適化されています。

📚 ドキュメント

🔧 技術詳細

モデルの初期化と訓練

本プロジェクトでは、BigScience の [bloomz - 7b1 - mt](https://huggingface.co/bigscience/bloomz - 7b1 - mt) モデルのウェイトと Meta の [Llama 2](https://huggingface.co/meta - llama) シリーズを初期化ウェイトとして使用し、語彙拡張を行っています。
訓練コードは、Databricks の dolly プロジェクトと Huggingface の transformers ライブラリを参考にしています。
分散訓練には、Microsoft の DeepSpeed 分散訓練ツールと Huggingface transformers のドキュメントの [ZeRO stage 2](https://huggingface.co/docs/transformers/main_classes/deepspeed#zero2 - config) 設定ファイルを使用しています。

📄 ライセンス

本プロジェクトのコードは [Apache - 2.0](https://github.com/wenge - research/YaYi/blob/main/LICENSE) ライセンスでオープンソース化されており、データは [CC BY - NC 4.0](https://github.com/wenge - research/YaYi/blob/main/LICENSE_DATA) ライセンスに従い、YaYi シリーズのモデルウェイトの使用は [モデルライセンス](https://github.com/wenge - research/YaYi/blob/main/LICENSE_MODEL) に従う必要があります。

謝辞

本プロジェクトでは、BigScience の [bloomz - 7b1 - mt](https://huggingface.co/bigscience/bloomz - 7b1 - mt) モデルのウェイトと Meta の [Llama 2](https://huggingface.co/meta - llama) シリーズを初期化ウェイトとして使用し、語彙拡張を行っています。
訓練コードは、Databricks の dolly プロジェクトと Huggingface の transformers ライブラリを参考にしています。
分散訓練には、Microsoft の DeepSpeed 分散訓練ツールと Huggingface transformers のドキュメントの [ZeRO stage 2](https://huggingface.co/docs/transformers/main_classes/deepspeed#zero2 - config) 設定ファイルを使用しています。