OpenChatオープンソース言語モデル - 無料でデプロイ可能、限られたデータで高性能な多輪対話を実現

ホーム

Openchat

openchatによって開発

OpenChatは一連のオープンソース言語モデルで、多様で高品質な多輪対話データセットで微調整され、限られたデータで高性能を実現することを目的としています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #効率的な微調整 #多輪対話 #オープンソースLLM

ダウンロード数 1,786

リリース時間 : 6/22/2023

モデル概要

OpenChatはLLaMAとStarCoderPlusに基づくオープンソース言語モデルで、多輪対話タスクに特化し、選りすぐりの小規模で高品質なデータを使って優れた性能を実現します。

モデル特徴

効率的なデータ利用

約6000件の選りすぐりのGPT - 4対話データのみを使って微調整するだけで、優れた性能を達成します。

多バージョンサポート

標準版(2048コンテキスト)と拡張版(8192コンテキスト)を提供し、さまざまなニーズに対応します。

コード専用モデル

OpenCoderPlusはコード生成タスクに最適化され、StarCoderPlusアーキテクチャに基づいています。

高性能表現

Vicuna GPT - 4評価でChatGPTを上回り、AlpacaEvalでの勝率は約80%です。

モデル能力

多輪対話生成

コード生成

自然言語理解

コンテキスト感知応答

使用事例

対話システム

スマートカスタマーサービス

高性能のカスタマーサービス対話システムを構築します。

Vicuna評価でChatGPTの105.7%の性能を達成します。

個人用アシスタント

個別化されたデジタルアシスタントを開発します。

最大8192トークンのコンテキストメモリをサポートします。

プログラミング支援

コード生成

自然言語の説明に基づいてコードを生成します。

コードタスクでChatGPTの102.5%の性能を達成します。

🚀 OpenChat：オープンソースモデル、少なさこそが多さ

OpenChat は一連のオープンソース言語モデルで、多様で高品質な多輪対話データセットで微調整されています。約 9 万件の ShareGPT 対話から選りすぐった約 6000 件の GPT - 4 対話のみを使用し、OpenChat は限られたデータで高性能を実現することを目指しています。

✨ 主な機能

汎用モデル

OpenChat：LLaMA - 13B（コンテキスト長 2048）をベースにしています。
- Vicuna GPT - 4 評価では、ChatGPT の 105.7% のスコアを達成しました。
- AlpacaEval での勝率は 80.9% です。
- わずか 6000 件のデータで微調整！！！
OpenChat - 8192：LLaMA - 13B（コンテキスト長を 8192 に拡張）をベースにしています。
- Vicuna GPT - 4 評価では、ChatGPT の 106.6% のスコアを達成しました。
- AlpacaEval での勝率は 79.5% です。

コードモデル

OpenCoderPlus：StarCoderPlus（ネイティブコンテキスト長 8192）をベースにしています。
- Vicuna GPT - 4 評価では、ChatGPT の 102.5% のスコアを達成しました。
- AlpacaEval での勝率は 78.7% です。

⚠️ 重要な注意事項

事前学習モデルを bfloat16 でロードしてください。

🚀 クイックスタート

コードと推論サーバー

私たちは OpenChat の GitHub リポジトリに、「ChatCompletions」API と互換性のある推論サーバーを含む完全なソースコードを提供しています。

Web インターフェイス

OpenChat には、より良いユーザー体験を提供するための Web インターフェイスも含まれています。詳細は GitHub リポジトリを参照してください。

💻 使用例

対話テンプレート

対話テンプレートは トークンの結合を伴います。

基本モデルの語彙に加えて、ID が eot_token_id のターン終了トークン <|end_of_turn|> が追加されています。

# OpenChat
[bos_token_id] + tokenize("Human: ") + tokenize(user_question) + [eot_token_id] + tokenize("Assistant: ")
# OpenCoder
tokenize("User:") + tokenize(user_question) + [eot_token_id] + tokenize("Assistant:")

💡 使用上のヒント

バイト対符号化（BPE）では、tokenize(A) + tokenize(B) が常に tokenize(A + B) と等しいわけではありません。

以下は対話テンプレートを生成するコードです。

@dataclass
class ModelConfig:
    # Prompt
    system: Optional[str]

    role_prefix: dict
    ai_role: str
    eot_token: str
    bos_token: Optional[str] = None

    # Get template
    def generate_conversation_template(self, tokenize_fn, tokenize_special_fn, message_list):
        tokens = []
        masks = []

        # begin of sentence (bos)
        if self.bos_token:
            t = tokenize_special_fn(self.bos_token)
            tokens.append(t)
            masks.append(False)

        # System
        if self.system:
            t = tokenize_fn(self.system) + [tokenize_special_fn(self.eot_token)]
            tokens.extend(t)
            masks.extend([False] * len(t))

        # Messages
        for idx, message in enumerate(message_list):
            # Prefix
            t = tokenize_fn(self.role_prefix[message["from"]])
            tokens.extend(t)
            masks.extend([False] * len(t))

            # Message
            if "value" in message:
                t = tokenize_fn(message["value"]) + [tokenize_special_fn(self.eot_token)]
                tokens.extend(t)
                masks.extend([message["from"] == self.ai_role] * len(t))
            else:
                assert idx == len(message_list) - 1, "Empty message for completion must be on the last."

        return tokens, masks


MODEL_CONFIG_MAP = {
    # OpenChat / OpenChat-8192
    "openchat": ModelConfig(
        # Prompt
        system=None,

        role_prefix={
            "human": "Human: ",
            "gpt": "Assistant: "
        },
        ai_role="gpt",
        eot_token="<|end_of_turn|>",
        bos_token="<s>",
    ),

    # OpenCoder / OpenCoderPlus
    "opencoder": ModelConfig(
        # Prompt
        system=None,

        role_prefix={
            "human": "User:",
            "gpt": "Assistant:"
        },
        ai_role="gpt",
        eot_token="<|end_of_turn|>",
        bos_token=None,
    )
}

📄 ライセンス

私たちのモデルの重みのライセンスは、それぞれのベースモデルに準拠しています。例えば、OpenChat と OpenChat - 8192 は LLaMA のモデルライセンスと同じで、非商用目的のみに使用できます。一方、OpenCoderPlus は StarCoder のライセンスに従います。さらに、ShareGPT のプライバシーポリシーも遵守する必要があります。GitHub で公開されているコードは Apache License 2.0 に従います。

📚 ドキュメント

引用情報

@software{openllms23,
  title = {{OpenLLMs: Less is More for Open-source Models}},
  author = {Wang, Guan and Cheng, Sijie and Yu, Qiying and Liu, Changling},
  doi = {10.5281/zenodo.8105775},
  url = {https://github.com/imoneoi/openchat},
  version = {pre-release},
  year = {2023},
  month = {7},
}