OPEN - SOLAR - KO - 10.7B - GGUFオープンソースモデル - 韓英両言語のテキスト生成をサポート、複数のビット量子化オプションあり

ホーム

OPEN SOLAR KO 10.7B GGUF

MaziyarPanahiによって開発

これはbeomi/OPEN-SOLAR-KO-10.7Bモデルを基にしたGGUF形式の量子化バージョンで、2～8ビットの量子化レベルをサポートし、韓国語と英語のテキスト生成タスクに適しています。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #韓英バイリンガル生成 #高精度量子化 #長文処理

ダウンロード数 86

リリース時間 : 2/3/2024

モデル概要

このモデルは10.7Bパラメータの大規模言語モデルで、韓国語に特化して最適化されており、英語もサポートしています。様々な量子化バージョンを提供し、異なるハードウェア要件に対応します。

モデル特徴

マルチレベル量子化サポート

2ビットから8ビットまでの様々な量子化レベルを提供し、異なるハードウェア条件での推論ニーズを満たします。

韓国語最適化

韓国語テキスト生成タスクに特化して最適化されており、韓国語処理で優れた性能を発揮します。

GGUF形式互換性

最新のGGUF形式を採用し、llama.cppやtext-generation-webuiなど、様々な推論クライアントやライブラリと互換性があります。

モデル能力

韓国語テキスト生成

英語テキスト生成

長文処理(32Kコンテキストをサポート)

使用事例

コンテンツ作成

韓国語記事生成

流暢な韓国語の記事、ブログ、ニュース記事を生成

韓国語の文法と表現習慣に合致したテキストを生成可能

対話システム

韓国語チャットボット

韓国語対話システムの構築

自然で流暢な韓国語会話が可能

🚀 [MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF]

[MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF]は、[beomi/OPEN-SOLAR-KO-10.7B]のGGUF形式のモデルファイルを含んでいます。これにより、ユーザーは特定の量子化形式のモデルを選択して利用できます。

🚀 クイックスタート

このセクションでは、[MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF]モデルの基本的な使い方を説明します。

✨ 主な機能

複数の量子化形式（2-bit、3-bit、4-bit、5-bit、6-bit、8-bit）をサポートしています。
GGUF形式を採用しており、llama.cppなどの多くのクライアントやライブラリで利用できます。

📦 インストール

GGUFファイルのダウンロード方法

手動ダウンロードの注意点：通常、リポジトリ全体をクローンする必要はありません。複数の量子化形式が提供されているため、ほとんどのユーザーは1つのファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

`text-generation-webui`でのダウンロード方法

「Download Model」の下に、モデルのリポジトリ MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF を入力し、その下にダウンロードする特定のファイル名（例：OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf）を入力します。そして、「Download」をクリックします。

コマンドラインでのダウンロード方法

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

次に、以下のようなコマンドで任意のモデルファイルを現在のディレクトリに高速でダウンロードできます。

huggingface-cli download MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

高度な`huggingface-cli`のダウンロード方法

パターンを指定して複数のファイルを一度にダウンロードすることもできます。

huggingface-cli download [MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF](https://huggingface.co/MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF) --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

huggingface-cliでのダウンロードに関する詳細なドキュメントは、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。

高速な接続（1Gbit/s以上）でのダウンロードを加速するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download MaziyarPanahi/OPEN-SOLAR-KO-10.7B-GGUF OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windowsコマンドラインユーザーは、ダウンロードコマンドの前に set HF_HUB_ENABLE_HF_TRANSFER=1 を実行して環境変数を設定できます。

💻 使用例

基本的な使用法

from llama_cpp import Llama

# Set gpu_layers to the number of layers to offload to GPU. Set to 0 if no GPU acceleration is available on your system.
llm = Llama(
  model_path="./OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf",  # Download the model file first
  n_ctx=32768,  # The max sequence length to use - note that longer sequence lengths require much more resources
  n_threads=8,            # The number of CPU threads to use, tailor to your system and the resulting performance
  n_gpu_layers=35         # The number of layers to offload to GPU, if you have GPU acceleration available
)

# Simple inference example
output = llm(
  "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant", # Prompt
  max_tokens=512,  # Generate up to 512 tokens
  stop=["</s>"],   # Example stop token - not necessarily correct for this specific model! Please check before using.
  echo=True        # Whether to echo the prompt
)

# Chat Completion API

llm = Llama(model_path="./OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf", chat_format="llama-2")  # Set chat_format according to the model you are using
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

高度な使用法

./main -ngl 35 -m OPEN-SOLAR-KO-10.7B-GGUF.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

-ngl 32 をGPUにオフロードするレイヤー数に変更します。GPUアクセラレーションがない場合は削除します。
-c 32768 を希望するシーケンス長に変更します。拡張シーケンスモデル（例：8K、16K、32K）の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。ただし、より長いシーケンス長はより多くのリソースを必要とするため、この値を減らす必要がある場合があります。
チャット形式の会話を行いたい場合は、-p <PROMPT> 引数を -i -ins に置き換えます。

その他のパラメータとその使用方法については、the llama.cpp documentation を参照してください。

📚 ドキュメント

GGUFについて

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。これは、llama.cppでサポートされなくなったGGMLの代替品です。

以下は、GGUFをサポートすることが知られているクライアントとライブラリの不完全なリストです。

llama.cpp：GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
text-generation-webui：最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
KoboldCpp：完全な機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
GPT4All：無料でオープンソースのローカル実行GUIで、Windows、Linux、macOSをサポートし、完全なGPUアクセラレーションを備えています。
LM Studio：WindowsとmacOS（Silicon）用の使いやすく強力なローカルGUIで、GPUアクセラレーションを備えています。2023年11月27日現在、Linux版はベータ版です。
LoLLMS Web UI：多くの興味深い独自の機能を備えた素晴らしいWeb UIで、モデル選択が容易な完全なモデルライブラリを含んでいます。
Faraday.dev：WindowsとmacOS（SiliconとIntelの両方）用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションを備えています。
llama-cpp-python：GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle：パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。
ctransformers：GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。ただし、執筆時点（2023年11月27日）では、ctransformersは長い間更新されておらず、多くの最近のモデルをサポートしていません。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は次のとおりです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みごとに実質的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロックで、各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

`text-generation-webui`での実行方法

詳細な手順は、text-generation-webuiのドキュメント text-generation-webui/docs/04 ‐ Model Tab.md を参照してください。

Pythonコードからの実行方法

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。ただし、執筆時点（2023年11月27日）では、ctransformersは長い間更新されておらず、最近の一部のモデルと互換性がありません。したがって、llama-cpp-pythonの使用をおすすめします。