Tesslate_Tessa-Rust-T1-7B-GGUFオープンソースモデル - さまざまなハードウェアでの効率的な実行をサポートする量子化バージョン

Home

Tesslate Tessa Rust T1 7B GGUF

Developed by bartowski

Tessa-Rust-T1-7Bの量子化バージョンで、llama.cppツールを使用して量子化処理を行い、さまざまなハードウェア条件で高効率に動作します。

大規模言語モデル

Transformers

EnglishOpen Source License:Apache-2.0 #多量化選択 #低メモリ最適化 #高効率なテキスト生成

Downloads 542

Release Time : 4/25/2025

Model Overview

これはTesslateのTessa-Rust-T1-7Bモデルに基づく量子化バージョンで、llama.cppツールを通じて量子化処理を行い、テキスト生成タスクにさまざまな量子化オプションを提供します。

Model Features

複数の量子化オプション

Q2_KからQ8_0までの複数の量子化バージョンを提供し、さまざまなハードウェア条件とパフォーマンス要件に対応します。

高効率な動作

llama.cppツールで量子化することで、さまざまなハードウェア条件で高効率に動作します。

ARM/AVX最適化のサポート

ARMとAVX CPU推論のオンライン再パッケージングをサポートし、パフォーマンスを向上させます。

Model Capabilities

テキスト生成

複数回の対話

システムプロンプトのサポート

Use Cases

テキスト生成

対話システム

複数回の対話システムの構築に使用し、システムプロンプトとユーザー入力をサポートします。

コンテンツ作成

記事、物語などのコンテンツを生成します。

🚀 TesslateのTessa-Rust-T1-7BのLlamacpp imatrix量子化バージョン

このプロジェクトは、TesslateのTessa-Rust-T1-7Bモデルの量子化バージョンです。llama.cppツールを使用して量子化処理を行い、さまざまなハードウェア条件で効率的に実行でき、テキスト生成タスクにより多くの選択肢を提供します。

🚀 クイックスタート

llama.cpp の b5173 バージョンを使用して量子化を行います。元のモデルのアドレス：https://huggingface.co/Tesslate/Tessa-Rust-T1-7B すべての量子化モデルは、imatrixオプションとここのデータセットを使用して生成されています。

これらの量子化モデルは、LM Studio で実行することも、llama.cpp や他のllama.cppベースのプロジェクトを直接使用して実行することもできます。

✨ 主な機能

プロンプト形式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

ダウンロードファイル

ファイル名	量子化タイプ	ファイルサイズ	分割状況	説明
Tessa-Rust-T1-7B-bf16.gguf	bf16	15.24GB	いいえ	完全なBF16重み。
Tessa-Rust-T1-7B-Q8_0.gguf	Q8_0	8.10GB	いいえ	非常に高い品質で、通常は必要ありませんが、最大限の量子化を提供します。
Tessa-Rust-T1-7B-Q6_K_L.gguf	Q6_K_L	6.52GB	いいえ	埋め込みと出力の重みにQ8_0を使用。非常に高い品質で、ほぼ完璧で、おすすめ。
Tessa-Rust-T1-7B-Q6_K.gguf	Q6_K	6.25GB	いいえ	非常に高い品質で、ほぼ完璧で、おすすめ。
Tessa-Rust-T1-7B-Q5_K_L.gguf	Q5_K_L	5.78GB	いいえ	埋め込みと出力の重みにQ8_0を使用。高品質で、おすすめ。
Tessa-Rust-T1-7B-Q5_K_M.gguf	Q5_K_M	5.44GB	いいえ	高品質で、おすすめ。
Tessa-Rust-T1-7B-Q5_K_S.gguf	Q5_K_S	5.32GB	いいえ	高品質で、おすすめ。
Tessa-Rust-T1-7B-Q4_K_L.gguf	Q4_K_L	5.09GB	いいえ	埋め込みと出力の重みにQ8_0を使用。品質が良好で、おすすめ。
Tessa-Rust-T1-7B-Q4_1.gguf	Q4_1	4.87GB	いいえ	旧形式で、Q4_K_Sと同様のパフォーマンスですが、Apple Siliconでの毎ワット当たりのトークン数が向上しています。
Tessa-Rust-T1-7B-Q4_K_M.gguf	Q4_K_M	4.68GB	いいえ	品質が良好で、ほとんどのユースケースのデフォルトサイズで、おすすめ。
Tessa-Rust-T1-7B-Q3_K_XL.gguf	Q3_K_XL	4.57GB	いいえ	埋め込みと出力の重みにQ8_0を使用。品質は低いですが使用可能で、低メモリの場合に適しています。
Tessa-Rust-T1-7B-Q4_K_S.gguf	Q4_K_S	4.46GB	いいえ	品質が少し低いですが、スペースを節約でき、おすすめ。
Tessa-Rust-T1-7B-Q4_0.gguf	Q4_0	4.44GB	いいえ	旧形式で、ARMとAVX CPU推論のオンライン再パッキングをサポートしています。
Tessa-Rust-T1-7B-IQ4_NL.gguf	IQ4_NL	4.44GB	いいえ	IQ4_XSと似ていますが、少し大きいです。ARM CPU推論のオンライン再パッキングをサポートしています。
Tessa-Rust-T1-7B-IQ4_XS.gguf	IQ4_XS	4.22GB	いいえ	品質が良好で、Q4_K_Sより小さく、パフォーマンスが似ています、おすすめ。
Tessa-Rust-T1-7B-Q3_K_L.gguf	Q3_K_L	4.09GB	いいえ	品質は低いですが使用可能で、低メモリの場合に適しています。
Tessa-Rust-T1-7B-Q3_K_M.gguf	Q3_K_M	3.81GB	いいえ	低品質。
Tessa-Rust-T1-7B-IQ3_M.gguf	IQ3_M	3.57GB	いいえ	中低品質で、新しい方法で、Q3_K_Mと同等のパフォーマンスです。
Tessa-Rust-T1-7B-Q2_K_L.gguf	Q2_K_L	3.55GB	いいえ	埋め込みと出力の重みにQ8_0を使用。品質は非常に低いですが、意外と使用可能です。
Tessa-Rust-T1-7B-Q3_K_S.gguf	Q3_K_S	3.49GB	いいえ	低品質で、おすすめしません。
Tessa-Rust-T1-7B-IQ3_XS.gguf	IQ3_XS	3.35GB	いいえ	品質が低いですが、新しい方法で、パフォーマンスが良好で、Q3_K_Sより少し良いです。
Tessa-Rust-T1-7B-IQ3_XXS.gguf	IQ3_XXS	3.11GB	いいえ	品質が低いですが、新しい方法で、パフォーマンスが良好で、Q3量子化と同等です。
Tessa-Rust-T1-7B-Q2_K.gguf	Q2_K	3.02GB	いいえ	品質は非常に低いですが、意外と使用可能です。
Tessa-Rust-T1-7B-IQ2_M.gguf	IQ2_M	2.78GB	いいえ	比較的低品質ですが、最先端の技術を使用しており、意外と使用可能です。

埋め込み/出力重み

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法を採用し、埋め込みと出力の重みをデフォルト値ではなくQ8_0に量子化しています。

📦 インストール

huggingface-cliを使用したダウンロード

ダウンロードの説明を表示するにはクリック

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードする特定のファイルを指定できます。

huggingface-cli download bartowski/Tesslate_Tessa-Rust-T1-7B-GGUF --include "Tesslate_Tessa-Rust-T1-7B-Q4_K_M.gguf" --local-dir ./

モデルのサイズが50GBを超える場合、複数のファイルに分割されます。すべてのファイルをローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/Tesslate_Tessa-Rust-T1-7B-GGUF --include "Tesslate_Tessa-Rust-T1-7B-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（Tesslate_Tessa-Rust-T1-7B-Q8_0など）を指定することも、すべてのファイルを現在のディレクトリ（./）にダウンロードすることもできます。

🔧 技術詳細

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8ファイルをダウンロードしていました。これらのファイルの重みは、ARMとAVXマシンのパフォーマンスを向上させるために、メモリ内で交差配置され、一度により多くのデータをロードします。

しかし、現在では「オンライン再パッキング」と呼ばれる重み処理方法があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングから恩恵を受ける場合、自動的にリアルタイムで処理されます。

llama.cppのビルドバージョン b4282 以降は、Q4_0_X_Xファイルを実行できなくなり、Q4_0を使用する必要があります。

また、少し良い品質を得たい場合は、IQ4_NLを使用できます。これはこのPR のおかげで、ARM用に重みを再パッキングしますが、現在は4_4のみをサポートしています。ロード時間は長くなる可能性がありますが、全体的な速度は向上します。

（非推奨の）Q4_0_X_X情報を表示するにはクリック

この部分を残しているのは、オンライン再パッキングをサポートするQ4_0を使用した場合の理論上のパフォーマンス向上を示すためです。

AVX2システム（EPYC7702）でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド数	テストタイプ	トークン/秒	Q4_0に対する割合
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%