Qwen3 Reranker 4B W4A16 G128
これはQwen/Qwen3-Reranker-4BをGPTQ量子化した成果で、VRAM使用量を大幅に削減しました。
Downloads 157
Release Time : 6/7/2025
Model Overview
Qwen3-Reranker-4Bに基づく量子化バージョンで、主にテキスト分類タスクに使用され、GPTQ量子化技術によりVRAM使用効率が最適化されています。
Model Features
VRAM最適化
VRAM使用量が17430Mから11000M(FA2を使用しない場合)に削減され、リソース効率が大幅に向上しました。
精度維持
VRAM使用量を大幅に削減しながら、予想される正解率の損失は<5%で、Embeddingバージョンでは約0.7%の損失のみが見られます。
量子化技術
GPTQ量子化技術(W4A16 - G128構成)を採用し、モデルの圧縮と高速化を実現しました。
Model Capabilities
テキスト再ランキング
テキスト関連性スコアリング
情報検索最適化
Use Cases
情報検索
検索エンジン結果の最適化
検索エンジンが返す結果を再ランキングし、関連性を向上させます。
検索結果の関連性ランキングを向上させます。
レコメンドシステム
レコメンドコンテンツのランキング
レコメンドシステムが生成したコンテンツリストを最適化してランキングします。
レコメンドコンテンツの関連性とユーザー満足度を向上させます。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98