Qwen3 8b 192k Context 6X Josiefied Uncensored MLX AWQ 4bit
Qwen3-8Bの4ビットAWQ量子化バージョン、MLXライブラリ向けに最適化され、19.2万トークンの長文コンテキスト処理をサポート、エッジデバイス向けのデプロイメントに適しています。
ダウンロード数 204
リリース時間 : 5/15/2025
モデル概要
Qwen3-8Bベースの4ビット量子化モデル、MLXライブラリによりAppleチップで効率的な推論を実現、元モデルのコア能力を保持しつつリソース消費を低減。
モデル特徴
効率的な推論
4ビット量子化によりFP16比でメモリ使用量を約75%削減
長文コンテキストサポート
19.2万トークン処理能力(標準版の6倍)
Appleチップ最適化
MLXライブラリによるM1/M3チップの高速化
エッジデバイスデプロイメント
低リソース消費でローカルデバイスでの実行に適している
モデル能力
長文テキスト生成
対話型インタラクション
ドキュメント分析
コード生成
使用事例
研究
長文コンテキストNLP実験
超長文テキストシーケンスの言語モデリング研究をサポート
モデル圧縮研究
4ビット量子化技術の効果検証
開発
エッジデバイスチャットボット
Appleデバイスにローカル対話システムをデプロイ
M3 Ultra実測112.8トークン/秒
長文ドキュメント処理
書籍/論文などの長文テキスト分析と要約生成
企業アプリケーション
コード生成
長文コンテキストに基づく完全なコードスニペット生成
🚀 Qwen3-8B 4-bit AWQ量子化バージョン
このモデルは、MLXライブラリを使用して効率的な推論を行うために最適化されたQwen3-8Bの4-bit AWQ量子化バージョンです。長文脈タスク(192kトークン)を低リソースで処理でき、Qwen3-8Bの核心機能を維持しつつ、エッジデバイスへのデプロイを可能にします。
🚀 クイックスタート
インストール
# MLXのインストール(Apple Siliconのみ)
pip install mlx
# Hugging Face Transformersを使用してモデルをロード
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit")
使用例
prompt = "Explain quantum computing in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to("mps")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主な機能
- 効率的な推論:4-bit量子化により、FP16と比較してメモリ使用量を約75%削減します。
- 長文脈対応:192kトークンをサポートし、文書分析やコード生成などの複雑なタスクに対応します。
- クロスプラットフォーム:MLXを使用してApple Siliconで加速されるmacOSで動作します。
- カスタマイズ可能なプロンプト:LM Studioなどのツールとの互換性のためにテンプレートを調整できます。
📦 インストール
# MLXのインストール(Apple Siliconのみ)
pip install mlx
# Hugging Face Transformersを使用してモデルをロード
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Goraint/Qwen3-8b-192k-Context-6X-Josiefied-Uncensored-MLX-AWQ-4bit")
💻 使用例
基本的な使用法
prompt = "Explain quantum computing in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to("mps")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 ドキュメント
性能指標
メトリック | 値 |
---|---|
モデルサイズ | ~4.38 GB (4-bit量子化) |
推論速度 | 30.58 tokens/sec (M1 MAX) 112.80 tokens/sec (M3 ULTRA) gguf Q4_K_S: 8.14 tokens/sec (M1 MAX) |
コンテキストサポート | 192,000 tokens |
LM Studioでの使用に必要なプロンプトテンプレート
LM Studioの推論パイプラインとの互換性を確保するために、プロンプトテンプレートを変更する必要があります。以下は必要なテンプレート構造です。
{%- if tools %}
{{- '\/system\n' }}
{%- if messages[0].role == 'system' %}
{{- messages[0].content + '\n\n' }}
{%- endif %}
{{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
{%- for tool in tools %}
{{- "\n" }}
{{- tool | tojson }}
{%- endfor %}
{{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call>...</tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call>\n" }}
{%- else %}
{%- if messages[0].role == 'system' %}
{{- '\/system\n' + messages[0].content + '\/\n' }}
{%- endif %}
{%- endif %}
{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
{%- for message in messages[::-1] %}
{%- set index = (messages|length - 1) - loop.index0 %}
{%- set tool_start = "ÔΩü" %}
{%- set tool_start_length = tool_start|length %}
{%- set start_of_message = message.content[:tool_start_length] %}
{%- set tool_end = "ÔΩ†" %}
{%- set tool_end_length = tool_end|length %}
{%- set start_pos = (message.content|length) - tool_end_length %}
{%- if start_pos < 0 %}
{%- set start_pos = 0 %}
{%- endif %}
{%- set end_of_message = message.content[start_pos:] %}
{%- if ns.multi_step_tool and message.role == "user" and not(start_of_message == tool_start and end_of_message == tool_end) %}
{%- set ns.multi_step_tool = false %}
{%- set ns.last_query_index = index %}
{%- endif %}
{%- endfor %}
{%- for message in messages %}
{%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
{{- '\/' + message.role + '\n' + message.content + '\/' + '\n' }}
{%- elif message.role == "assistant" %}
{%- set content = message.content %}
{%- set reasoning_content = '' %}
{%- if message.reasoning_content is defined and message.reasoning_content is not none %}
{%- set reasoning_content = message.reasoning_content %}
{%- else %}
{%- if '\/' in message.content %}
{%- set content = (message.content.split('\/')|last).lstrip('\n') %}
{%- set reasoning_content = (message.content.split('\/')|first).rstrip('\n') %}
{%- set reasoning_content = (reasoning_content.split('')|last).lstrip('\n') %}
{%- endif %}
{%- endif %}
{%- if loop.index0 > ns.last_query_index %}
{%- if loop.last or (not loop.last and reasoning_content) %}
{{- '\/' + message.role + '\n\n' + reasoning_content.strip('\n') + '\n\/\n' + content.lstrip('\n') }}
{%- else %}
{{- '\/' + message.role + '\n' + content }}
{%- endif %}
{%- else %}
{{- '\/' + message.role + '\n' + content }}
{%- endif %}
{%- if message.tool_calls %}
{%- for tool_call in message.tool_calls %}
{%- if (loop.first and content) or (not loop.first) %}
{{- '\n' }}
{%- endif %}
{%- if tool_call.function %}
{%- set tool_call = tool_call.function %}
{%- endif %}
{{- '<tool_call>\n{"name": "' }}
{{- tool_call.name }}
{{- '", "arguments": ' }}
{%- if tool_call.arguments is string %}
{{- tool_call.arguments }}
{%- else %}
{{- tool_call.arguments | tojson }}
{%- endif %}
{{- '}\n</tool_call>' }}
{%- endfor %}
{%- endif %}
{{- '\/\n' }}
{%- elif message.role == "tool" %}
{%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
{{- '\/user' }}
{%- endif %}
{{- '\nÔΩü\n' }}
{{- message.content }}
{{- '\nÔΩ†' }}
{%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
{{- '\/\n' }}
{%- endif %}
{%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
{{- '\/assistant\n' }}
{%- if enable_thinking is defined and enable_thinking is false %}
{{- '
モデル詳細
- ベースモデル:Qwen3-8B
- 量子化方式:MLXライブラリを使用したAWQ Q4 (4-bit)
- コンテキスト長:192,000 tokens (標準の6倍)
- 使用ライブラリ:MLX (Apple Silicon、macOS向けに最適化)
- ライセンス:Apache 2.0
- パイプライン:
text-generation
- タグ:
not-for-all-audiences
,conversational
,mlx
使用例
- 研究:長文脈NLP実験、モデル圧縮研究
- 開発:エッジデバイスへのデプロイ、拡張コンテキストを持つリアルタイムチャットボット
- 企業:文書処理やコード生成のためのコスト効率の高いAIソリューション
バイアス、リスク、制限事項
潜在的なバイアス
- 多様なデータで学習されていますが、社会的なバイアス(性別、文化的な仮定など)を引き継ぐ可能性があります。
- "Not-for-all-audiences"タグは、敏感な内容を生成する可能性を示しています。
技術的な制限
- 4-bit量子化により、複雑なタスクでの精度が若干低下する可能性があります。
- パフォーマンスはハードウェアに依存します(MLXはApple Silicon向けに最適化されています)。
緩和策
- 出力を敏感な内容についてレビューします。
- 監視付きの制御環境で使用します。
環境への影響
- 推定CO2排出量:ML Impact Calculatorを使用して計算
- ハードウェア:Apple M1 Pro (16GB RAM)
- 学習時間:N/A (事前学習済みモデルから量子化)
コミュニティとリソース
- ドキュメント:Hugging Face Docs
- GitHubの問題追跡:バグ報告や機能要求
- フォーラム:Hugging Face Discuss
🔧 技術詳細
このモデルは、MLXライブラリを使用してQwen3-8Bを4-bit AWQ量子化したものです。量子化によりメモリ使用量を大幅に削減し、エッジデバイスでの推論を可能にします。長文脈(192kトークン)をサポートすることで、複雑なタスクを処理できます。
📄 ライセンス
Apache 2.0
⚠️ 重要な注意事項 このモデルはコミュニティによる貢献であり、Alibaba Cloudによる公式サポートは提供されない場合があります。本番環境では、出力の精度と安全性を常に検証してください。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98