# 混合專家架構

Apollo2 7B GGUF
Apache-2.0
Apollo2-7B-GGUF 是 FreedomIntelligence/Apollo2-7B 的量化版本,支持多種語言的醫學大語言模型應用。
大型語言模型 支持多種語言
A
QuantFactory
111
3
Bytedance BAGEL 7B MoT INT8
Apache-2.0
BAGEL是一個開源的7B活躍參數多模態基礎模型,支持多模態理解與生成任務
文本生成圖像
B
Gapeleon
190
20
BAGEL 7B MoT
Apache-2.0
BAGEL是一個開源的、擁有70億活躍參數的多模態基礎模型,訓練於大規模交錯多模態數據,在理解和生成任務上表現優異。
文本生成圖像
B
ByteDance-Seed
4,736
769
Qwen3 1.7B GGUF
Apache-2.0
Qwen3是通義千問系列大語言模型的最新版本,提供了一系列密集型和混合專家(MoE)模型。基於大規模訓練,Qwen3在推理、指令遵循、智能體能力和多語言支持方面實現了突破性進展。
大型語言模型 英語
Q
prithivMLmods
357
1
Qwen3 0.6B GGUF
Apache-2.0
Qwen3是通義千問系列大語言模型的最新版本,提供了一系列密集型和混合專家(MoE)模型。基於大規模訓練,Qwen3在推理能力、指令遵循、智能體功能和多語言支持方面實現了突破性進展。
大型語言模型 英語
Q
prithivMLmods
290
1
Ling Lite 1.5
MIT
靈曦是由InclusionAI開源的大規模混合專家語言模型,精簡版擁有168億總參數與27.5億激活參數,展現出卓越性能表現。
大型語言模型 Transformers
L
inclusionAI
46
3
Qwen3 128k 30B A3B NEO MAX Imatrix Gguf
Apache-2.0
基於Qwen3-30B-A3B混合專家模型的GGUF量化版本,上下文擴展至128k,採用NEO Imatrix量化技術優化,支持多語言和多任務處理。
大型語言模型 支持多種語言
Q
DavidAU
17.20k
10
Qwen3 30B A7.5B 24 Grand Brainstorm
基於Qwen3-30B-A3B混合專家模型的微調版本,激活專家數量從8個增加到24個,適用於需要深度推理的複雜任務
大型語言模型 Transformers
Q
DavidAU
55
7
Qwen3 30B A6B 16 Extreme 128k Context
基於千問3-30B-A3B的混合專家模型微調版本,激活專家數提升至16,上下文窗口擴展至128k,適合複雜推理場景
大型語言模型 Transformers
Q
DavidAU
72
7
Qwen3 30B A1.5B High Speed
Qwen3-30B的高速優化版本,通過減少激活專家數量實現推理速度翻倍,適用於需要快速響應的文本生成場景
大型語言模型 Transformers
Q
DavidAU
179
7
Qwen3 235B A22B AWQ
Apache-2.0
Qwen3-235B-A22B是Qwen系列最新一代的大語言模型,採用混合專家(MoE)架構,具有2350億參數和220億激活參數,在推理、指令遵循、代理能力和多語言支持方面表現卓越。
大型語言模型 Transformers
Q
cognitivecomputations
2,563
9
Nomic Embed Text V2 GGUF
Apache-2.0
Nomic Embed Text V2 GGUF 是一個多語言文本嵌入模型,支持超過70種語言,適用於句子相似度計算和特徵提取任務。
文本嵌入 支持多種語言
N
ggml-org
317
3
Granite 4.0 Tiny Base Preview
Apache-2.0
Granite-4.0-Tiny-Base-Preview 是IBM開發的70億參數混合專家(MoE)語言模型,具有128k token上下文窗口,採用Mamba-2技術增強表達能力。
大型語言模型 Transformers
G
ibm-granite
156
12
Qwen3 30B A3B GGUF
Apache-2.0
Qwen3是阿里雲開發的最新大語言模型系列,支持思維模式與非思維模式動態切換,在推理、多語言支持和智能體能力方面表現突出。
大型語言模型 英語
Q
unsloth
261.09k
169
Qwen3 0.6B Base
Apache-2.0
Qwen3-0.6B-Base是通義千問系列的最新一代大語言模型,提供了一系列密集模型和混合專家(MoE)模型。
大型語言模型 Transformers
Q
unsloth
10.84k
2
Qwen3 30B A3B GGUF
Apache-2.0
由Qwen開發的大語言模型,支持131,072 tokens上下文長度,擅長創意寫作、角色扮演和多輪對話。
大型語言模型
Q
lmstudio-community
77.06k
21
Qwen3 235B A22B GGUF
Apache-2.0
Qwen團隊推出的2350億參數大語言模型量化版本,支持131k上下文長度和混合專家架構
大型語言模型
Q
lmstudio-community
22.88k
10
Qwen3 235B A22B
Apache-2.0
Qwen3是通義千問系列大語言模型的最新版本,提供稠密模型與混合專家(MoE)模型的完整套件,在推理、指令遵循、智能體能力和多語言支持方面實現突破性進展。
大型語言模型 Transformers
Q
Qwen
159.10k
849
Qwen3 30B A3B
Apache-2.0
Qwen3是通義千問系列大語言模型的最新版本,提供完整的稠密模型與混合專家(MoE)模型組合。基於大規模訓練,Qwen3在推理能力、指令遵循、智能體功能和多語言支持方面實現突破性進展。
大型語言模型 Transformers
Q
Qwen
218.81k
571
MAI DS R1 GGUF
MIT
MAI-DS-R1 是 DeepSeek-R1 推理模型,經過微軟 AI 團隊的後續訓練,以提升其在受限話題上的響應能力並優化其風險表現,同時保持其推理能力和競爭性能。
大型語言模型
M
unsloth
916
4
Llama3.1 MOE 4X8B Gated IQ Multi Tier COGITO Deep Reasoning 32B GGUF
Apache-2.0
一個具備可調節推理能力的混合專家(MoE)模型,通過4個8B模型的協作實現增強推理和文本生成能力
大型語言模型 支持多種語言
L
DavidAU
829
2
MAI DS R1
MIT
MAI-DS-R1是微軟AI團隊對DeepSeek-R1推理模型進行後訓練的成果,旨在提升其對敏感話題的響應能力並優化風險表現,同時保持原有推理能力和競爭優勢。
大型語言模型 Transformers
M
microsoft
8,840
250
Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
其他
羊駝4 Scout是Meta發佈的170億參數混合專家模型(MoE),支持多語言文本和圖像理解,採用線性化專家模塊設計便於PEFT/LoRA兼容。
多模態融合 Transformers 支持多種語言
L
axolotl-quants
6,861
3
Llama 4 Scout 17B 16E Unsloth
其他
Llama 4 Scout是Meta推出的170億參數多模態AI模型,採用混合專家架構,支持12種語言和圖像理解。
文本生成圖像 Transformers 支持多種語言
L
unsloth
67
1
Llama 4 Maverick 17B 128E
其他
Llama 4 Maverick是Meta開發的多模態AI模型,採用混合專家架構,支持文本和圖像理解,具有170億激活參數和4000億總參數。
文本生成圖像 Transformers 支持多種語言
L
meta-llama
3,261
69
Llama 4 Maverick 17B 128E Instruct
其他
Llama 4 Maverick是Meta推出的170億參數多模態AI模型,採用混合專家架構(MoE),支持多語言文本和圖像理解,具備128個專家模塊。
大型語言模型 Transformers 支持多種語言
L
meta-llama
87.79k
309
Deepseek V3 0324 GGUF
MIT
DeepSeek-V3-0324 是 DeepSeek 團隊發佈的 3 月更新版本,相比前代在多個基準測試上有顯著提升,支持動態量化版本,適用於本地推理。
大型語言模型 英語
D
unsloth
108.44k
177
Llm Jp 3 8x13b Instruct3
Apache-2.0
由日本國立信息學研究所開發的大規模日語-英語混合MoE語言模型,支持8x13B參數規模,經過指令微調優化
大型語言模型 Transformers 支持多種語言
L
llm-jp
162
3
Nomic Embed Text V2 Moe Unsupervised
這是一個多語言混合專家(MoE)文本嵌入模型的中間版本,經過多階段對比訓練得到
文本嵌入
N
nomic-ai
161
5
Deepseek R1
MIT
DeepSeek-R1是深度求索推出的第一代推理模型,通過大規模強化學習訓練,在數學、代碼和推理任務上表現優異。
大型語言模型 Transformers
D
deepseek-ai
1.7M
12.03k
Falcon3 MoE 2x7B Insruct
其他
Falcon3 7B-IT 與 7B-IT 的混合專家模型,具有134億參數,支持英語、法語、西班牙語、葡萄牙語四種語言,上下文長度最高可達32K。
大型語言模型 Safetensors 英語
F
ehristoforu
273
10
Tanuki 8x8B Dpo V1.0
Apache-2.0
Tanuki-8x8B是從零開始預訓練的大規模語言模型,通過SFT和DPO針對對話任務進行了優化
大型語言模型 Transformers 支持多種語言
T
weblab-GENIAC
217
38
Norwai Mixtral 8x7B Instruct
基於NorwAI-Mixtral-8x7B進行指令調優的挪威語大語言模型,使用約9000條高質量挪威語指令優化
大型語言模型 Transformers
N
NorwAI
144
2
Qwen2
其他
通義千問Qwen2系列的大語言模型,包含多個參數規模的模型,從5億到720億參數,支持指令調優。
大型語言模型
Q
cortexso
132
1
Karakuri Lm 8x7b Chat V0.1
Apache-2.0
由KARAKURI公司開發的專家混合模型(MoE),支持英語和日語對話,基於Swallow-MX-8x7b-NVE-v0.1微調
大型語言模型 Transformers 支持多種語言
K
karakuri-ai
526
23
Mixtral 8x22B V0.1 GGUF
Apache-2.0
Mixtral 8x22B是由MistralAI發佈的1760億參數混合專家模型,支持多語言文本生成任務。
大型語言模型 支持多種語言
M
MaziyarPanahi
170.27k
74
Lola V1
LOLA是基於稀疏混合專家(Mixture-of-Experts)Transformer架構、支持160多種語言的超大規模多語言大模型,在自然語言生成與理解任務中具有競爭優勢。
大型語言模型 Transformers 其他
L
dice-research
867
10
Jambatypus V0.1
Apache-2.0
基於Jamba-v0.1在Open-Platypus-Chat數據集上通過QLoRA微調的大語言模型,支持對話任務
大型語言模型 Transformers 英語
J
mlabonne
21
39
Dbrx Base
其他
Databricks開發的混合專家(MoE)大語言模型,1320億參數總量,360億激活參數,支持32K上下文窗口
大型語言模型 Transformers
D
databricks
100
557
MGM 7B
MGM-7B是基於Vicuna-7B-v1.5訓練的開源多模態聊天機器人,支持高清圖像理解、推理與生成。
文本生成圖像 Transformers
M
YanweiLi
975
8
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase