混合專家架構

# 混合專家架構

Apollo2 7B GGUF

Apollo2-7B-GGUF 是 FreedomIntelligence/Apollo2-7B 的量化版本，支持多種語言的醫學大語言模型應用。

大型語言模型支持多種語言

Bytedance BAGEL 7B MoT INT8

BAGEL是一個開源的7B活躍參數多模態基礎模型，支持多模態理解與生成任務

文本生成圖像

BAGEL是一個開源的、擁有70億活躍參數的多模態基礎模型，訓練於大規模交錯多模態數據，在理解和生成任務上表現優異。

文本生成圖像

Qwen3 1.7B GGUF

Qwen3是通義千問系列大語言模型的最新版本，提供了一系列密集型和混合專家（MoE）模型。基於大規模訓練，Qwen3在推理、指令遵循、智能體能力和多語言支持方面實現了突破性進展。

大型語言模型英語

Qwen3 0.6B GGUF

Qwen3是通義千問系列大語言模型的最新版本，提供了一系列密集型和混合專家（MoE）模型。基於大規模訓練，Qwen3在推理能力、指令遵循、智能體功能和多語言支持方面實現了突破性進展。

大型語言模型英語

靈曦是由InclusionAI開源的大規模混合專家語言模型，精簡版擁有168億總參數與27.5億激活參數，展現出卓越性能表現。

大型語言模型

Qwen3 128k 30B A3B NEO MAX Imatrix Gguf

基於Qwen3-30B-A3B混合專家模型的GGUF量化版本，上下文擴展至128k，採用NEO Imatrix量化技術優化，支持多語言和多任務處理。

大型語言模型支持多種語言

Qwen3 30B A7.5B 24 Grand Brainstorm

基於Qwen3-30B-A3B混合專家模型的微調版本，激活專家數量從8個增加到24個，適用於需要深度推理的複雜任務

大型語言模型

Qwen3 30B A6B 16 Extreme 128k Context

基於千問3-30B-A3B的混合專家模型微調版本，激活專家數提升至16，上下文窗口擴展至128k，適合複雜推理場景

大型語言模型

Qwen3 30B A1.5B High Speed

Qwen3-30B的高速優化版本，通過減少激活專家數量實現推理速度翻倍，適用於需要快速響應的文本生成場景

大型語言模型

Qwen3 235B A22B AWQ

Qwen3-235B-A22B是Qwen系列最新一代的大語言模型，採用混合專家(MoE)架構，具有2350億參數和220億激活參數，在推理、指令遵循、代理能力和多語言支持方面表現卓越。

大型語言模型

cognitivecomputations

Nomic Embed Text V2 GGUF

Nomic Embed Text V2 GGUF 是一個多語言文本嵌入模型，支持超過70種語言，適用於句子相似度計算和特徵提取任務。

文本嵌入支持多種語言

Granite 4.0 Tiny Base Preview

Granite-4.0-Tiny-Base-Preview 是IBM開發的70億參數混合專家(MoE)語言模型，具有128k token上下文窗口，採用Mamba-2技術增強表達能力。

大型語言模型

Qwen3 30B A3B GGUF

Qwen3是阿里雲開發的最新大語言模型系列，支持思維模式與非思維模式動態切換，在推理、多語言支持和智能體能力方面表現突出。

大型語言模型英語

Qwen3 0.6B Base

Qwen3-0.6B-Base是通義千問系列的最新一代大語言模型，提供了一系列密集模型和混合專家（MoE）模型。

大型語言模型

Qwen3 30B A3B GGUF

由Qwen開發的大語言模型，支持131,072 tokens上下文長度，擅長創意寫作、角色扮演和多輪對話。

大型語言模型

lmstudio-community

Qwen3 235B A22B GGUF

Qwen團隊推出的2350億參數大語言模型量化版本，支持131k上下文長度和混合專家架構

大型語言模型

lmstudio-community

Qwen3 235B A22B

Qwen3是通義千問系列大語言模型的最新版本，提供稠密模型與混合專家（MoE）模型的完整套件，在推理、指令遵循、智能體能力和多語言支持方面實現突破性進展。

大型語言模型

Qwen3是通義千問系列大語言模型的最新版本，提供完整的稠密模型與混合專家(MoE)模型組合。基於大規模訓練，Qwen3在推理能力、指令遵循、智能體功能和多語言支持方面實現突破性進展。

大型語言模型

MAI-DS-R1 是 DeepSeek-R1 推理模型，經過微軟 AI 團隊的後續訓練，以提升其在受限話題上的響應能力並優化其風險表現，同時保持其推理能力和競爭性能。

大型語言模型

Llama3.1 MOE 4X8B Gated IQ Multi Tier COGITO Deep Reasoning 32B GGUF

一個具備可調節推理能力的混合專家(MoE)模型，通過4個8B模型的協作實現增強推理和文本生成能力

大型語言模型支持多種語言

MAI-DS-R1是微軟AI團隊對DeepSeek-R1推理模型進行後訓練的成果，旨在提升其對敏感話題的響應能力並優化風險表現，同時保持原有推理能力和競爭優勢。

大型語言模型

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16

羊駝4 Scout是Meta發佈的170億參數混合專家模型(MoE)，支持多語言文本和圖像理解，採用線性化專家模塊設計便於PEFT/LoRA兼容。

多模態融合

Transformers 支持多種語言

Llama 4 Scout 17B 16E Unsloth

Llama 4 Scout是Meta推出的170億參數多模態AI模型，採用混合專家架構，支持12種語言和圖像理解。

文本生成圖像

Transformers 支持多種語言

Llama 4 Maverick 17B 128E

Llama 4 Maverick是Meta開發的多模態AI模型，採用混合專家架構，支持文本和圖像理解，具有170億激活參數和4000億總參數。

文本生成圖像

Transformers 支持多種語言

Llama 4 Maverick 17B 128E Instruct

Llama 4 Maverick是Meta推出的170億參數多模態AI模型，採用混合專家架構(MoE)，支持多語言文本和圖像理解，具備128個專家模塊。

大型語言模型

Transformers 支持多種語言

Deepseek V3 0324 GGUF

DeepSeek-V3-0324 是 DeepSeek 團隊發佈的 3 月更新版本，相比前代在多個基準測試上有顯著提升，支持動態量化版本，適用於本地推理。

大型語言模型英語

Llm Jp 3 8x13b Instruct3

由日本國立信息學研究所開發的大規模日語-英語混合MoE語言模型，支持8x13B參數規模，經過指令微調優化

大型語言模型

Transformers 支持多種語言

Nomic Embed Text V2 Moe Unsupervised

這是一個多語言混合專家(MoE)文本嵌入模型的中間版本，經過多階段對比訓練得到

DeepSeek-R1是深度求索推出的第一代推理模型，通過大規模強化學習訓練，在數學、代碼和推理任務上表現優異。

大型語言模型

Falcon3 MoE 2x7B Insruct

Falcon3 7B-IT 與 7B-IT 的混合專家模型，具有134億參數，支持英語、法語、西班牙語、葡萄牙語四種語言，上下文長度最高可達32K。

大型語言模型

Safetensors 英語

Tanuki 8x8B Dpo V1.0

Tanuki-8x8B是從零開始預訓練的大規模語言模型，通過SFT和DPO針對對話任務進行了優化

大型語言模型

Transformers 支持多種語言

Norwai Mixtral 8x7B Instruct

基於NorwAI-Mixtral-8x7B進行指令調優的挪威語大語言模型，使用約9000條高質量挪威語指令優化

大型語言模型

通義千問Qwen2系列的大語言模型，包含多個參數規模的模型，從5億到720億參數，支持指令調優。

大型語言模型

Karakuri Lm 8x7b Chat V0.1

由KARAKURI公司開發的專家混合模型(MoE)，支持英語和日語對話，基於Swallow-MX-8x7b-NVE-v0.1微調

大型語言模型

Transformers 支持多種語言

Mixtral 8x22B V0.1 GGUF

Mixtral 8x22B是由MistralAI發佈的1760億參數混合專家模型，支持多語言文本生成任務。

大型語言模型支持多種語言

LOLA是基於稀疏混合專家(Mixture-of-Experts)Transformer架構、支持160多種語言的超大規模多語言大模型，在自然語言生成與理解任務中具有競爭優勢。

大型語言模型

Transformers 其他

Jambatypus V0.1

基於Jamba-v0.1在Open-Platypus-Chat數據集上通過QLoRA微調的大語言模型，支持對話任務

大型語言模型

Transformers 英語

Databricks開發的混合專家(MoE)大語言模型，1320億參數總量，360億激活參數，支持32K上下文窗口

大型語言模型

MGM-7B是基於Vicuna-7B-v1.5訓練的開源多模態聊天機器人，支持高清圖像理解、推理與生成。

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase