專家混合架構

# 專家混合架構

Nomic Embed Text V2 Moe GGUF

多語言專家混合文本嵌入模型，支持約100種語言，在多語言檢索方面表現卓越。

文本嵌入支持多種語言

Qwen3 235B A22B GGUF

Qwen3-235B-A22B 是一個2350億參數的大型語言模型，經過ik_llama.cpp分支的先進非線性量化處理，適用於高性能計算環境。

大型語言模型

Doge 120M MoE Instruct

Doge模型採用動態掩碼注意力機制進行序列轉換，並可使用多層感知機或跨域專家混合進行狀態轉換。

大型語言模型

Transformers 英語

Qwen2.5 MOE 2X1.5B DeepSeek Uncensored Censored 4B Gguf

這是一個Qwen2.5 MOE（專家混合）模型，由兩個Qwen 2.5 DeepSeek（審查版/普通版和無審查版）1.5B模型組成，形成一個4B模型，其中無審查版本的DeepSeek Qwen 2.5 1.5B主導模型行為。

大型語言模型支持多種語言

Hiber Multi 10B Instruct

Hiber-Multi-10B-Instruct 是一個基於 Transformer 架構的先進多語言大模型，支持多種語言，具有100億參數，適用於文本生成任務。

大型語言模型

Transformers 支持多種語言

Nomic Embed Text V2 Moe

Nomic Embed v2 是一款高性能多語言專家混合(MoE)文本嵌入模型，支持約100種語言，在多語言檢索任務中表現卓越。

文本嵌入支持多種語言

Llama 3.2 4X3B MOE Ultra Instruct 10B GGUF

基於Llama 3.2的專家混合模型，整合四個3B模型形成10B參數模型，支持128k上下文長度，擅長指令遵循和全場景生成。

大型語言模型英語

TimeMoE-200M 是一個基於專家混合（Mixture of Experts, MoE）架構的十億級時間序列基礎模型，專注於時間序列預測任務。

TimeMoE是一個基於專家混合(MoE)架構的十億級時間序列基礎模型，專注於時間序列預測任務。

ChartMoE是基於InternLM-XComposer2的多模態大語言模型，採用專家混合連接器，具備高級圖表功能。

圖像生成文本

Deepseek V2 Lite

DeepSeek-V2-Lite 是一款經濟高效的專家混合（MoE）語言模型，總參數量16B，激活參數量2.4B，支持32k上下文長度。

大型語言模型

Databricks開發的專家混合(MoE)大語言模型，專精於少量輪次交互場景

大型語言模型

Tinymistral 6x248M Instruct

基於專家混合（MoE）架構微調的語言模型，通過LazyMergekit框架融合多個模型，在指令任務中表現出色。

大型語言模型

Transformers 英語

Moe LLaVA Qwen 1.8B 4e

MoE-LLaVA是一種基於專家混合架構的大型視覺語言模型，通過稀疏激活參數實現高效的多模態學習

文本生成圖像

Bart Mofe Rl Xsum

MoFE是一種用於控制抽象摘要中幻覺生成的模型，通過混合事實專家來減少摘要中的不準確信息。

Transformers 英語

Fairseq Dense 2.7B

基於Artetxe等人論文《高效大規模語言建模與專家混合方法》的27億參數稠密模型轉換版本

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase