MoE架構

# MoE架構

Qwen3 30B A3B Llamafile

Qwen3是Qwen系列最新一代的大語言模型，提供了一系列密集和混合專家（MoE）模型。基於廣泛的訓練，Qwen3在推理、指令遵循、代理能力和多語言支持方面取得了突破性進展。

大型語言模型

Qwen3 235B A22B INT4MIX

Qwen3-235B-A22B是通義大模型系列的最新一代產品，提供了一系列密集和混合專家（MoE）模型，在推理、指令遵循、智能體能力和多語言支持方面取得了突破性進展。

大型語言模型

Qwen3 14B Base Unsloth Bnb 4bit

Qwen3-14B-Base是通義千問系列最新一代大語言模型，提供148億參數的稠密模型，支持32k上下文長度，覆蓋119種語言。

大型語言模型

Qwen3-4B-Base是通義千問系列最新一代40億參數量的預訓練語言模型，支持32k上下文長度和多語言處理。

大型語言模型

通義千問系列最新一代大語言模型，提供148億參數的預訓練基礎模型，支持32k超長上下文理解

大型語言模型

Qwen3 1.7B Base

Qwen3-1.7B是通義千問系列最新一代17億參數基礎語言模型，採用三階段預訓練體系，支持32k上下文長度。

大型語言模型

Qwen3-4B-Base是通義千問系列最新一代40億參數大語言模型，基於36萬億token的多語言數據預訓練，支持32k上下文長度。

大型語言模型

CNMBert是一個專門用於翻譯拼音縮寫的模型，基於Chinese-BERT-wwm訓練，通過修改預訓練任務適配拼音縮寫翻譯任務。

大型語言模型

Transformers 中文

Deepseek R1 Zero

DeepSeek-R1 是 DeepSeek 推出的第一代推理模型，通過強化學習訓練而成，在數學、代碼和推理任務上表現優異。

大型語言模型

一個用於翻譯拼音縮寫的模型，基於Chinese-BERT-wwm訓練，適配拼音縮寫翻譯任務。

大型語言模型

Transformers 中文

Granite 3.1 1b A400m Base

Granite-3.1-1B-A400M-Base 是 IBM 開發的一款語言模型，通過漸進式訓練策略將上下文長度從4K擴展到128K，支持多語言和多種文本處理任務。

大型語言模型

JetMoE-8B是一款高效開源大語言模型，以不足10萬美元的訓練成本達到LLaMA2-7B性能水平，專為低資源環境設計。

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase