分組查詢注意力

# 分組查詢注意力

Qwen2.5 7B Embed Base

Qwen2.5-7B-embed-base是基於Transformer架構的預訓練語言模型，專為生成高質量文本嵌入向量而設計。

文本嵌入英語

Mistral Nemo Base 2407 Chatml

Mistral-Nemo-Base-2407是由Mistral AI與NVIDIA聯合訓練的120億參數生成式文本預訓練模型，性能超越同規模或更小規模的模型。

大型語言模型

Transformers 支持多種語言

Meta羊駝3.1是支持8種語言的大語言模型系列，包含8B/70B/405B三種規模，在行業基準測試中超越多數開源和閉源聊天模型

大型語言模型

Transformers 支持多種語言

Fox-1-1.6B是由TensorOpera AI開發的16億參數小型語言模型，採用分組查詢注意力機制，訓練數據達3萬億文本和代碼。

大型語言模型

Transformers 英語

Llama 3 8B Instruct GGUF Q4 K M

Meta Llama3 Instruct 8B是Meta發佈的8B參數指令調優大語言模型，針對對話場景優化，在安全性和幫助性方面表現優異。

大型語言模型英語

Mistral 7B Instruct V0.1 Sharded

Mistral-7B-Instruct-v0.1是基於Mistral-7B-v0.1的指令微調版本，適用於對話生成任務。

大型語言模型

Mistral 7B V0.1

Mistral-7B-v0.1是一個擁有70億參數的預訓練生成文本模型，性能優於Llama 2 13B版本

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase