# 高效注意力機制

Seerattention Decode Qwen3 4B AttnGates
MIT
提供 SeerAttention-R 論文中解碼階段的 AttnGate 權重,支持 Qwen3-4B 模型的推理任務
大型語言模型 Transformers
S
SeerAttention
4,295
1
Modernbert Base Squad2 V0.2
Apache-2.0
基於ModernBERT-base-nli微調的問答模型,支持長上下文處理
問答系統 Transformers
M
Praise2112
42
2
Tweety 7b Dutch V24a
Apache-2.0
Tweety-7b-dutch是一個專注於荷蘭語的基礎大語言模型,基於mistral架構,使用荷蘭語分詞器優化荷蘭語文本處理能力。
大型語言模型 Transformers 其他
T
Tweeties
1,568
13
Mistral 7B Instruct V0.2 Sparsity 20 V0.1
Apache-2.0
Mistral-7B-Instruct-v0.2是基於Mistral-7B-Instruct-v0.1改進的指令微調大語言模型,採用Wanda剪枝方法壓縮至2%稀疏度,無需重新訓練即可保持競爭力性能。
大型語言模型 Transformers
M
wang7776
80
1
Mistral 7B Instruct V0.2 Sparsity 30 V0.1
Apache-2.0
Mistral-7B-Instruct-v0.2是基於Mistral-7B-Instruct-v0.1增強的指令微調大語言模型,採用Wanda剪枝方法實現30%稀疏化,無需重新訓練即可保持競爭力性能。
大型語言模型 Transformers
M
wang7776
75
1
Nystromformer 4096
基於WikiText-103 v1數據集訓練的長序列Nyströmformer模型,支持4096長度的序列處理
大型語言模型 Transformers
N
uw-madison
74
3
Nystromformer 2048
基於WikiText-103數據集訓練的Nystromformer模型,支持長序列處理(2048 tokens)
大型語言模型 Transformers
N
uw-madison
38
1
Long T5 Tglobal Base
Apache-2.0
LongT5是基於T5架構的文本到文本轉換模型,採用瞬態全局注意力機制高效處理長序列輸入
大型語言模型 英語
L
google
71.38k
42
Bart Base Cnn R2 18.7 D23 Hybrid
Apache-2.0
這是一個經過剪枝優化的BART-base模型,專門針對CNN/DailyMail數據集進行微調,用於摘要生成任務。
文本生成 Transformers 英語
B
echarlaix
18
0
Deit Tiny Distilled Patch16 224
Apache-2.0
該模型為蒸餾版數據高效圖像Transformer(DeiT),在ImageNet-1k上以224x224分辨率進行預訓練和微調,通過蒸餾從教師模型高效學習。
圖像分類 Transformers
D
facebook
6,016
6
Chinese Bigbird Base 4096
Apache-2.0
基於BigBird架構的中文預訓練模型,支持4096長度的上下文處理
大型語言模型 Transformers 中文
C
Lowin
48
3
Chinese Bigbird Mini 1024
Apache-2.0
這是一個基於BigBird架構的中文預訓練模型,針對中文文本處理進行了優化,支持長文本序列處理。
大型語言模型 Transformers 中文
C
Lowin
14
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase