Seerattention Decode Qwen3 4B AttnGates
MIT
提供 SeerAttention-R 論文中解碼階段的 AttnGate 權重,支持 Qwen3-4B 模型的推理任務
大型語言模型
Transformers

S
SeerAttention
4,295
1
Modernbert Base Squad2 V0.2
Apache-2.0
基於ModernBERT-base-nli微調的問答模型,支持長上下文處理
問答系統
Transformers

M
Praise2112
42
2
Tweety 7b Dutch V24a
Apache-2.0
Tweety-7b-dutch是一個專注於荷蘭語的基礎大語言模型,基於mistral架構,使用荷蘭語分詞器優化荷蘭語文本處理能力。
大型語言模型
Transformers 其他

T
Tweeties
1,568
13
Mistral 7B Instruct V0.2 Sparsity 20 V0.1
Apache-2.0
Mistral-7B-Instruct-v0.2是基於Mistral-7B-Instruct-v0.1改進的指令微調大語言模型,採用Wanda剪枝方法壓縮至2%稀疏度,無需重新訓練即可保持競爭力性能。
大型語言模型
Transformers

M
wang7776
80
1
Mistral 7B Instruct V0.2 Sparsity 30 V0.1
Apache-2.0
Mistral-7B-Instruct-v0.2是基於Mistral-7B-Instruct-v0.1增強的指令微調大語言模型,採用Wanda剪枝方法實現30%稀疏化,無需重新訓練即可保持競爭力性能。
大型語言模型
Transformers

M
wang7776
75
1
Nystromformer 4096
基於WikiText-103 v1數據集訓練的長序列Nyströmformer模型,支持4096長度的序列處理
大型語言模型
Transformers

N
uw-madison
74
3
Nystromformer 2048
基於WikiText-103數據集訓練的Nystromformer模型,支持長序列處理(2048 tokens)
大型語言模型
Transformers

N
uw-madison
38
1
Long T5 Tglobal Base
Apache-2.0
LongT5是基於T5架構的文本到文本轉換模型,採用瞬態全局注意力機制高效處理長序列輸入
大型語言模型 英語
L
google
71.38k
42
Bart Base Cnn R2 18.7 D23 Hybrid
Apache-2.0
這是一個經過剪枝優化的BART-base模型,專門針對CNN/DailyMail數據集進行微調,用於摘要生成任務。
文本生成
Transformers 英語

B
echarlaix
18
0
Deit Tiny Distilled Patch16 224
Apache-2.0
該模型為蒸餾版數據高效圖像Transformer(DeiT),在ImageNet-1k上以224x224分辨率進行預訓練和微調,通過蒸餾從教師模型高效學習。
圖像分類
Transformers

D
facebook
6,016
6
Chinese Bigbird Base 4096
Apache-2.0
基於BigBird架構的中文預訓練模型,支持4096長度的上下文處理
大型語言模型
Transformers 中文

C
Lowin
48
3
Chinese Bigbird Mini 1024
Apache-2.0
這是一個基於BigBird架構的中文預訓練模型,針對中文文本處理進行了優化,支持長文本序列處理。
大型語言模型
Transformers 中文

C
Lowin
14
1
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98