TURNA
其他
TURNA是一个基于UL2框架的土耳其语言模型,适用于理解和生成任务,在多项土耳其语任务中表现优异。
大型语言模型
Transformers 其他

T
boun-tabi-LMG
187
75
Erya
Apache-2.0
Erya是一个专门为将古代汉语翻译成现代汉语而设计的预训练模型。
机器翻译
Transformers 中文

E
RUCAIBox
17
8
Codet5 Large
Bsd-3-clause
CodeT5是基于标识符感知的统一预训练编码器-解码器模型,专注于代码理解与生成任务。
大型语言模型
Transformers

C
Salesforce
3,796
70
Tapex Large
MIT
TAPEX是一种通过神经SQL执行器学习实现表格预训练的模型,基于BART架构,专为表格推理任务设计。
大型语言模型
Transformers 英语

T
microsoft
252
9
T5 Efficient Large Dm2000
Apache-2.0
T5高效大型-DM2000是谷歌T5模型的一个变体,采用深度窄型架构,优先增加模型深度以提高下游任务性能。
大型语言模型 英语
T
google
16
0
T5 Efficient Base Ff6000
Apache-2.0
T5-Efficient-BASE-FF6000是谷歌原版T5的一个变体,采用深度窄型架构,在参数数量相近的模型架构中,下游任务性能更具优势。
大型语言模型 英语
T
google
16
0
T5 Efficient Base
Apache-2.0
T5-Efficient-BASE是基于谷歌T5架构的变体,采用深度窄型设计优化下游任务表现,参数量2.229亿
大型语言模型 英语
T
google
735
10
T5 Efficient Tiny Ff12000
Apache-2.0
T5-Efficient-TINY-FF12000是Google原始T5的一个变体,采用深度窄型架构,在参数数量相近的模型中表现出更优的下游任务性能。
大型语言模型 英语
T
google
16
0
T5 Efficient Xl
Apache-2.0
T5高效XL是谷歌T5模型的深度窄型变体,专注于通过增加模型深度而非宽度来提升下游任务性能。
大型语言模型 英语
T
google
63
1
T5 Efficient Small Dm768
Apache-2.0
T5-Efficient-SMALL-DM768 是 Google 原始 T5 的一个变体,采用深度窄型架构,优先增加模型深度以提高下游性能。
大型语言模型 英语
T
google
49
1
T5 Efficient Small Nl22
Apache-2.0
T5高效小型-NL22是谷歌T5模型的深度窄型变体,专注于通过增加模型深度提升下游任务性能。
大型语言模型 英语
T
google
17
0
T5 Efficient Large
Apache-2.0
T5-Efficient-LARGE是基于谷歌T5的变体,采用深度窄型架构优化下游任务性能,拥有7.377亿参数。
大型语言模型 英语
T
google
183
4
T5 Efficient Large Nh32
Apache-2.0
T5高效大型-NH32是谷歌T5模型的深度窄型变体,专注于通过增加模型深度提升下游任务性能。
大型语言模型 英语
T
google
16
0
T5 Efficient Small Kv256
Apache-2.0
T5-Efficient-SMALL-KV256是谷歌T5的变体,采用深度窄型架构优化下游任务性能,参数量1.17亿,需微调使用。
大型语言模型 英语
T
google
16
0
T5 Efficient Small
Apache-2.0
T5-Efficient-SMALL是Google原版T5的一个变体,采用深度窄型架构,在参数数量相近的情况下,下游任务性能优于其他架构。
大型语言模型 英语
T
google
1,032
4
Bert2gpt Indonesian Summarization
Apache-2.0
基于BERT-base和GPT2-small微调的印尼语文本摘要编码器-解码器模型,适用于生成印尼语文本的摘要。
文本生成
Transformers 其他

B
cahya
197
7
T5 Efficient Small El2
Apache-2.0
T5-Efficient-SMALL-EL2是Google原版T5的一个变体,采用深度窄型架构,优先增加模型深度以提高下游性能。
大型语言模型 英语
T
google
20
0
T5 Efficient Mini
Apache-2.0
T5-Efficient-MINI是谷歌原版T5的一个变体,采用深度窄型架构,在参数数量相似的模型架构中表现出更优的下游任务性能。
大型语言模型 英语
T
google
946
6
Bert2bert L 24 Wmt En De
Apache-2.0
基于BERT架构的编码器-解码器模型,专门用于英语到德语的机器翻译任务。
机器翻译
Transformers 支持多种语言

B
google
129
5
Roberta2roberta L 24 Bbc
Apache-2.0
基于RoBERTa架构的编码器-解码器模型,专为极端摘要生成任务设计,在BBC XSum数据集上微调。
文本生成
Transformers 英语

R
google
959
3
T5 Efficient Small Kv32
Apache-2.0
T5-Efficient-SMALL-KV32是Google原版T5的一个变体,采用深度窄型架构,专注于提高下游任务性能。
大型语言模型 英语
T
google
16
0
Bert2bert L 24 Wmt De En
Apache-2.0
基于BERT架构的编码器-解码器模型,专门用于德语到英语的机器翻译任务。
机器翻译
Transformers 支持多种语言

B
google
1,120
8
T5 Efficient Base Nl48
Apache-2.0
T5-Efficient-BASE-NL48 是 Google T5 的变体,采用深度窄型架构,优先增加模型深度以提高下游任务性能。
大型语言模型 英语
T
google
14
1
T5 Efficient Tiny Nl32
Apache-2.0
T5-Efficient-TINY-NL32是Google原版T5的一个变体,采用深度窄型架构,优先增加模型深度以优化下游任务性能。
大型语言模型 英语
T
google
209
4
Dialogled Large 5120
DialogLM是基于长文本编码器-解码器(LED)架构的预训练模型,专为长对话理解与摘要任务设计。
大型语言模型
Transformers 其他

D
MingZhong
441
7
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98