# 长序列处理

Codesearch ModernBERT Owl 2.0 Plus
Apache-2.0
专为高质量代码理解和语义检索设计的最新预训练模型,支持8种编程语言的长序列处理。
文本嵌入
C
Shuu12121
602
1
Devstral Small 2505.w4a16 Gptq
Apache-2.0
这是一个基于mistralai/Devstral-Small-2505模型的4位GPTQ量化版本,专为消费级硬件优化。
大型语言模型 Safetensors
D
mratsim
557
1
Modernpubmedbert
Apache-2.0
基于PubMed数据集训练的句子转换器模型,支持多种嵌入维度,适用于生物医学文本处理。
文本嵌入
M
lokeshch19
380
2
Ruri V3 30m
Apache-2.0
Ruri v3是基于ModernBERT-Ja构建的日语通用文本嵌入模型,支持长达8192个标记的序列处理,具备日语文本嵌入任务的顶尖性能。
文本嵌入 日语
R
cl-nagoya
1,135
3
Codesearch ModernBERT Owl
Apache-2.0
专为代码搜索设计的句子转换器模型,基于ModernBERT架构,支持2048标记的序列长度
文本嵌入 英语
C
Shuu12121
75
1
Sapnous VR 6B
Apache-2.0
Sapnous-6B是一款先进的视觉语言模型,通过强大的多模态能力提升对世界的感知和理解。
图像生成文本 Transformers 英语
S
Sapnous-AI
261
5
Fanformer 1B
MIT
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。
大型语言模型 Transformers 英语
F
dongyh
114
2
Codemodernbert Owl
Apache-2.0
CodeModernBERT-Owl 是一个从头预训练的模型,专为代码检索与代码理解任务设计,支持多种编程语言并提升检索准确率。
文本嵌入 支持多种语言
C
Shuu12121
285
5
Isoformer
Isoformer 是一个多模态生物序列模型,能够处理DNA、RNA和蛋白质序列,并预测基因表达。
蛋白质模型 Transformers
I
isoformer-anonymous
21
2
Zamba 7B V1 Phase1
Apache-2.0
Zamba-7B-v1-phase1是状态空间模型Mamba与Transformer的混合架构,以Mamba为主干网络,每6个模块共享一个Transformer层,通过下一词预测进行训练。
大型语言模型 Transformers
Z
Zyphra
22
5
Bert Large Cantonese
基于粤语文本从头训练的大型BERT模型,适用于粤语文本的掩码语言建模任务
大型语言模型 Transformers 其他
B
hon9kon9ize
448
8
Mistral Supra
Apache-2.0
Mistral-SUPRA是基于Mistral-7B初始化的线性RNN模型,兼具Transformer和循环模型的功能。
大型语言模型 PyTorch 英语
M
TRI-ML
163
12
Saul Instruct V1 GGUF
MIT
Saul-Instruct-v1-GGUF 是 Equall/Saul-Instruct-v1 模型的 GGUF 格式版本,适用于文本生成任务,支持多种量化级别。
大型语言模型 英语
S
MaziyarPanahi
456
8
Phi 2 Super GGUF
MIT
phi-2-super-GGUF 是 abacaj/phi-2-super 模型的 GGUF 量化版本,适用于本地运行和文本生成任务。
大型语言模型 Transformers
P
MaziyarPanahi
158
5
Mamba 370m Hf
Mamba是一个基于状态空间模型(SSM)的高效语言模型,具有线性时间复杂度的序列建模能力。
大型语言模型 Transformers
M
state-spaces
6,895
14
Mamba 790m Hf
Mamba 是一个与 transformers 兼容的高效序列模型,具有 7.9 亿参数,适用于因果语言建模任务。
大型语言模型 Transformers
M
state-spaces
6,897
4
Mamba 130m Hf
Mamba是一个与transformers兼容的序列建模模型,具有高效的推理能力。
大型语言模型 Transformers
M
state-spaces
46.83k
56
Mamba 1.4b Hf
Mamba是基于状态空间模型(SSM)架构的高效语言模型,具有1.4B参数规模,支持文本生成任务
大型语言模型 Transformers
M
state-spaces
5,431
11
Rank Zephyr 7b V1 Full GGUF
MIT
基于 Mistral-7B 的文本排序模型,提供多种量化版本,适用于高效推理。
大型语言模型 英语
R
MaziyarPanahi
708
5
Mixtral 8x7B V0.1 GGUF
Apache-2.0
Mixtral-8x7B-v0.1的GGUF量化版本,支持多种比特量化,适用于文本生成任务。
大型语言模型 支持多种语言
M
MaziyarPanahi
128
1
Sauerkrautlm 7b HerO Mistral 7B Instruct V0.1 GGUF
Apache-2.0
这是一个基于Mistral-7B-Instruct-v0.1微调的德语/英语双语模型,采用GGUF格式量化,支持2-8比特多种量化级别。
大型语言模型 支持多种语言
S
MaziyarPanahi
90
2
Sauerkrautlm Mixtral 8x7B GGUF
Apache-2.0
SauerkrautLM Mixtral 8X7B 是一款基于 Mixtral 架构的多语言文本生成模型,经过 SFT 和 DPO 微调与对齐,支持英语、德语、法语、意大利语和西班牙语。
大型语言模型 Transformers 支持多种语言
S
TheBloke
403
8
Mamba 1B
Apache-2.0
Mamba-1B是一个基于Mamba架构的1B参数规模的语言模型,支持英文文本生成任务。
大型语言模型 Transformers 英语
M
Q-bert
185
28
Mythalion Kimiko V2 AWQ
其他
Mythalion Kimiko v2 - AWQ 是 nRuaif 创建的 Mythalion Kimiko v2 模型的 AWQ 量化版本,具有高效、准确和快速推理等特点。
大型语言模型 Transformers
M
TheBloke
403
7
Dolphin 2.5 Mixtral 8x7b GPTQ
Apache-2.0
Dolphin 2.5 Mixtral 8X7B 是由 Eric Hartford 开发的一个基于 Mixtral 架构的大型语言模型,经过多种高质量数据集的微调,适用于多种自然语言处理任务。
大型语言模型 Transformers 英语
D
TheBloke
164
112
Mixtral 8x7B Instruct V0.1 HF
Apache-2.0
Mixtral-8x7B是一个预训练的生成式稀疏混合专家大语言模型,在多数基准测试中表现优于Llama 2 70B。
大型语言模型 Transformers 支持多种语言
M
LoneStriker
45
4
Jais 30b V1
Apache-2.0
JAIS-30B是一个300亿参数的双语(阿拉伯语和英语)大语言模型,基于GPT-3架构,采用ALiBi位置嵌入技术,在阿拉伯语任务上达到最先进水平。
大型语言模型 Transformers 支持多种语言
J
inceptionai
37
23
Llava V1.5 13B GPTQ
Llava v1.5 13B是由Haotian Liu开发的多模态模型,结合了视觉和语言能力,能够理解和生成基于图像和文本的内容。
文本生成图像 Transformers
L
TheBloke
131
37
Mistral 7B Instruct V0.1 GPTQ
Apache-2.0
Mistral 7B Instruct v0.1 的 GPTQ 量化版本,支持在 ExLlama 或 Transformers 框架下运行
大型语言模型 Transformers
M
TheBloke
7,481
82
Jais 13B 8bit
Apache-2.0
130亿参数阿拉伯语-英语双语大语言模型,基于Transformer架构,支持长序列处理
大型语言模型 Transformers 支持多种语言
J
asas-ai
72
9
Codefuse 13B
其他
CodeFuse-13B是基于GPT-NeoX框架训练的130亿参数代码生成模型,支持40多种编程语言,能处理长达4096字符的代码序列。
大型语言模型 Transformers
C
codefuse-ai
31
49
Codellama 34B Instruct GPTQ
CodeLlama 34B 指导版是Meta发布的340亿参数代码生成模型,基于Llama 2架构,专门针对编程任务进行微调。
大型语言模型 Transformers 其他
C
TheBloke
174
75
Kogpt J 350m
MIT
一个基于GPT-J架构的韩语生成模型,拥有3.5亿参数,适用于多种韩语文本生成任务。
大型语言模型 韩语
K
heegyu
123
7
Long T5 Tglobal Xl
Apache-2.0
LongT5 是一个基于 Transformer 的文本到文本模型,专门设计用于处理长序列输入,最高支持 16384 个标记。
大型语言模型 Transformers 英语
L
google
336
23
Nystromformer 4096
基于WikiText-103 v1数据集训练的长序列Nyströmformer模型,支持4096长度的序列处理
大型语言模型 Transformers
N
uw-madison
74
3
Nystromformer 2048
基于WikiText-103数据集训练的Nystromformer模型,支持长序列处理(2048 tokens)
大型语言模型 Transformers
N
uw-madison
38
1
20220415 210530
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-2b在common_voice数据集上微调的语音识别模型
语音识别 Transformers
2
lilitket
20
0
Long T5 Local Large
Apache-2.0
长T5是基于T5扩展的文本到文本Transformer模型,支持高效处理长序列输入,特别适用于文本生成任务。
大型语言模型 Transformers 英语
L
google
177
5
Bigbird Roberta Large
Apache-2.0
BigBird是一种基于稀疏注意力的Transformer模型,能够处理长达4096的序列,适用于长文档任务。
大型语言模型 英语
B
google
1,152
27
Bertin Roberta Large Spanish
BERTIN是基于BERT的西班牙语模型系列,本模型为RoBERTa-large架构,使用Flax框架从零开始训练,数据源为mC4语料库的西班牙语部分。
大型语言模型 西班牙语
B
flax-community
26
0
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase