Transformer架构

# Transformer架构

Fastvlm 1.5B Stage3 MNN

FastVLM-1.5B-Stage3-MNN是基于Transformer架构的文本生成模型，是FastVLM-1.5B-Stage3的8位量化版本，适用于聊天等文本生成场景。

大型语言模型英语

Sundial Base 128m

日晷是一系列生成式时间序列基础模型，能够对确定性预测和概率预测进行零样本推理。

Ast Finetuned Audioset 10 10 0.4593 ONNX

这是AST(Audio Spectrogram Transformer)模型的ONNX版本，专为音频分类任务设计，在AudioSet数据集上进行了微调。

Wav2vec2 Base Librispeech Demo Colab

该模型是基于facebook/wav2vec2-base在LibriSpeech数据集上微调的语音识别模型，在评估集上取得了0.3174的词错误率。

Falcon E 3B Instruct

Falcon-E-3B-Instruct 是一个基于1.58比特架构的高效语言模型，专为边缘设备优化，具有出色的推理能力和低内存占用。

大型语言模型

Videomae Base Finetuned Ucf101 Subset

基于VideoMAE基础模型在UCF101子集上微调的视频分类模型

X2I是一个多模态扩散Transformer模型，能够将多种输入模态（文本、图像、视频、音频、语音）转换为图像输出。

文本生成图像其他

Latex Finetuned

基于Transformer的光学字符识别模型，专为处理手写数学图像和结构化数学语法而优化。

Unixcoder Code Vulnerability Detector

基于Microsoft的UniXcoder微调的C/C++代码漏洞检测模型，准确率68.34%，F1分数62.14%

Transformers 英语

Digitaledutransformers

基于Transformer架构的表格分类模型，用于金融领域的数据分析

SnowFlash383935

基于Transformer架构的DNA序列嵌入模型，支持序列比对和基因组学应用

roychowdhuryresearch

Finedefics 是一个开源的多模态大语言模型（MLLM），通过融入对象的信息化属性描述，增强了细粒度视觉识别（FGVR）能力。

图像生成文本

Terjman Large V2.0

泰尔曼大型-v2.0是基于Transformer架构的英语-摩洛哥方言翻译模型，性能显著提升，与商业模型表现相当。

Transformers 支持多种语言

BounharAbdelaziz

基于Transformer架构的双向机器翻译模型，支持斯拉夫语系语言间的互译

Transformers 支持多种语言

Vit Large Patch14 Dinov2.lvd142m

基于视觉Transformer（ViT）的图像特征模型，采用自监督DINOv2方法在LVD-142M数据集上预训练。

Vit Liveness Detection V1.0

本模型是基于Transformer库的人脸活体检测模型，在评估集上取得了优异的性能。

Tabpfn Mix 1.0 Regressor

TabPFNMix是基于纯合成数据集预训练的表格基础模型，采用编码器-解码器Transformer结构，适用于表格数据回归任务。

Tabpfn Mix 1.0 Classifier

基于表格数据的基础模型，预训练数据来自随机分类器混合生成的合成数据集

Rtdetr V2 R101vd

RT-DETRv2是基于Transformer架构的实时目标检测模型，通过改进的基线模型和免费技巧包提升性能。

Pixart Sigma Nitro

AMD Nitro Diffusion 是一系列高效的文本生成图像模型，基于 AMD Instinct™ GPU 从主流扩散模型蒸馏而来。PixArt-Sigma Nitro 是基于 Transformer 的高分辨率单步推理模型。

Trocr Base Handwritten Ru

TrOCR模型是一种基于Transformer的光学字符识别模型，专门针对俄语手写文本进行微调。

图像生成文本

Transformers 其他

Materials.selfies Ted

基于Transformer架构的编码器-解码器模型，专为使用SELFIES进行分子表征而设计

Speecht5 Fine Tune En

基于微软SpeechT5模型微调的英文语音合成(TTS)模型，专注于技术领域文本的语音生成

Transformers 英语

MOMENT是一系列通用时序分析基础模型，支持多种时序分析任务如预测、分类、异常检测等，具备开箱即用和可微调的特性。

PGTFormer 是一个基于 PyTorch 的图像到图像转换模型，通过 PytorchModelHubMixin 集成推送至 Hugging Face Hub。

Speecht5 Finetuned Emirhan Tr

基于Microsoft SpeechT5微调的土耳其语文本转语音模型，能够生成高质量土耳其语语音。

TensorBoard 其他

Swahili English Translation

专为斯瓦希里语与英语双向翻译开发的Transformer模型，基于21万条语料对微调训练

Timesformer Base Finetuned K400

TimeSformer 是一个基于 Transformer 的视频理解模型，专门针对 Kinetics-400 数据集进行了微调。

Segformer B2 Human

基于SegFormer架构的时尚图像分割模型，专门用于人物服装和配饰的精细分割

Trocr Math Handwritten

TrOCR是一个基于Transformer的OCR模型，专门用于识别手写数学公式

图像生成文本

基于BERT架构的Transformer编码器模型，专为生成RNA序列嵌入而设计

Dictalm2 It Qa Fine Tune

这是Dicta - IL的dictalm2.0 - instruct模型的微调版本，专门用于生成希伯来语的问答对。

Transformers 其他

基于12层Transformer架构的先进句子分割模型，支持多语言文本分割任务

Transformers 支持多种语言

segment-any-text

Real3D是一个基于TripoSR架构的2D到3D映射Transformer模型，通过无监督自训练和自动数据筛选扩展了真实世界图像的处理能力。

MeshAnything是基于自回归Transformer的艺术家级网格生成模型，能够将图像或点云转换为高质量的3D网格模型。

Dab Detr Resnet 50

DAB-DETR是一种改进的DETR目标检测模型，通过动态锚框查询机制显著提升训练收敛速度和检测精度

Transformers 英语

Block Diagram Global Information

基于Donut框架的Transformer架构模型，用于从框图图像中提取整体摘要信息，支持英语和韩语处理。

图像生成文本

Transformers 支持多种语言

Codontransformer

密码子优化的终极工具，能将蛋白质序列转化为针对目标生物体优化的DNA序列。

蛋白质模型

Medsam Breast Cancer

基于Transformers库的图像分割模型，用于视觉任务中的图像分割处理

Transformers 其他

MichaelSoloveitchik

RT-DETR是首个实时端到端目标检测Transformer模型，通过高效混合编码器和查询选择机制实现无NMS的高效检测

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase