端到端訓練

# 端到端訓練

Coco Instance Eomt Large 1280

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，展示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Giant 1280

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，揭示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Large 1280

該論文提出了一種基於Vision Transformer (ViT) 的圖像分割模型，揭示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Large 640

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，展示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Giant 640

該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力，通過特定架構調整使其適用於分割任務。

Coco Panoptic Eomt Large 1280

該論文提出了一種新的視角，將Vision Transformer (ViT) 視為圖像分割模型，並探討了其在圖像分割任務中的潛力。

Ade20k Semantic Eomt Large 512

該模型基於論文《你的ViT實際上是圖像分割模型》開發，是一種用於圖像分割任務的視覺Transformer模型。

Coco Panoptic Eomt Large 640

該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力，通過特定架構調整使其適用於分割任務。

Coco Instance Eomt Large 640

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，展示了ViT在圖像分割任務中的潛力。

Coco Panoptic Eomt Giant 1280

該模型通過重新思考Vision Transformer (ViT) 的架構，展示了其在圖像分割任務中的潛力。

Detr Finetuned Chess

這是一個基於DETR架構的目標檢測模型，專門針對國際象棋棋子識別任務進行了微調。

魔術師是首個具備自由形式多圖像定位能力的多模態大語言模型，在複雜多圖像場景中實現精確定位，性能超越70B規模模型。

文本生成圖像

Transformers 英語

YOLOv10x 是 YOLO 系列的最新版本，專注於即時端到端目標檢測，提供更高的檢測精度和更快的推理速度。

YOLOv10 是一個即時端到端目標檢測模型，由清華大學團隊開發，基於 YOLO 系列的最新改進版本。

YOLOv10 是一個即時端到端目標檢測模型，由清華大學團隊開發，基於 YOLO 系列的最新改進版本。

YOLOv10是清華大學提出的即時端到端目標檢測模型，具有高效和準確的特點。

YOLOv10是一種即時目標檢測模型，通過消除非極大值抑制（NMS）等後處理步驟，實現了高效且無額外開銷的目標檢測。

從零構建的大語言模型，包含分詞器訓練、模型初始化、預訓練與指令微調全流程開源實現

大型語言模型

Detr Resnet 50 Sku110k

該DETR模型在SKU110K目標檢測數據集上進行了端到端訓練，查詢數設置為400，適用於商品貨架檢測等場景。

Control V11p Sd15 Inpaint

ControlNet v1.1 是一個基於擴散模型的神經網絡結構，用於通過額外條件控制圖像生成，特別適用於圖像修復任務。

圖像生成其他

Mamba 3B Slimpj

基於Mamba架構的3B參數規模的語言模型，支持英文文本生成任務。

大型語言模型

Transformers 英語

Detr Resnet 50 Finetuned Cppe5

基於facebook/detr-resnet-50在圖像文件夾數據集上微調的DETR目標檢測模型

Segformer B0 Finetuned V0

基於nvidia/mit-b0在tontokoton/artery-ultrasound-siit數據集上微調的圖像分割模型

Timesformer Bert Video Captioning

基於Timesformer和BERT架構的視頻字幕生成模型，能夠為視頻內容生成描述性字幕。

視頻生成文本

EnCodec是由Meta AI開發的即時高保真神經音頻編解碼器，支持多種帶寬配置和流式處理。

EnCodec是由Meta AI開發的高保真即時神經音頻編解碼器，採用端到端訓練方式，支持多種帶寬設置。

基於Donut架構微調的發票信息提取模型，免OCR實現文檔理解

圖像生成文本

Detr Resnet 50 Finetuned OCR

基於facebook/detr-resnet-50微調的OCR模型，用於目標檢測任務

Deformable Detr Box Supervised

Deformable DETR是基於Transformer架構的目標檢測模型，在LVIS數據集上訓練，支持1203個類別的物體檢測。

Deformable Detr Detic

使用可變形檢測變換器架構，在包含1203個類別的LVIS數據集上訓練的目標檢測模型

Imclasif Genres V001

這是一個基於HuggingPics生成的圖像分類模型，主要用於對特定類型（genres）的圖像進行分類。

Gender Classification

一個基於HuggingPics生成的圖像分類模型，用於識別圖像中的性別（男性或女性）。

Yolos Small Balloon

YOLOS是一種使用視覺Transformer（ViT）架構的目標檢測模型，通過DETR損失訓練，在COCO和Matterport氣球數據集上微調。

Re2g Qry Encoder Fever

Re2G是一個結合神經初始檢索和重排序的生成模型，用於知識密集型任務。該問題編碼器是Re2G系統的組成部分，用於將問題編碼為向量以進行檢索。

Re2g Qry Encoder Nq

Re2G是一個結合神經檢索、重排序和生成的端到端系統，用於知識密集型任務。該模型是其NQ（Natural Questions）問題編碼器組件。

Cifar 10 Vgg Pretrained

基於PyTorch實現的圖像分類模型，能夠識別多種常見物體類別

Kss Tts Train Jets Raw Phn Null G2pk Train.total Count.ave

這是一個基於ESPnet2框架訓練的韓語文本轉語音(TTS)模型，使用KSS數據集訓練，採用JETS架構。

語音合成韓語

Wav2vec2 Base Timit Demo Colab0

該模型是基於facebook/wav2vec2-base微調的語音識別模型，在TIMIT數據集上取得了0.5635的詞錯誤率。

Wav2vec2 Base Timit Demo Colab

基於facebook/wav2vec2-base模型在TIMIT數據集上微調的語音識別模型，用於演示目的

Gunnarthor Talromur A Fastspeech2

基於ESPnet框架和talromur數據集訓練的FastSpeech2文本轉語音模型，支持冰島語語音合成。

語音合成英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase