モデル選定

Transformerアーキテクチャ

# Transformerアーキテクチャ

Sundial Base 128m

日時計は一連の生成的時系列基礎モデルであり、確定的予測と確率予測に対してゼロショット推論が可能です。

気候モデル

Ast Finetuned Audioset 10 10 0.4593 ONNX

これはAST（Audio Spectrogram Transformer）モデルのONNXバージョンで、音声分類タスク用に設計され、AudioSetデータセットで微調整されています。

Wav2vec2 Base Librispeech Demo Colab

このモデルはfacebook/wav2vec2-baseをLibriSpeechデータセットでファインチューニングした音声認識モデルで、評価セットで0.3174の単語誤り率を達成しました。

Falcon E 3B Instruct

Falcon-E-3B-Instructは1.58ビットアーキテクチャに基づく高効率な言語モデルで、エッジデバイス向けに最適化されており、優れた推論能力と低メモリ消費を特徴とします。

大規模言語モデル

Videomae Base Finetuned Ucf101 Subset

VideoMAEベースモデルをUCF101サブセットでファインチューニングしたビデオ分類モデル

X2Iはマルチモーダル拡散Transformerモデルで、テキスト、画像、動画、音声、音声など複数の入力モダリティを画像出力に変換できます。

テキスト生成画像その他

Latex Finetuned

Transformerベースの光学文字認識モデルで、手書き数式画像と構造化数学構文の処理に最適化されています。

Unixcoder Code Vulnerability Detector

MicrosoftのUniXcoderを微調整したC/C++コードバグ検出モデルで、正解率68.34%、F1スコア62.14%

テキスト分類

Transformers 英語

Digitaledutransformers

Transformerアーキテクチャに基づく表形式分類モデルで、金融分野のデータ分析に使用

テキスト分類

SnowFlash383935

Transformerアーキテクチャに基づくDNA配列埋め込みモデル、配列アラインメントとゲノミクス応用をサポート

分子モデル

roychowdhuryresearch

Finedeficsはオープンソースのマルチモーダル大規模言語モデル（MLLM）で、オブジェクトの情報的属性記述を組み込むことで、細粒度視覚認識（FGVR）能力を強化しています。

画像生成テキスト

Terjman Large V2.0

テルジャマン大型-v2.0はTransformerアーキテクチャに基づく英語-モロッコ方言翻訳モデルで、性能が大幅に向上し、商用モデルと同等のパフォーマンスを発揮します。

Transformers 複数言語対応

BounharAbdelaziz

Transformerアーキテクチャに基づく双方向機械翻訳モデルで、スラブ語族言語間の相互翻訳をサポート

Transformers 複数言語対応

Vit Large Patch14 Dinov2.lvd142m

視覚Transformer（ViT）ベースの画像特徴モデルで、自己教師ありDINOv2手法を用いてLVD-142Mデータセットで事前学習済み。

Vit Liveness Detection V1.0

このモデルはTransformerライブラリに基づく顔生体検知モデルで、評価セットで優れた性能を発揮しました。

人の顔に関係がある

Tabpfn Mix 1.0 Regressor

TabPFNMixは純粋な合成データセットで事前学習された表データ基礎モデルで、エンコーダ-デコーダTransformer構造を採用し、表データ回帰タスクに適しています。

Tabpfn Mix 1.0 Classifier

表データに基づく基礎モデルで、事前学習データはランダム分類器の混合から生成された合成データセットに由来します

分子モデル

Rtdetr V2 R101vd

RT-DETRv2はTransformerアーキテクチャに基づくリアルタイム物体検出モデルで、改良されたベースラインモデルと無料テクニックパックにより性能を向上させています。

Pixart Sigma Nitro

AMD Nitro Diffusionは、AMD Instinct™ GPU向けに主流の拡散モデルから蒸留された効率的なテキスト生成画像モデルのシリーズです。PixArt-Sigma Nitroは、Transformerベースの高解像度単段推論モデルです。

Trocr Base Handwritten Ru

TrOCRモデルはTransformerベースの光学文字認識モデルで、特にロシア語手書きテキスト向けにファインチューニングされています。

画像生成テキスト

Transformers その他

Materials.selfies Ted

Transformerアーキテクチャに基づくエンコーダ-デコーダモデルで、SELFIESを用いた分子特性評価のために設計

分子モデル

Speecht5 Fine Tune En

マイクロソフトのSpeechT5モデルをファインチューニングした英語音声合成(TTS)モデルで、技術分野のテキスト音声生成に特化

Transformers 英語

MOMENTは汎用的な時系列分析基盤モデルのシリーズで、予測、分類、異常検知など多様な時系列分析タスクをサポートし、すぐに使用可能かつ微調整可能な特性を備えています。

PGTFormerはPyTorchベースの画像間変換モデルで、PytorchModelHubMixinを通じてHugging Face Hubに統合されています。

Speecht5 Finetuned Emirhan Tr

Microsoft SpeechT5をファインチューニングしたトルコ語テキスト音声変換モデルで、高品質なトルコ語音声を生成できます。

TensorBoard その他

Swahili English Translation

スワヒリ語と英語の双方向翻訳のために開発されたTransformerモデルで、21万の言語ペアで微調整されています

Timesformer Base Finetuned K400

TimeSformerはTransformerベースのビデオ理解モデルで、Kinetics-400データセット向けに特別にファインチューニングされています。

Segformer B2 Human

SegFormerアーキテクチャに基づくファッション画像セグメンテーションモデルで、人物の衣服やアクセサリーの精密なセグメンテーションに特化

画像セグメンテーション

Trocr Math Handwritten

TrOCRはTransformerベースのOCRモデルで、手書き数学式の認識に特化しています

画像生成テキスト

BERTアーキテクチャに基づくTransformerエンコーダモデルで、RNAシーケンス埋め込み生成専用に設計

テキスト埋め込み

Dictalm2 It Qa Fine Tune

これはDicta - ILのdictalm2.0 - instructモデルの微調整バージョンで、ヘブライ語の質問と回答のペアを生成するために特化しています。

質問応答システム

Transformers その他

12層Transformerアーキテクチャに基づく先進的な文分割モデルで、多言語テキスト分割タスクをサポート

シーケンスラベリング

Transformers 複数言語対応

segment-any-text

Real3DはTripoSRアーキテクチャに基づく2Dから3DへのマッピングTransformerモデルで、教師なし自己学習と自動データ選別により実世界画像の処理能力を拡張しています。

MeshAnythingは自己回帰型Transformerを基にしたアーティスト級のメッシュ生成モデルで、画像やポイントクラウドを高品質な3Dメッシュモデルに変換できます。

Dab Detr Resnet 50

DAB-DETRは改良されたDETR物体検出モデルで、動的アンカーボックス検索メカニズムによりトレーニング収束速度と検出精度を大幅に向上

Transformers 英語

Block Diagram Global Information

Donutフレームワークに基づくTransformerアーキテクチャモデルで、ブロック図画像から全体の要約情報を抽出し、英語と韓国語の処理をサポートします。

画像生成テキスト

Transformers 複数言語対応

Codontransformer

コドン最適化の究極ツールで、タンパク質配列を対象生物種に最適化されたDNA配列に変換できます。

タンパク質モデル

Medsam Breast Cancer

Transformersライブラリに基づく画像セグメンテーションモデルで、視覚タスクにおける画像分割処理に使用されます

画像セグメンテーション

Transformers その他

MichaelSoloveitchik

RT-DETRは初のリアルタイムエンドツーエンド物体検出Transformerモデルで、効率的なハイブリッドエンコーダとクエリ選択メカニズムによりNMS不要の効率的な検出を実現

Transformers 英語

Segformer B3 Fashion

SegFormerアーキテクチャに基づくファッションアイテム画像分割モデルで、衣類やアクセサリーの識別と分割に特化

画像セグメンテーション

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase