モデル選定

マルチシーン適応

# マルチシーン適応

Devstral Small 2505 GGUF

Devstral-Small-2505の量子化バージョン、さまざまなハードウェア要件に対応するための複数の精度オプションを提供

大規模言語モデル複数言語対応

TRELLIS Image Large

TRELLIS画像条件バージョンは、画像から3Dコンテンツを生成できる大規模3D生成モデルです。

3Dビジョン英語

TRELLIS Image Large Fork

TRELLISは構造化3D潜在変数を用いて、スケーラブルで多機能な3Dコンテンツ生成を実現する大規模3D生成モデルです。

3Dビジョン英語

TRELLIS画像条件バージョンは、入力された2D画像に対応する3Dモデルを生成できる大規模3D生成モデルです。

3Dビジョン英語

LTX Video 0.9.7 Dev

DiTアーキテクチャを基にした初のリアルタイム高品質動画生成モデル。1216×704解像度の動画を30fpsで生成可能

動画処理英語

Andrewzh Absolute Zero Reasoner Coder 7b GGUF

andrewzhのAbsolute_Zero_Reasoner-Coder-7bモデルを基にしたLlamacpp量子化バージョンで、複数の量子化レベルをサポートし、推論やコード生成タスクに適しています。

大規模言語モデル

Allura Org Remnant Glm4 32b GGUF

Remnant-GLM4-32BはGLM4アーキテクチャに基づく32Bパラメータの大規模言語モデルで、ロールプレイングや対話型インタラクションをサポートし、特にイモリ関連のアプリケーションシナリオに適しています。

大規模言語モデル

Reallybiglust Illustrious Realistic Hibrid Illustrious Sdxl

Stable Diffusion XLをベースにした高品質なリアリティック画像生成モデルで、テキスト記述からディテール豊富で写真レベルのリアルな画像を生成可能

画像生成英語

Multi2convai Quality De Bert

これはドイツ語向けに最適化されたBertモデルで、品質分野のテキスト分類タスクに特化しています。

テキスト分類

Transformers ドイツ語

Violet Lyra Gutenberg V4

これは複数の高品質モデルを統合したハイブリッドモデルで、中国語テキスト生成と対話タスクに特化しています。

大規模言語モデル

Whisper Small Vi

openai/whisper-smallをベースにベトナム語音声データ向けにファインチューニングした自動音声認識モデルで、ベトナム語の文字起こし精度と頑健性を向上

Transformers その他

BRIA RMBG v2.0は、非商用用途に適した、あらゆるタイプの画像から前景と背景を効率的に分離するために設計された最先端の背景除去モデルです。

画像セグメンテーション

潜在ブリッジマッチング(LBM)技術に基づく画像深度推定モデル。潜在空間ブリッジにより高速な画像変換を実現

Ade20k Semantic Eomt Large 512

このモデルは論文『あなたのViTは実際には画像セグメンテーションモデル』に基づいて開発され、画像セグメンテーションタスクのための視覚Transformerモデルです。

画像セグメンテーション

Wan2.1 14B T2Vモデルを基に訓練されたLoRAで、高品質な犬の動画コンテンツ生成に特化しています。

テキスト生成ビデオ英語

MMS TTS THAI FEMALEV2

VITSアーキテクチャに基づくタイ語女性音声のテキスト・トゥ・スピーチ(TTS)モデルで、高品質なタイ語音声合成をサポートします。

音声合成その他

Skyreels V1 Hunyuan I2V HFIE

SkyReels-V1-Hunyuan-I2Vは、Tencent SkyworkAIによって開発されたテキストから動画を生成するモデルで、Hunyuanアーキテクチャに基づいており、テキスト入力から動画コンテンツを生成することができます。

テキスト生成ビデオ英語

Gte Qwen2 1.5B Instruct GGUF

阿里巴巴NLP/gte-Qwen2-1.5B-instructの量子化バージョンで、主に文の類似度計算とテキスト埋め込みタスクに使用されます。

大規模言語モデル英語

Sd35m Sfwbooru Lokr

Stable Diffusion 3.5アーキテクチャに基づくテキストから画像生成モデルで、高品質な画像生成と画像間変換をサポート

Asr Conformer Largescaleasr

これはSpeechBrainフレームワークでトレーニングされたエンドツーエンドの自動音声認識システムで、Conformerアーキテクチャを使用して25,000時間の英語音声データでトレーニングされています。

音声認識英語

Vitpose Plus Base

ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、シンプルな設計によりMS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。

Transformers 英語

ビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成

Transformers 英語

MMS TTS THAI MALEV1

これはVITSアーキテクチャに基づくタイ語テキスト読み上げ(TTS)モデルで、男性の声に特化して微調整されています。

音声合成その他

Summllama3.1 8B GGUF

Llama3アーキテクチャを最適化した8Bパラメータの要約生成モデルで、複数の量子化バージョンを提供

大規模言語モデル

70B L3.3 Mhnnn X1

Llama-3-70B-Instructをファインチューニングした大規模言語モデルで、クリエイティブテキスト生成とマルチタスク処理に特化

大規模言語モデル

Aimv2 Large Patch14 224.apple Pt

AIM-v2はtimmライブラリに基づく画像エンコーダーモ型で、画像特徴抽出タスクに適しています。

Sam2 Hiera Tiny.fb R896 2pt1

HieraDet画像エンコーダーに基づくSAM2モデルで、画像特徴抽出タスクに特化しています。

Sam2 Hiera Base Plus.fb R896 2pt1

HieraDet画像エンコーダを基にしたSAM2モデルの重みで、画像特徴抽出タスクに特化

画像セグメンテーション

Leo Cat Sdxl Lora V2

これはstabilityai/stable-diffusion-xl-base-1.0向けのLoRAアダプターウェイトで、LEO猫の画像生成に特化しています。

Moonshine Base ONNX

MoonshineベースモデルのONNX形式自動音声認識モデル、効率的な推論をサポート

Flux Automotive X1 LoRA

LoRA技術を基にしたテキスト生成画像モデルで、特定のスタイルの自動車画像生成に特化

テキスト生成画像

Flux Ghibli Art LoRA

FLUX.1-dev基本モデルに基づくLoRA微調整モデルで、ジブリスタイルのアート画像生成に特化しています。

Flux.1 Dev Realtime Toon Mix

これはLoRAベースのテキストから画像への拡散モデルで、アニメ混合スタイルの画像生成に特化しています。モデルはまだトレーニング段階にあり、最終版ではありません。

これはエンドツーエンドの話者セグメンテーションモデルで、音声活動検出、オーバーラップ音声検出、リセグメンテーションタスクに使用されます。

話者の処理

Average Photographic Merge V21 Sdxl

Stable Diffusion XLをベースとしたテキストから画像を生成するモデルで、写真級リアリズムの画像生成に特化しています。

画像生成英語

Wavlm Large Finetuned SER

WavLM-Largeベースの音声感情認識モデルで、英語音声の感情分類をサポートします。

音声分類英語

Jenna Ortega Flux

FLUX.1-devベースモデルをカスタマイズしたLoRAモデルで、ジェナ・オルテガの写実的なスタイルのポートレート生成に特化しています。

テキスト生成画像

Elizabeth Olsen Sdxl Flux

FLUX.1-devベースモデルをカスタマイズしたLoRAモデルで、エリザベス・オルセン（特にマーベルのスカーレットウィッチ）の高品質なフォトリアルな画像生成に特化

テキスト生成画像

Pathumma Whisper Th Large V3

Pathumma Whisper Large V3 はOpenAI Whisperアーキテクチャに基づくタイ語自動音声認識モデルで、タイ語と英語の音声文字起こしタスクをサポートします。

Transformers 複数言語対応

Lotus Depth G V1 0

Lotusは拡散モデルに基づく視覚基盤モデルで、高品質な密集予測タスクに特化しています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase