モデル選定

多シーン適応

# 多シーン適応

OuteTTSはトルコ語に特化したテキスト音声変換(TTS)モデルで、5億パラメータ規模を持ち、トルコ語テキストを自然な音声に変換できます。

音声合成その他

Spark-TTSは、大規模言語モデル（LLM）の強力な能力を活用し、高精度で自然な音声合成を実現する先進的なテキスト読み上げシステムです。

Bge Large Zh V1.5 GGUF

BAAI/bge-large-zh-v1.5は中国語文変換モデルで、主に特徴抽出と文類似度計算に使用されます。

テキスト埋め込み中国語

Light R1 14B DS GGUF

Light-R1-14B-DSは14Bパラメータ規模の量子化大規模言語モデルで、テキスト生成タスクをサポートし、リソースが限られた環境での効率的な推論に適しています。

大規模言語モデル

Huihui Ai.granite Vision 3.2 2b Abliterated GGUF

Granite Vision 3.2 2B Abliterated は、画像テキストからテキストへの変換タスクに特化した視覚言語モデルです。

画像生成テキスト

MMS TTS THAI FEMALE PODCAST

これはタイ語に最適化されたテキスト音声変換(TTS)モデルで、特に女性ポッドキャストスタイルの音声生成に適しています。

音声合成その他

PGTFormerはPyTorchベースの画像間変換モデルで、PytorchModelHubMixinを通じてHugging Face Hubに統合されています。

Moondream Caption

Moondream2ベースのカスタム小型視覚モデル、画像説明生成タスク向けに微調整

画像生成テキスト

Moralbert Predict Subversion In Lyrics

これはPyTorchベースのテキスト分類モデルで、様々なテキスト分類タスクに適用できます。

テキスト分類

大規模言語モデル

Image Captioning Vit Gpt2 Flick8k

このモデルは入力された画像を記述的なテキストに変換することができ、様々なシーンでの画像理解タスクに適用できます。

画像生成テキスト

Whisper Large V3 Russian

OpenAI Whisper-large-v3をファインチューニングしたロシア語音声認識モデルで、ロシア語認識性能を最適化

Transformers その他

BuRPは多機能なロールプレイモデルで、ユーザーと高度にインタラクティブなやり取りが可能で、いかなるアクティブなリクエストも拒否せず、特定の対話フォーマットを厳格に遵守します。

大規模言語モデル

Transformers 英語

ChaoticNeutrals

Qwen 1.5 Patent Translation

MITライセンスに基づくオープンソースモデル。具体的な機能は実際のモデルによって異なります

大規模言語モデル

Tinysolar 248m 4k

大規模言語モデル

Whisper Large V3 French Distil Dec8

これはWhisper-Large-V3フランス語モデルの蒸留バージョンで、デコーダー層数を減らすことで推論速度とメモリ使用量を最適化し、良好な性能を維持しています。

Transformers フランス語

Orionstar Yi 34B Chat Llama GGUF

OrionStar Yi 34B Chat Llama は Yi 34B アーキテクチャに基づく大規模言語モデルで、中国語対話タスクに特化しています。

大規模言語モデルその他

E5 Large V2 Onnx

これは文や段落を密なベクトル空間にマッピングする文変換モデルで、クラスタリングや意味検索などのタスクに適しています。

テキスト埋め込み英語

このモデルはMITライセンスで公開されており、具体的な情報は提供されていません。

大規模言語モデル

Voidnoisecore R0829

Stable Diffusionベースのテキストから画像を生成するモデルで、テキスト記述に基づき高品質な画像を生成可能です。

E5 Small V2 Onnx

これは文を密ベクトル空間にマッピングする文変換モデルで、意味検索やクラスタリングタスクに適しています。

テキスト埋め込み英語

All MiniLM L6 V2 Onnx

これはONNXベースの文変換モデルで、テキストを384次元ベクトル空間にマッピングし、意味検索やクラスタリングタスクに適しています。

テキスト埋め込み英語

General Image Captioning

これはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。

Transformers その他

2D絵画スタイルに特化した安定拡散融合モデルで、VAEを含むバージョンと含まないバージョンの選択肢を提供

画像生成日本語

Car Brands Classification

BEiTアーキテクチャに基づく事前学習済み画像分類モデルで、ベトナム語タグをサポートし、視覚タスクに適しています

Transformers その他

Treeclassification

様々な一般的な物体やシーンを識別できる画像分類用の視覚モデルです。

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。

画像生成テキスト

Stable Diffusionモデルのプロンプト生成用モデル

画像生成英語

Whisper Large Zh Cv11

openai/whisper-large-v2をベースに、中国語(北京語)向けにCommon Voice 11データセットでファインチューニングした音声認識モデル

Transformers 中国語

Yolov5n Cls V7.0

YOLOv5n-cls-v7.0は、YOLOv5アーキテクチャに基づく軽量な画像分類モデルで、効率的な視覚タスク処理に適しています。

Ko Trocr Base Nsmc News Chatbot

これは韓国語テキスト認識のためのコンセプト検証モデルで、TrOCRアーキテクチャに基づいて訓練され、画像から韓国語テキストを認識できます。

画像生成テキスト

Transformers 韓国語

Hubert Large Arabic Transcribe

このモデルはMITライセンスで公開されており、詳細情報は追加が必要です。

大規模言語モデル

Sentence-transformersフレームワークでトレーニングされた韓国語文類似度モデル、文間の意味的一貫性を測定するために使用

テキスト埋め込み

Transformers 韓国語

Icefall Asr Gigaspeech Conformer Ctc

Icefallはk2フレームワークに基づく自動音声認識（ASR）ツールキットで、効率的で柔軟な音声認識モデルのトレーニングと推論に焦点を当てています。

音声認識英語

このモデルはAFL-3.0ライセンスのもとでリリースされており、具体的な情報は現在利用できません。

大規模言語モデル

Wav2vec2 Large Ru Golos

facebook/wav2vec2-large-xlsr-53をファインチューニングしたロシア語音声認識モデル。Sberdevices Golosデータセットでトレーニングされ、16kHz音声入力をサポート

Transformers その他

Efficientnet 61 Planet Detection

EfficientNetV2は、トレーニング速度とパラメータ効率を特に最適化した効率的な畳み込みニューラルネットワークアーキテクチャです。61チャンネル版はこのアーキテクチャのバリエーションです。

Cifar 10 Vgg Pretrained

PyTorchで実装された画像分類モデルで、さまざまな一般的な物体カテゴリを認識可能

大規模言語モデル

Erlangshen Roberta 110M Sentiment

中国語RoBERTa-wwm-ext-baseモデルをベースに、複数の感情分析データセットでファインチューニングされたバージョン

テキスト分類

Transformers 中国語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase