モデル選定

リアルタイム処理

# リアルタイム処理

Ultravox V0 5 Llama 3 2 1b GGUF

Ultravox v0.5はLlama-3 2.1Bアーキテクチャを最適化した音声テキスト変換モデルで、音声書き起こしタスクの効率的な処理に特化しています。

Mediapipe Selfie Segmentation Landscape

横向き画像に特化して最適化された、ONNX形式の軽量ポートレート分割モデルです。

画像セグメンテーション

Vitpose Base Simple

ViTアーキテクチャに基づく軽量な姿勢推定モデルで、人体のキーポイント検出に使用されます

Coreml Sam2 Tiny

SAM 2 TinyはFAIRが開発した画像・動画汎用セグメンテーションモデルのCore MLバージョンで、モバイルアプリケーション向けに最適化されています

画像セグメンテーション

Genrevim Music Detection DistilHuBERT

このモデルはDistilHuBERTをファインチューニングしたオーディオ分類モデルで、音楽と非音楽オーディオを区別するために特別に設計されています。

Resnet50 Facial Emotion Recognition

これはApache-2.0ライセンスで公開されたAIモデルで、具体的な機能は実際のモデルタイプによって決定されます

大規模言語モデル

KhaldiAbderrhmane

これはApache-2.0ライセンスを使用するオープンソースモデルで、具体的な情報は追加が必要です

大規模言語モデル

Yolov8n Handwritten Text Detection

YOLOv8ベースの物体検出モデルで、手書きテキスト内容の検出に特化

物体検出その他

Trocr Base Plate Number

画像からナンバープレート番号を抽出できる車両ナンバープレート認識用のビジュアルモデルサンプルです。

Language Detector

openai/whisper-smallをファインチューニングした言語検出モデルで、評価データセットでの精度は96.47%

Tiny Random Vits

Apache-2.0ライセンスに基づくオープンソースモデル、具体的な機能は実際のモデルによって決定されます

大規模言語モデル

Ssast Audioset Librispeech 16 16

このモデルは音声分類タスクに使用され、音声データを分類識別できます。

Ast Finetuned Speech Commands V2

ASTアーキテクチャに基づく音声コマンド認識モデル、ウェブ展開向けに最適化されたONNXフォーマット版

Pyannote Speaker Diarization Endpoint

pyannote.audio 2.0バージョンに基づく話者分割モデルで、音声内の異なる話者を自動検出・分割する

話者の処理

Segformer Finetuned Lane 10k Steps

SegFormerアーキテクチャに基づく軽量車線検出モデル、lane_masterデータセットで10,000ステップのファインチューニングを実施

画像セグメンテーション

Whitebox Cartoonizer

TensorFlowのSavedModel形式に基づくホワイトボックス漫画化ツールモデルで、実写画像を漫画スタイルに変換できます。

Whisper Small ISSAI KSC 335RS V2

Whisperアーキテクチャに基づく小型音声認識モデル、特定分野の音声テキスト変換タスクに適しています

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。

画像生成テキスト

これはApache-2.0ライセンスに基づくオープンソースモデルで、具体的な機能は実際のモデルタイプによって決定されます

大規模言語モデル

Unixcoder Base Unimodal

これはApache-2.0ライセンスで提供されるオープンソースモデルで、具体的な機能や適用分野はさらに確認が必要です

大規模言語モデル

このモデルはMITライセンスに基づくオープンソースモデルで、CER（文字誤り率）が0.0019と、特定のタスクにおいて高い精度を有しています。

大規模言語モデル

Distilhubert Ft Keyword Spotting

DistilHuBERTアーキテクチャに基づくキーワード認識モデル、superbデータセットでファインチューニングされ、精度97.06%を達成

Minylm L3 Aug Sst2 Distilled

これは性能が良好なモデルで、テスト精度は91.17%、テスト損失は0.241です。

テキスト分類

Speaker Diarization

pyannote.audio 2.1.1バージョンに基づく話者分割モデルで、音声中の話者の変化と重複音声を自動検出するために使用されます。

話者の処理

Wav2vec2 Xls R Tf Left Right Trainer

facebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、左右チャンネルの処理に対応しています。

Transformerアーキテクチャに基づく中国語事前学習言語モデル、様々な自然言語処理タスクに適応

大規模言語モデル

Distil Wav2vec2 Adult Child Cls 37m

wav2vec 2.0アーキテクチャに基づく音声分類モデルで、成人と児童の音声を区別するために使用されます

Transformers 英語

Xlm Roberta Base Finetuned Somali

大規模言語モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase