# リアルタイム処理

Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5はLlama-3 2.1Bアーキテクチャを最適化した音声テキスト変換モデルで、音声書き起こしタスクの効率的な処理に特化しています。
音声認識
U
ggml-org
421
1
Mediapipe Selfie Segmentation Landscape
Apache-2.0
横向き画像に特化して最適化された、ONNX形式の軽量ポートレート分割モデルです。
画像セグメンテーション
M
onnx-community
45
3
Vitpose Base Simple
ViTアーキテクチャに基づく軽量な姿勢推定モデルで、人体のキーポイント検出に使用されます
姿勢推定 Transformers
V
onnx-community
31
3
Coreml Sam2 Tiny
Apache-2.0
SAM 2 TinyはFAIRが開発した画像・動画汎用セグメンテーションモデルのCore MLバージョンで、モバイルアプリケーション向けに最適化されています
画像セグメンテーション
C
apple
15
15
Genrevim Music Detection DistilHuBERT
このモデルはDistilHuBERTをファインチューニングしたオーディオ分類モデルで、音楽と非音楽オーディオを区別するために特別に設計されています。
音声分類 Transformers
G
MarekCech
61
0
Resnet50 Facial Emotion Recognition
Apache-2.0
これはApache-2.0ライセンスで公開されたAIモデルで、具体的な機能は実際のモデルタイプによって決定されます
大規模言語モデル Transformers
R
KhaldiAbderrhmane
50
3
Nl2sql 7b
Apache-2.0
これはApache-2.0ライセンスを使用するオープンソースモデルで、具体的な情報は追加が必要です
大規模言語モデル Transformers
N
DMetaSoul
47
1
Yolov8n Handwritten Text Detection
YOLOv8ベースの物体検出モデルで、手書きテキスト内容の検出に特化
物体検出 その他
Y
armvectores
546
9
Trocr Base Plate Number
Apache-2.0
画像からナンバープレート番号を抽出できる車両ナンバープレート認識用のビジュアルモデルサンプルです。
文字認識 Transformers
T
ghanahmada
100
1
Language Detector
Apache-2.0
openai/whisper-smallをファインチューニングした言語検出モデルで、評価データセットでの精度は96.47%
音声認識 Transformers
L
fitlemon
18
1
Tiny Random Vits
Apache-2.0
Apache-2.0ライセンスに基づくオープンソースモデル、具体的な機能は実際のモデルによって決定されます
大規模言語モデル Transformers
T
echarlaix
1,835
0
Ssast Audioset Librispeech 16 16
このモデルは音声分類タスクに使用され、音声データを分類識別できます。
音声分類 Transformers
S
yangwang825
18
1
Ast Finetuned Speech Commands V2
ASTアーキテクチャに基づく音声コマンド認識モデル、ウェブ展開向けに最適化されたONNXフォーマット版
音声分類 Transformers
A
Xenova
15
0
Pyannote Speaker Diarization Endpoint
MIT
pyannote.audio 2.0バージョンに基づく話者分割モデルで、音声内の異なる話者を自動検出・分割する
話者の処理
P
KIFF
1,830
4
Segformer Finetuned Lane 10k Steps
その他
SegFormerアーキテクチャに基づく軽量車線検出モデル、lane_masterデータセットで10,000ステップのファインチューニングを実施
画像セグメンテーション Transformers
S
Efferbach
1,077
0
Whitebox Cartoonizer
CC
TensorFlowのSavedModel形式に基づくホワイトボックス漫画化ツールモデルで、実写画像を漫画スタイルに変換できます。
画像生成
W
sayakpaul
71
22
Whisper Small ISSAI KSC 335RS V2
Whisperアーキテクチャに基づく小型音声認識モデル、特定分野の音声テキスト変換タスクに適しています
音声認識 Transformers
W
Shirali
83
1
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。
画像生成テキスト
M
laion
21.02k
20
Bert Seg V2
Apache-2.0
これはApache-2.0ライセンスに基づくオープンソースモデルで、具体的な機能は実際のモデルタイプによって決定されます
大規模言語モデル Transformers
B
simonnedved
20
0
Unixcoder Base Unimodal
Apache-2.0
これはApache-2.0ライセンスで提供されるオープンソースモデルで、具体的な機能や適用分野はさらに確認が必要です
大規模言語モデル Transformers
U
microsoft
23
1
Trocr Captcha
MIT
このモデルはMITライセンスに基づくオープンソースモデルで、CER(文字誤り率)が0.0019と、特定のタスクにおいて高い精度を有しています。
大規模言語モデル Transformers
T
tomofi
37
5
Distilhubert Ft Keyword Spotting
Apache-2.0
DistilHuBERTアーキテクチャに基づくキーワード認識モデル、superbデータセットでファインチューニングされ、精度97.06%を達成
音声分類 Transformers
D
anton-l
14
1
Minylm L3 Aug Sst2 Distilled
これは性能が良好なモデルで、テスト精度は91.17%、テスト損失は0.241です。
テキスト分類 Transformers
M
moshew
17
0
Speaker Diarization
MIT
pyannote.audio 2.1.1バージョンに基づく話者分割モデルで、音声中の話者の変化と重複音声を自動検出するために使用されます。
話者の処理
S
pyannote
910.93k
1,038
Wav2vec2 Xls R Tf Left Right Trainer
Apache-2.0
facebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、左右チャンネルの処理に対応しています。
音声認識 Transformers
W
hrdipto
30
0
Bert News
Transformerアーキテクチャに基づく中国語事前学習言語モデル、様々な自然言語処理タスクに適応
大規模言語モデル Transformers
B
dkhara
6
0
Distil Wav2vec2 Adult Child Cls 37m
Apache-2.0
wav2vec 2.0アーキテクチャに基づく音声分類モデルで、成人と児童の音声を区別するために使用されます
音声分類 Transformers 英語
D
bookbot
15
2
Xlm Roberta Base Finetuned Somali
Apache-2.0
大規模言語モデル Transformers
X
Davlan
81
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase