cat_dog_sounds_classificationオープンソース音声認識モデル - 猫と犬の鳴き声を正確に区別、便利で無料！

ホーム

Cat Dog Sounds Classification

dima806によって開発

wav2vec 2.0アーキテクチャに基づく音声認識の基本モデルで、960時間の英語音声データで事前学習済み

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声分類 #ペットの音声認識 #wav2vec2-base

ダウンロード数 25

リリース時間 : 8/26/2023

モデル概要

このモデルは自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。Transformerアーキテクチャに基づいており、汎用的な音声認識タスクに適しています。

モデル特徴

エンドツーエンド音声認識

生の音声波形から直接学習し、人手による特徴抽出が不要

自己教師あり事前学習

大量のラベルなし音声データを活用した事前学習で、モデルの汎化性能を向上

効率的なTransformerアーキテクチャ

改良されたTransformer構造を採用し、音声シーケンス処理の効率を最適化

モデル能力

英語音声認識

音声からテキストへの変換

連続音声認識

使用事例

音声文字起こし

会議議録の自動化

会議の録音を自動的に文字記録に変換

字幕生成

動画コンテンツに自動的に英語字幕を生成

音声アシスタント

音声コマンド認識

スマートホームデバイスの音声制御に使用

属性	详情
ベースモデル	facebook/wav2vec2-base-960h
ライセンス	Apache 2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Cat Dog Sounds Classification

モデル概要

モデル特徴

モデル能力

使用事例

🚀 猫と犬の音分類器

🚀 クイックスタート

📄 ライセンス