cat_dog_sounds_classificationオープンソース音声認識モデル - 猫と犬の鳴き声を正確に区別、便利で無料！

Home

Cat Dog Sounds Classification

Developed by dima806

wav2vec 2.0アーキテクチャに基づく音声認識の基本モデルで、960時間の英語音声データで事前学習済み

音声分類

Transformers

Open Source License:Apache-2.0 #音声分類 #ペットの音声認識 #wav2vec2-base

Downloads 25

Release Time : 8/26/2023

Model Overview

このモデルは自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。Transformerアーキテクチャに基づいており、汎用的な音声認識タスクに適しています。

Model Features

エンドツーエンド音声認識

生の音声波形から直接学習し、人手による特徴抽出が不要

自己教師あり事前学習

大量のラベルなし音声データを活用した事前学習で、モデルの汎化性能を向上

効率的なTransformerアーキテクチャ

改良されたTransformer構造を採用し、音声シーケンス処理の効率を最適化

Model Capabilities

英語音声認識

音声からテキストへの変換

連続音声認識

Use Cases

音声文字起こし

会議議録の自動化

会議の録音を自動的に文字記録に変換

字幕生成

動画コンテンツに自動的に英語字幕を生成

音声アシスタント

音声コマンド認識

スマートホームデバイスの音声制御に使用

属性	详情
ベースモデル	facebook/wav2vec2-base-960h
ライセンス	Apache 2.0

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Cat Dog Sounds Classification

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 猫と犬の音分類器

🚀 クイックスタート

📄 ライセンス