W

Wav2vec2 Large Chinese Zh Cn

wbbbbbによって開発
XLSR-53大規模モデルをファインチューニングした中国語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
ダウンロード数 585
リリース時間 : 7/18/2022

モデル概要

このモデルは中国語音声認識タスク向けにファインチューニングされたXLSR-53大規模モデルで、Common Voiceなどの中国語音声データセットでトレーニングされており、音声からテキストへの変換タスクに直接使用可能

モデル特徴

中国語音声認識最適化
中国語音声の特徴に特化してファインチューニングされており、中国語音声認識タスクで汎用モデルより優れた性能を発揮
複数データセットでのトレーニング
Common Voice 6.1、CSS10、ST-CMDSなど複数の中国語音声データセットを使用してトレーニング
言語モデル不要
追加の言語モデルなしで直接使用可能

モデル能力

中国語音声認識
音声からテキストへの変換
16kHzオーディオ処理

使用事例

音声文字起こし
会議議事録自動文字起こし
中国語会議録音を自動的に文字記録に変換
音声メモ変換
個人の音声メモを検索可能なテキストに変換
アクセシビリティアプリケーション
リアルタイム字幕生成
聴覚障害ユーザー向けにリアルタイム音声テキスト変換サービスを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase