P

Phi 4 Multimodal Instruct Commonvoice Zh Tw

JacobLinCoolによって開発
microsoft/Phi-4-multimodal-instructをファインチューニングした台湾標準中国語音声認識モデルで、台湾標準中国語汎用音声19.0データセットでトレーニング済み
ダウンロード数 28
リリース時間 : 3/13/2025

モデル概要

台湾標準中国語(zh-TW)に最適化された自動音声認識モデルで、台湾標準中国語音声を繁体字中国語テキストに変換可能

モデル特徴

台湾標準中国語最適化
台湾標準中国語の音声パターンと語彙に特化して最適化
マルチモーダル能力
マルチモーダル基盤モデルをベースに、音声入力を処理する能力を有する
効率的なファインチューニング
LoRAアダプターを使用した効率的なファインチューニングにより、基盤モデルの能力を保持しつつ音声認識性能を最適化

モデル能力

台湾標準中国語音声認識
音声からテキストへの変換
自動字幕生成

使用事例

音声から文字へ
会議議事録
台湾標準中国語の会議録音をテキスト記録に変換
CER 6.67%, WER 31.18%
コンテンツ字幕
台湾標準中国語の動画コンテンツに自動字幕を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase