whisper-ner-v1オープンソースモデル - 音声文字起こしとオープン型エンティティ認識を無料で実現

ホーム

Whisper Ner V1

aiolaによって開発

WhisperNERは、音声文字起こしとエンティティ認識を同時に行うことができる新しいモデルで、オープン型の固有表現認識（NER）をサポートしています。

音声認識

Safetensors

複数言語対応オープンソースライセンス:MIT #音声エンティティ認識 #オープン型NER #マルチタスクASR

ダウンロード数 174

リリース時間 : 9/23/2024

モデル概要

WhisperNERは強力な基礎モデルで、NER付きの自動音声認識（ASR）の下流タスクに適しており、特定のデータセットで微調整することで性能を向上させることができます。

モデル特徴

音声文字起こしとエンティティ認識の統合

音声文字起こしとエンティティ認識を同時に行うことができ、オープン型の固有表現認識（NER）をサポートしています。

オープン型NERサポート

推論時に多様で変化するエンティティを認識することができます。

微調整可能な基礎モデル

NER付きの自動音声認識（ASR）の下流タスクに適しており、特定のデータセットで微調整することで性能を向上させることができます。

モデル能力

音声文字起こし

固有表現認識

オープン型エンティティ認識

使用事例

音声テキスト変換とエンティティ抽出

会議記録とエンティティ抽出

会議の録音をテキストに変換し、重要なエンティティ（人名、会社名、場所など）を抽出します。

会議記録の効率と検索可能性を向上させます。

ニュース音声分析

ニュース放送の音声を分析し、重要な人物、組織、場所の情報を抽出します。

ニュースの要約とエンティティ索引を迅速に生成します。

🚀 Whisper-NER

WhisperNERは、音声文字起こしとエンティティ認識を同時に行うことができる新しいモデルです。オープン型の固有表現認識（NER）をサポートし、推論時に多様で進化するエンティティの認識を可能にします。

デモ: https://huggingface.co/spaces/aiola/whisper-ner-v1
論文: WhisperNER: Unified Open Named Entity and Speech Recognition
コード: https://github.com/aiola-lab/whisper-ner

🚀 クイックスタート

WhisperNERは、固有表現認識付きの自動音声認識（ASR）の下流タスクの強力なベースモデルとして設計されており、特定のデータセットでファインチューニングすることで性能を向上させることができます。

✨ 主な機能

音声文字起こしと固有表現認識の同時実行
オープン型の固有表現認識をサポート

📚 ドキュメント

訓練の詳細

aiola/whisper-ner-v1は、NuNERデータセットで訓練され、音声文字起こしとNERタグ付けを同時に行うことができます。このモデルは英語データのみで訓練および評価されています。詳細については論文を参照してください。

使用方法

以下のコードを使用して推論を行うことができます（推論コードと詳細についてはwhisper-nerリポジトリを参照）。

基本的な使用法

import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration

model_path = "aiola/whisper-ner-v1"
audio_file_path = "path/to/audio/file"
prompt = "person, company, location"  # comma separated entity tags
    
# load model and processor from pre-trained
processor = WhisperProcessor.from_pretrained(model_path)
model = WhisperForConditionalGeneration.from_pretrained(model_path)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

# load audio file: user is responsible for loading the audio files themselves
target_sample_rate = 16000
signal, sampling_rate = torchaudio.load(audio_file_path)
resampler = torchaudio.transforms.Resample(sampling_rate, target_sample_rate)
signal = resampler(signal)
# convert to mono or remove first dim if needed
if signal.ndim == 2:
    signal = torch.mean(signal, dim=0)
# pre-process to get the input features
input_features = processor(
    signal, sampling_rate=target_sample_rate, return_tensors="pt"
).input_features
input_features = input_features.to(device)

prompt_ids = processor.get_prompt_ids(prompt.lower(), return_tensors="pt")
prompt_ids = prompt_ids.to(device)

# generate token ids by running model forward sequentially
with torch.no_grad():
    predicted_ids = model.generate(
        input_features,
        prompt_ids=prompt_ids,
        generation_config=model.generation_config,
        language="en",
    )

# post-process token ids to text, remove prompt
transcription = processor.batch_decode(
    predicted_ids, skip_special_tokens=True
)[0]
print(transcription)