模型概述

WhisperNER是一個強大的基礎模型，適用於帶有NER的自動語音識別（ASR）下游任務，並可以通過在特定數據集上進行微調以提升性能。

模型特點

聯合語音轉錄與實體識別

能夠同時進行語音轉錄和實體識別，支持開放類型的命名實體識別（NER）。

開放類型NER支持

能夠在推理時識別多樣且不斷變化的實體。

可微調基礎模型

適用於帶有NER的自動語音識別（ASR）下游任務，並可以通過在特定數據集上進行微調以提升性能。

模型能力

語音轉錄

命名實體識別

開放類型實體識別

使用案例

語音轉文本與實體提取

會議記錄與實體提取

將會議錄音轉換為文本並提取關鍵實體（如人名、公司名、地點等）。

提高會議記錄的效率和可搜索性。

新聞音頻分析

分析新聞廣播音頻，提取關鍵人物、組織和地點信息。

快速生成新聞摘要和實體索引。

許可證: mit
數據集:

numind/NuNER
語言:
en
任務標籤: 自動語音識別
標籤:
asr
自動語音識別
Whisper
命名實體識別

Whisper-NER

演示: https://huggingface.co/spaces/aiola/whisper-ner-v1
論文: WhisperNER: 統一開放的命名實體與語音識別
代碼: https://github.com/aiola-lab/whisper-ner

我們推出了WhisperNER，這是一種新穎的模型，能夠同時進行語音轉錄和實體識別。
WhisperNER支持開放類型的命名實體識別（NER），能夠在推理時識別多樣且不斷變化的實體。

WhisperNER模型設計為一個強大的基礎模型，適用於帶有NER的自動語音識別（ASR）下游任務，並可以通過在特定數據集上進行微調以提升性能。

訓練詳情

aiola/whisper-ner-v1 是在NuNER數據集上訓練的，用於同時執行音頻轉錄和NER標記。
該模型僅在英語數據上進行了訓練和評估。完整細節請參閱論文。

使用方法

可以使用以下代碼進行推理（更多推理代碼和細節請查看whisper-ner倉庫）：

import torch  
from transformers import WhisperProcessor, WhisperForConditionalGeneration  

model_path = "aiola/whisper-ner-v1"  
audio_file_path = "path/to/audio/file"  
prompt = "person, company, location"  # 逗號分隔的實體標籤  

# 從預訓練模型加載模型和處理器  
processor = WhisperProcessor.from_pretrained(model_path)  
model = WhisperForConditionalGeneration.from_pretrained(model_path)  

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  
model = model.to(device)  

# 加載音頻文件：用戶需自行加載音頻文件  
target_sample_rate = 16000  
signal, sampling_rate = torchaudio.load(audio_file_path)  
resampler = torchaudio.transforms.Resample(sampling_rate, target_sample_rate)  
signal = resampler(signal)  
# 轉換為單聲道或根據需要移除第一維度  
if signal.ndim == 2:  
    signal = torch.mean(signal, dim=0)  
# 預處理以獲取輸入特徵  
input_features = processor(  
    signal, sampling_rate=target_sample_rate, return_tensors="pt"  
).input_features  
input_features = input_features.to(device)  

prompt_ids = processor.get_prompt_ids(prompt.lower(), return_tensors="pt")  
prompt_ids = prompt_ids.to(device)  

# 通過順序運行模型前向傳播生成token id  
with torch.no_grad():  
    predicted_ids = model.generate(  
        input_features,  
        prompt_ids=prompt_ids,  
        generation_config=model.generation_config,  
        language="en",  
    )  

# 後處理token id為文本，移除提示  
transcription = processor.batch_decode(  
    predicted_ids, skip_special_tokens=True  
)[0]  
print(transcription)