wav2vec2-large-superb-ic開源語音意圖識別模型，精準識別語音指令意圖

首頁

Wav2vec2 Large Superb Ic

由superb開發

基於Wav2Vec2-Large-LV60的意圖分類模型，在SUPERB意圖分類任務上微調，用於語音指令的意圖識別

音頻分類

Transformers

英語開源協議:Apache-2.0 #語音意圖識別 #多標籤分類 #16kHz音頻處理

下載量 110

發布時間 : 3/2/2022

模型概述

該模型是基於Facebook的wav2vec2-large-lv60模型在SUPERB意圖分類任務上的微調版本，專門用於識別語音指令中的動作、對象和位置意圖。

模型特點

高準確率

在SUPERB測試集上達到95.28%的準確率

多標籤分類

可同時識別語音指令中的動作、對象和位置三個維度的意圖

16kHz音頻支持

專門針對16kHz採樣的語音音頻優化

模型能力

語音意圖識別

多標籤分類

語音指令理解

使用案例

智能家居

語音控制指令理解

識別用戶對智能設備的控制指令，如'打開廚房的燈'

準確識別動作(打開)、對象(燈)和位置(廚房)

語音助手

用戶意圖理解

理解用戶語音指令的深層意圖

幫助語音助手更準確地響應用戶請求

🚀 Wav2Vec2-Large用於意圖分類

本模型是一個用於語音意圖分類的模型，基於預訓練的Wav2Vec2架構，能有效對語音中的意圖進行分類，在相關語音數據集上表現良好。

🚀 快速開始

本模型可直接用於語音意圖分類任務，使用時需確保輸入語音採樣率為16kHz。

✨ 主要特性

基於 wav2vec2-large-lv60 預訓練模型，在16kHz採樣的語音音頻上進行了預訓練。
適用於SUPERB基準測試中的意圖分類任務，使用 Fluent Speech Commands 數據集。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor

def map_to_array(example):
    speech, _ = librosa.load(example["file"], sr=16000, mono=True)
    example["speech"] = speech
    return example

# load a demo dataset and read audio files
dataset = load_dataset("anton-l/superb_demo", "ic", split="test")
dataset = dataset.map(map_to_array)

model = Wav2Vec2ForSequenceClassification.from_pretrained("superb/wav2vec2-large-superb-ic")
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("superb/wav2vec2-large-superb-ic")

# compute attention masks and normalize the waveform if needed
inputs = feature_extractor(dataset[:4]["speech"], sampling_rate=16000, padding=True, return_tensors="pt")

logits = model(**inputs).logits

action_ids = torch.argmax(logits[:, :6], dim=-1).tolist()
action_labels = [model.config.id2label[_id] for _id in action_ids]

object_ids = torch.argmax(logits[:, 6:20], dim=-1).tolist()
object_labels = [model.config.id2label[_id + 6] for _id in object_ids]

location_ids = torch.argmax(logits[:, 20:24], dim=-1).tolist()
location_labels = [model.config.id2label[_id + 20] for _id in location_ids]

高級用法

文檔未提及高級用法相關代碼，故跳過此部分。

📚 詳細文檔

模型描述

這是 S3PRL的Wav2Vec2用於SUPERB意圖分類任務的移植版本。基礎模型是 wav2vec2-large-lv60，它在16kHz採樣的語音音頻上進行了預訓練。使用該模型時，請確保您的語音輸入也是16kHz採樣的。更多信息請參考 SUPERB: Speech processing Universal PERformance Benchmark

任務和數據集描述

意圖分類（IC）將話語分類到預定義的類別中，以確定說話者的意圖。SUPERB使用 Fluent Speech Commands 數據集，其中每個話語都標記有三個意圖標籤：動作、對象和位置。有關原始模型的訓練和評估說明，請參考 S3PRL下游任務README。

評估結果

評估指標是準確率。

	s3prl	transformers
測試	`0.9528`	`N/A`

BibTeX引用和引用信息

@article{yang2021superb,
  title={SUPERB: Speech processing Universal PERformance Benchmark},
  author={Yang, Shu-wen and Chi, Po-Han and Chuang, Yung-Sung and Lai, Cheng-I Jeff and Lakhotia, Kushal and Lin, Yist Y and Liu, Andy T and Shi, Jiatong and Chang, Xuankai and Lin, Guan-Ting and others},
  journal={arXiv preprint arXiv:2105.01051},
  year={2021}
}