ruT5-ASR-large開源模型 - 免費糾正俄語語音識別錯誤並恢復標點大小寫

首頁

Rut5 ASR Large

由bond005開發

基於ruT5-large架構的俄語ASR輸出校正模型，用於糾正語音識別錯誤、恢復標點及大小寫

文本生成

Transformers

其他開源協議:Apache-2.0 #俄語ASR糾錯 #標點恢復 #大小寫校正

下載量 266

發布時間 : 6/22/2023

模型概述

該模型專門用於自動語音識別(ASR)輸出的後處理，可糾正識別錯誤、恢復標點符號和大小寫格式，特別針對Wav2Vec2-Large-Ru-Golos的輸出優化

模型特點

ASR輸出增強

針對俄語語音識別結果進行智能校正，提升文本可讀性

標點符號恢復

自動補全句子標點符號，包括句號、逗號等基本標點

大小寫規範化

自動修正專有名詞和句子開頭的大小寫格式

基於T5架構

利用ruT5-large的強大序列轉換能力進行文本重構

模型能力

語音識別後處理

文本錯誤糾正

標點符號恢復

大小寫規範化

俄語文本重構

使用案例

語音識別增強

ASR輸出校正

修正Wav2Vec2等ASR系統輸出的識別錯誤

示例顯示能修正語義錯誤並添加缺失標點

會議記錄處理

對語音轉文字結果進行自動化後處理

提升轉錄文本的可讀性和專業性

文本規範化

音頻轉錄後處理

為語音識別生成的原始文本添加標點和正確大小寫

輸出符合出版標準的格式化文本

🚀 ruT5-ASR-large

ruT5-ASR-large 模型由 bond005 訓練，用於糾正自動語音識別（ASR）輸出中的錯誤、恢復標點和大小寫（特別是 Wav2Vec2-Large-Ru-Golos 的輸出）。該模型基於 ruT5-large 構建。

🚀 快速開始

安裝依賴

運行代碼前，請確保已經安裝了 transformers 和 torch 庫。可以使用以下命令進行安裝：

pip install transformers torch

代碼示例

from transformers import T5ForConditionalGeneration
from transformers import GenerationConfig
from transformers import T5Tokenizer
import torch


def restore_text(text: str, tokenizer: T5Tokenizer, config: GenerationConfig,
                 model: T5ForConditionalGeneration) -> str:
    if len(text) == 0:  # if an input text is empty, then we return an empty text too
        return ''
    x = tokenizer(text, return_tensors='pt', padding=True).to(model.device)
    max_size = int(x.input_ids.shape[1] * 2.0 + 10)
    min_size = 3
    if x.input_ids.shape[1] <= min_size:
        return text
    out = model.generate(**x, generation_config=config, max_length=max_size)
    res = tokenizer.decode(out[0], skip_special_tokens=True).strip()
    return ' '.join(res.split())


# load model and tokenizer
tokenizer_for_restoring = T5Tokenizer.from_pretrained('bond005/ruT5-ASR-large')
model_for_restoring = T5ForConditionalGeneration.from_pretrained('bond005/ruT5-ASR-large')
config_for_restoring = GenerationConfig.from_pretrained('bond005/ruT5-ASR-large')
if torch.cuda.is_available():
    model_for_restoring = model_for_restoring.cuda()

input_examples = [
    'краеугольным камнем любышь алгоритных машиного обучения является преждес его ' \
    'обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая ' \
    'выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной ' \
    'задачи мы минимизируем в функцию ошибки по параметрам нашей модели на обучающие ' \
    'выбрать но на самом деле хотим там и не этого ' \
    'мы не обучающую ошибку хотим минимизировать',  # 0
    'максимально ухучать идеальную систему в воде туда какие то элементы или условия ' \
    'чтобы итоговое результат должен быть такой мы должны в двадцать два раза ' \
    'замедлить нашу разработку'  # 1
]

for idx, val in enumerate(input_examples):
    restored = restore_text(val, tokenizer_for_restoring,
                            config_for_restoring, model_for_restoring)
    print('==========')
    print(f'示例 {idx + 1}')
    print('==========')
    print('')
    print('恢復前的ASR輸出:')
    print('')
    print(val)
    print('')
    print('恢復後的輸出:')
    print('')
    print(restored)
    print('')

運行結果

==========
示例 1
==========

恢復前的ASR輸出:

краеугольным камнем любышь алгоритных машиного обучения является преждес его обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной задачи мы минимизируем в функцию ошибки по параметрам нашей модели на обучающие выбрать но на самом деле хотим там и не этого мы не обучающую ошибку хотим минимизировать

恢復後的輸出:

Краеугольным камнем любого алгоритма машинного обучения является прежде всего его общая способность. Тогда мы обучаем некоторую модель, у нас есть обучающая выборка, у нас есть критическая ошибка, и наша задача сводится в общем к компенсационной задаче. Мы минимизируем функцию ошибки по параметрам нашей модели на обучающую выборку, но на самом деле хотим там и не этого. Мы не обучающую ошибку хотим минимизировать.

==========
示例 2
==========

恢復前的ASR輸出:

максимально ухучать идеальную систему в воде туда какие то элементы или условия чтобы итоговое результат должен быть такой мы должны в двадцать два раза замедлить нашу разработку

恢復後的輸出:

Максимально ухудшать идеальную систему, вводить туда какие-то элементы или условия. Чтобы итоговый результат должен быть такой, мы должны в 22 раза замедлить нашу разработку.