sbert_punc_case_ruオープンソースのロシア語モデル - 音声認識後のテキストの句読点と大小文字の復元をサポート

ホーム

Sbert Punc Case Ru

kontur-aiによって開発

SbertPuncCaseは、ロシア語の句読点と大文字小文字を復元するモデルで、音声認識後のテキスト復元用に設計されています。

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語の句読点復元 #音声テキストの後処理 #大文字小文字の校正

ダウンロード数 2,731

リリース時間 : 7/21/2022

モデル概要

このモデルは、ロシア語のテキストに句点、コンマ、疑問符を追加し、単語の大文字小文字の形式（すべて小文字、先頭の文字が大文字、すべて大文字）を判断することができます。sbert_large_nlu_ruをベースに構築され、学習データはインタビューの書き起こし内容から取得されています。

モデル特徴

句読点復元

句点、コンマ、疑問符などの基本的な句読点を自動的に追加することができます。

大文字小文字復元

単語の正しい大文字小文字の形式（すべて小文字、先頭の文字が大文字、すべて大文字）を判断することができます。

音声認識最適化

音声認識後のテキストに特化して最適化されており、すべて小文字の入力を処理します。

ロシア語専用

ロシア語のテキスト用に特別に設計され、ロシア語の事前学習モデルをベースに構築されています。

モデル能力

句読点復元

大文字小文字復元

ロシア語テキスト処理

使用事例

音声認識後処理

音声を文字に変換した後の句読点復元

音声認識で生成された句読点のない、すべて小文字のテキストを規範的な書面形式に変換します。

句読点と正しい大文字小文字の形式を復元します。

テキスト規範化

非規範的なテキストの処理

ソーシャルメディアや即時通信の非規範的なテキストを処理します。

書面語の規範に合ったテキストを生成します。

🚀 SbertPuncCase

SbertPuncCaseは、ロシア語の句読点と大文字小文字を復元するモデルです。このモデルは、句点、コンマ、疑問符を挿入することができ、また、単語の大文字小文字を判断することができます。つまり、小文字の単語、先頭の文字が大文字の単語、すべて大文字の単語を識別できます。このモデルは、音声認識後のテキストを復元するために開発されたため、小文字の文字列で動作します。モデルの基礎となったのは sbert_large_nlu_ru です。学習データとしては、インタビューのテキスト書き起こしが使用されています。

🚀 クイックスタート

このモデルは、ロシア語の句読点と大文字小文字を復元するために使用されます。以下に、モデルの動作原理と使用方法を説明します。

✨ 主な機能

ロシア語の句読点（句点、コンマ、疑問符）を自動的に挿入することができます。
単語の大文字小文字を正しく判断し、復元することができます。
音声認識後の小文字のテキストに対して効果的に動作します。

📦 インストール

git-lfs がインストールされていることを確認してください。
以下のコマンドを使用して、モデルを迅速にインストールすることができます。

pip install git+https://huggingface.co/kontur-ai/sbert_punc_case_ru

💻 使用例

基本的な使用法

from sbert_punc_case_ru import SbertPuncCase
model = SbertPuncCase()
model.punctuate("sbert punc case расставляет точки запятые и знаки вопроса вам нравится")

📚 ドキュメント

動作原理

テキストは小文字に変換され、単語に分割されます。
単語はトークンに分割されます。
モデルは（NERタスクと同様に）各トークンのクラスを予測します。12のクラスに分類されます：3 + 1 の句読点 * 3 種類の大文字小文字のパターン。
デコード関数が、予測されたクラスに従ってテキストを復元します。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

👥 作者

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | SbertPuncCase - ロシア語の句読点と大文字小文字を復元するモデル |
| 学習データ | インタビューのテキスト書き起こし |
| ベースモデル | [sbert_large_nlu_ru](https://huggingface.co/sberbank-ai/sbert_large_nlu_ru) |
| 推論 | 無効 |
| ライセンス | Apache-2.0 |
| タグ | PyTorch, Transformers |