sage - fredt5 - distilled - 95mオープンソースモデル - 無料でロシア語のスペル、句読点、大文字小文字の誤りを訂正

ホーム

Sage Fredt5 Distilled 95m

ai-foreverによって開発

FRED-T5-1.7Bアーキテクチャに基づく蒸留モデルで、ロシア語のスペル、句読点、大文字小文字の誤りを自動修正

テキスト生成

Transformers

その他オープンソースライセンス:MIT #ロシア語スペル修正 #句読点修正 #多分野適応

ダウンロード数 1,553

リリース時間 : 3/11/2024

モデル概要

このモデルはテキスト内の全ての単語をロシア語標準形に正規化し、スペルミス、句読点の誤り、タイプミスを修正します。人工的に生成された誤りを含む広範なデータセットで訓練されており、様々なテキスト修正シナリオに適用可能です。

モデル特徴

複数誤りタイプ修正

スペルミス、句読点の誤り、大文字小文字の誤りを同時に処理

合成データ訓練

SAGEライブラリを使用して訓練データ内の誤りを自動生成し、幅広い誤りタイプをカバー

分野適応性

一般テキストと特定分野（医療など）の両方で良好な性能を発揮

モデル能力

ロシア語スペル修正

句読点修正

大文字小文字正規化

タイプミス修正

使用事例

テキスト処理

ソーシャルメディアテキスト修正

ユーザー生成コンテンツのスペルや文法誤りを修正

LiveJournalデータセットでF1スコア78.9を達成

専門文書校正

医療文書などの専門テキストを自動チェック

医療データセットでF1スコア64.9を達成

コンテンツ制作

自動字幕修正

動画文字起こしテキストの誤りを修正

🚀 sage-fredt5-distilled-95m

このモデルは、テキスト内の全ての単語をロシア語の規範に合わせることで、スペルや句読点の誤り、タイポを修正します。コレクターは、FRED - T5 - 1.7B アーキテクチャをベースにトレーニングされた元のモデルの蒸留バージョンです。トレーニングコーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されました。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGE ライブラリを使用して自動的にタイポやスペルミスが導入されました。

🚀 クイックスタート

このモデルを使用するには、以下のPythonコードを実行します。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")

model.to("cuda")

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

✨ 主な機能

ロシア語のテキストにおけるスペルと句読点の誤り、タイポを修正します。
蒸留バージョンであり、効率的な性能を提供します。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")

model.to("cuda")

sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["И не ясно прохожим в этот день непогожий, почему я весёлый такой?"]

📚 ドキュメント

公開されている参考文献

入出力の例

入力	出力
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я весёлый такой?
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай, и спена болеть не будет. А вот так каждый день — ни делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.

評価指標

品質

以下は、スペルチェッカーの正確性を判断するための自動評価指標です。利用可能な4つのデータセットすべてにおいて、当社のソリューションをオープンな自動スペルチェッカーとChatGPTファミリーのモデルと比較しています。

RUSpellRU：(LiveJournal) から収集され、手動で修正されたタイポと誤りを含むテキスト。
MultidomainGold：オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など7つのテキストソースからの例。
MedSpellChecker：医療アナムネシスからの誤りを含むテキスト。
GitHubTypoCorpusRu：GitHub のコミットにおけるスペルミスとタイポ。

RUSpellRU

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-distilled-95m	83.5	74.8	78.9	86.8	80.6	83.6	94.4	92.5	93.5
sage-ai-service	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
gpt-3.5-turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt-4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-distilled-95m	77.2	69.9	73.4	66.8	63.4	65.0	76.8	79.1	77.9
sage-ai-service	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
gpt-3.5-turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt-4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-distilled-95m	65.1	64.8	64.9	78.6	63.1	70.0	63.5	74.7	68.7
sage-ai-service	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
gpt-3.5-turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt-4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu

モデル	Pr. (spell)	Rec. (spell)	F1 (spell)	Pr. (punc)	Rec. (punc)	F1 (punc)	Pr. (case)	Rec. (case)	F1 (case)
sage-fredt5-distilled-95m	57.8	48.5	52.7	45.2	39.5	42.1	29.9	46.2	36.3
sage-ai-service	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
gpt-3.5-turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt-4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2