🚀 sage-fredt5-large
このモデルは、テキスト内の全ての単語をロシア語の規範に合わせることで、スペルや句読点の誤り、タイプミスを修正します。
🚀 クイックスタート
このモデルは、ロシア語の文章のスペルと句読点の誤りを修正するために開発されました。以下に使用方法の例を示します。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
✨ 主な機能
- ロシア語の文章のスペルと句読点の誤りを修正します。
- 合成誤差生成方法を用いて訓練されたモデルです。
📦 インストール
インストールにはtransformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-large", device_map='cuda')
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
📚 ドキュメント
公開されている参考文献
入出力の例
入力 |
出力 |
И не чсно прохожим в этот день непогожйи почему я веселый такйо |
И не ясно прохожим в этот день непогожий, почему я веселый такой. |
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай |
Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай. |
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования. |
Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования |
評価指標
品質
以下は、スペルチェッカーの正確性を判断するための自動評価指標です。私たちは、利用可能な4つのデータセットすべてで、オープンな自動スペルチェッカーとChatGPTファミリーのモデルの両方と私たちのソリューションを比較しています。
- RUSpellRU:(LiveJournal)から収集されたテキストで、手動で修正されたタイプミスと誤りが含まれています。
- MultidomainGold:オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など、7つのテキストソースからの例です。
- MedSpellChecker:医療アナムネーシスからの誤りを含むテキストです。
- GitHubTypoCorpusRu:GitHubのコミット内のスペルミスとタイプミスです。
RUSpellRU
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-large |
57.3 |
68.0 |
62.2 |
86.7 |
46.1 |
60.2 |
92.1 |
67.8 |
78.1 |
sage-fredt5-large (ft) |
88.4 |
80.9 |
84.5 |
88.2 |
85.3 |
86.8 |
95.5 |
94.0 |
94.7 |
sage-ai-service |
90.3 |
86.3 |
88.2 |
90.3 |
86.6 |
88.4 |
95.2 |
95.9 |
95.6 |
gpt-3.5-turbo |
33.6 |
58.5 |
42.7 |
85.9 |
64.6 |
73.7 |
84.9 |
73.9 |
79.0 |
gpt-4 |
54.9 |
76.7 |
64.0 |
84.0 |
82.3 |
83.2 |
91.5 |
90.2 |
90.9 |
MultidomainGold
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-large |
43.4 |
49.7 |
46.3 |
21.8 |
21.3 |
21.6 |
58.8 |
23.9 |
34.0 |
sage-fredt5-large (ft) |
80.3 |
75.1 |
77.6 |
69.0 |
66.5 |
67.7 |
78.6 |
80.0 |
79.3 |
sage-ai-service |
81.6 |
77.7 |
79.6 |
70.2 |
67.5 |
68.8 |
80.5 |
80.5 |
80.5 |
gpt-3.5-turbo |
18.8 |
48.1 |
27.1 |
42.0 |
31.8 |
36.2 |
47.1 |
51.3 |
49.1 |
gpt-4 |
25.4 |
68.0 |
37.0 |
57.8 |
54.3 |
56.0 |
54.0 |
67.5 |
60.0 |
MedSpellChecker
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-large |
35.2 |
54.5 |
42.8 |
19.2 |
13.2 |
15.7 |
48.7 |
36.8 |
41.9 |
sage-fredt5-large (ft) |
72.5 |
72.2 |
72.3 |
74.6 |
66.4 |
70.3 |
79.3 |
85.1 |
82.1 |
sage-ai-service |
71.3 |
73.5 |
72.4 |
75.1 |
69.2 |
72.0 |
80.9 |
72.8 |
76.6 |
gpt-3.5-turbo |
14.7 |
45.9 |
22.3 |
69.9 |
52.3 |
59.8 |
26.4 |
41.8 |
32.3 |
gpt-4 |
37.8 |
72.3 |
49.6 |
81.4 |
64.3 |
71.9 |
73.0 |
62.1 |
67.1 |
GitHubTypoCorpusRu
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-large |
46.0 |
46.6 |
46.3 |
22.7 |
18.3 |
20.2 |
12.0 |
13.2 |
12.6 |
sage-fredt5-large (ft) |
67.5 |
53.2 |
59.5 |
48.5 |
38.0 |
42.6 |
37.3 |
50.0 |
42.7 |
sage-ai-service |
70.8 |
56.3 |
62.7 |
48.9 |
35.8 |
41.4 |
32.9 |
45.3 |
38.1 |
gpt-3.5-turbo |
23.7 |
38.7 |
29.4 |
37.6 |
23.3 |
28.7 |
19.6 |
35.9 |
25.3 |
gpt-4 |
27.0 |
52.8 |
35.7 |
45.9 |
32.6 |
38.2 |
25.7 |
36.8 |
30.2 |
🔧 技術詳細
このモデルは、FRED-T5-largeモデルをベースに訓練されています。訓練コーパスとして、「人工的な」誤りを含む大規模なデータセットが使用されています。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGEライブラリを使用して自動的にタイプミスとスペルミスが導入されました。
📄 ライセンス
私たちのソリューションが基になっているFRED-T5-largeモデルとそのソースコードは、MITライセンスの下で提供されています。私たちのソリューションもMITライセンスです。
仕様
属性 |
詳情 |
モデルタイプ |
sage-fredt5-large |
訓練データ |
ロシア語のウィキペディアとロシア語のビデオの文字起こしに人工的な誤りを導入したデータセット |
ファイルサイズ |
3.3 Gb |
フレームワーク |
pytorch |
バージョン |
v1.0 |
開発者 |
SberDevices, AGI NLP |
制限事項
- このモデルは、より良いパフォーマンスを得るために、自然な誤りを含むセットでファインチューニングすることを目的としています。実装されたモデルは事前学習モデルであり、事前学習タスクは、コーパス内のノイズの密度とその起源の点で通常のスペルチェックとは異なります。
- 複雑な書式設定は、出力生成にいくつかの問題を引き起こす可能性があります。
リソース
連絡先
nikita.martynov.98@list.ru