🚀 sage-fredt5-distilled-95m
このモデルは、テキスト内の全ての単語をロシア語の規範に合わせることで、スペルや句読点の誤り、タイポを修正します。コレクターは、FRED - T5 - 1.7B アーキテクチャをベースにトレーニングされた元のモデルの蒸留バージョンです。トレーニングコーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されました。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGE ライブラリを使用して自動的にタイポやスペルミスが導入されました。
🚀 クイックスタート
このモデルを使用するには、以下のPythonコードを実行します。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model.to("cuda")
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
✨ 主な機能
- ロシア語のテキストにおけるスペルと句読点の誤り、タイポを修正します。
- 蒸留バージョンであり、効率的な性能を提供します。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-fredt5-distilled-95m")
model.to("cuda")
sentence = "И не чсно прохожим в этот день непогожйи почему я веселый такйо"
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
📚 ドキュメント
公開されている参考文献
入出力の例
入力 |
出力 |
И не чсно прохожим в этот день непогожйи почему я веселый такйо |
И не ясно прохожим в этот день непогожий, почему я весёлый такой? |
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай |
Каждый день вот так делай, и спена болеть не будет. А вот так каждый день — ни делай. |
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования. |
Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования. |
評価指標
品質
以下は、スペルチェッカーの正確性を判断するための自動評価指標です。利用可能な4つのデータセットすべてにおいて、当社のソリューションをオープンな自動スペルチェッカーとChatGPTファミリーのモデルと比較しています。
- RUSpellRU:(LiveJournal) から収集され、手動で修正されたタイポと誤りを含むテキスト。
- MultidomainGold:オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など7つのテキストソースからの例。
- MedSpellChecker:医療アナムネシスからの誤りを含むテキスト。
- GitHubTypoCorpusRu:GitHub のコミットにおけるスペルミスとタイポ。
RUSpellRU
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-distilled-95m |
83.5 |
74.8 |
78.9 |
86.8 |
80.6 |
83.6 |
94.4 |
92.5 |
93.5 |
sage-ai-service |
90.3 |
86.3 |
88.2 |
90.3 |
86.6 |
88.4 |
95.2 |
95.9 |
95.6 |
gpt-3.5-turbo |
33.6 |
58.5 |
42.7 |
85.9 |
64.6 |
73.7 |
84.9 |
73.9 |
79.0 |
gpt-4 |
54.9 |
76.7 |
64.0 |
84.0 |
82.3 |
83.2 |
91.5 |
90.2 |
90.9 |
MultidomainGold
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-distilled-95m |
77.2 |
69.9 |
73.4 |
66.8 |
63.4 |
65.0 |
76.8 |
79.1 |
77.9 |
sage-ai-service |
81.6 |
77.7 |
79.6 |
70.2 |
67.5 |
68.8 |
80.5 |
80.5 |
80.5 |
gpt-3.5-turbo |
18.8 |
48.1 |
27.1 |
42.0 |
31.8 |
36.2 |
47.1 |
51.3 |
49.1 |
gpt-4 |
25.4 |
68.0 |
37.0 |
57.8 |
54.3 |
56.0 |
54.0 |
67.5 |
60.0 |
MedSpellChecker
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-distilled-95m |
65.1 |
64.8 |
64.9 |
78.6 |
63.1 |
70.0 |
63.5 |
74.7 |
68.7 |
sage-ai-service |
71.3 |
73.5 |
72.4 |
75.1 |
69.2 |
72.0 |
80.9 |
72.8 |
76.6 |
gpt-3.5-turbo |
14.7 |
45.9 |
22.3 |
69.9 |
52.3 |
59.8 |
26.4 |
41.8 |
32.3 |
gpt-4 |
37.8 |
72.3 |
49.6 |
81.4 |
64.3 |
71.9 |
73.0 |
62.1 |
67.1 |
GitHubTypoCorpusRu
モデル |
Pr. (spell) |
Rec. (spell) |
F1 (spell) |
Pr. (punc) |
Rec. (punc) |
F1 (punc) |
Pr. (case) |
Rec. (case) |
F1 (case) |
sage-fredt5-distilled-95m |
57.8 |
48.5 |
52.7 |
45.2 |
39.5 |
42.1 |
29.9 |
46.2 |
36.3 |
sage-ai-service |
70.8 |
56.3 |
62.7 |
48.9 |
35.8 |
41.4 |
32.9 |
45.3 |
38.1 |
gpt-3.5-turbo |
23.7 |
38.7 |
29.4 |
37.6 |
23.3 |
28.7 |
19.6 |
35.9 |
25.3 |
gpt-4 |
27.0 |
52.8 |
35.7 |
45.9 |
32.6 |
38.2 |
25.7 |
36.8 |
30.2 |
制限事項
- 複雑な書式は、出力生成に問題を引き起こす可能性があります。
リソース
🔧 技術詳細
- ファイルサイズ: 0.383 Gb
- フレームワーク: pytorch
- バージョン: v1.0
- 開発者: SberDevices, AGI NLP
📄 ライセンス
当社のソリューションが基になっているモデル FRED - T5 - 1.7B とそのソースコードは、MITライセンスの下で提供されています。当社のソリューションも同様にMITライセンスです。
連絡先
nikita.martynov.98@list.ru