🚀 sage-mt5-large
このモデルは、ロシア語と英語の両方の文章におけるスペルミスやタイプミスを修正し、文章中のすべての単語を言語の規範に合わせます。この修正器は、mT5-large アーキテクチャをベースにトレーニングされています。トレーニングコーパスとして、「人工的」な誤りを含む大規模なデータセットが使用されています。このコーパスは、ロシア語のウィキペディアとロシア語のビデオの文字起こしを基に作成され、その後、SAGE ライブラリを使用して自動的にタイプミスとスペルミスが導入されました。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')
sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
✨ 主な機能
- ロシア語と英語の文章におけるスペルミスやタイプミスを修正します。
- mT5-large アーキテクチャをベースにトレーニングされています。
- 大規模な「人工的」誤りを含むデータセットを使用してトレーニングされています。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')
sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
📚 ドキュメント
公開されている参考文献
入出力の例
入力 |
出力 |
Перведи мне текст на аглиском: "Screw you kuys, I am goin hme (c). |
Переведи мне текст на английском: "Screw you guys, I am going home" (c). |
И не чсно прохожим в этот день непогожйи почему я веселый такйо |
И мне ясно прохожим в этот день непогожий, почему я веселый такой |
If you bought something goregous, you well be very happy. |
If you bought something gorgeous, you will be very happy. |
評価指標
品質
以下は、スペルチェッカーの正確性を判断するための自動評価指標です。私たちは、利用可能なすべての6つのデータセットで、オープンな自動スペルチェッカーとChatGPTファミリーのモデルの両方と私たちのソリューションを比較しています。
- RUSpellRU: (LiveJournal) から収集されたテキストで、手動で修正されたタイプミスと誤りが含まれています。
- MultidomainGold: オープンウェブ、ニュース、ソーシャルメディア、レビュー、字幕、政策文書、文学作品など7つのテキストソースからの例が含まれています。
- MedSpellChecker: 医療アナムネーシスからの誤りを含むテキストです。
- GitHubTypoCorpusRu: GitHub のコミットに含まれるスペルミスとタイプミスです。
- BEA60K: いくつかのドメインから収集された英語のスペルミスです。
- JFLEG: 約2000のスペルミスを含む1601文の英語の文章です。
RUSpellRU、MultidomainGold、MedSpellChecker、GitHubTypoCorpusRu はロシア語のスペルチェック用のデータセットで、BEA60K と JFLEG は英語用のデータセットです。
RUSpellRU
モデル |
適合率 |
再現率 |
F1値 |
sage-mt5-large |
55.7 |
68.5 |
61.4 |
sage-mt5-large (ft.) |
88.4 |
71.6 |
79.1 |
sage-ai-service |
93.5 |
82.4 |
87.6 |
gpt-3.5-turbo |
39.6 |
62.3 |
48.5 |
gpt-4 |
69.5 |
81.0 |
74.8 |
MultidomainGold
モデル |
適合率 |
再現率 |
F1値 |
sage-mt5-large |
35.4 |
57.9 |
43.9 |
sage-mt5-large (ft.) |
65.3 |
62.7 |
63.9 |
sage-ai-service |
70.9 |
68.8 |
69.9 |
gpt-3.5-turbo |
17.8 |
56.1 |
27.0 |
gpt-4 |
31.1 |
78.1 |
44.5 |
MedSpellChecker
モデル |
適合率 |
再現率 |
F1値 |
sage-mt5-large |
35.1 |
70.8 |
47.0 |
sage-mt5-large (ft.) |
77.7 |
77.5 |
77.6 |
sage-ai-service |
73.4 |
76.2 |
74.9 |
gpt-3.5-turbo |
15.1 |
53.6 |
23.5 |
gpt-4 |
48.9 |
88.7 |
63.1 |
GitHubTypoCorpusRu
モデル |
適合率 |
再現率 |
F1値 |
sage-mt5-large |
47.4 |
53.8 |
50.4 |
sage-mt5-large (ft.) |
69.5 |
46.0 |
55.3 |
sage-ai-service |
76.1 |
51.2 |
61.2 |
gpt-3.5-turbo |
23.7 |
43.9 |
30.8 |
gpt-4 |
34.7 |
60.5 |
44.1 |
BEA60K
モデル |
適合率 |
再現率 |
F1値 |
sage-mt5-large |
64.7 |
83.8 |
73.0 |
gpt-3.5-turbo |
66.9 |
84.1 |
74.5 |
gpt-4 |
68.6 |
85.2 |
76.0 |
Bert (https://github.com/neuspell/neuspell) |
65.8 |
79.6 |
72.0 |
SC-LSTM (https://github.com/neuspell/neuspell) |
62.2 |
80.3 |
72.0 |
JFLEG
モデル |
適合率 |
再現率 |
F1値 |
sage-mt5-large |
74.9 |
88.4 |
81.1 |
gpt-3.5-turbo |
77.8 |
88.6 |
82.9 |
gpt-4 |
77.9 |
88.3 |
82.8 |
Bert (https://github.com/neuspell/neuspell) |
78.5 |
85.4 |
81.8 |
SC-LSTM (https://github.com/neuspell/neuspell) |
80.6 |
86.1 |
83.2 |
制限事項
- ロシア語については、より良い性能を得るためにモデルをファインチューニングすることを推奨します。
リソース
仕様
属性 |
詳情 |
ファイルサイズ |
5 Gb |
フレームワーク |
pytorch |
バージョン |
v1.0 |
開発者 |
SberDevices, AGI NLP |
連絡先
nikita.martynov.98@list.ru
📄 ライセンス
私たちのソリューションが基になっている mT5-large モデルとそのソースコードは、Apache-2.0ライセンスで提供されています。私たちのソリューションは、MITライセンスで提供されています。