🚀 アイスランド語用タイポ検出器 🇮🇸
このモデルはアイスランド語の文章に含まれるタイポを検出するためのもので、特定のタスク用の合成データを使用しています。また、モデルの評価スコアが提供されており、Transformersパイプラインを使って簡単に利用できます。
📚 ドキュメント
📦 データセット情報
この特定のタスク用の合成データです。
📊 評価
以下の表は、モデルの全体および各クラスごとのスコアをまとめたものです。
# |
適合率 |
再現率 |
F1スコア |
サポート |
タイポ |
0.98954 |
0.967603 |
0.978448 |
43800.0 |
マイクロ平均 |
0.98954 |
0.967603 |
0.978448 |
43800.0 |
マクロ平均 |
0.98954 |
0.967603 |
0.978448 |
43800.0 |
加重平均 |
0.98954 |
0.967603 |
0.978448 |
43800.0 |
💻 使用例
基本的な使用法
まずは必要なライブラリをインストールします。
pip install transformers
次に、モデルを使ってタイポを検出します。
import torch
from transformers import AutoConfig, AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model_name_or_path = "m3hrdadfi/typo-detector-distilbert-is"
config = AutoConfig.from_pretrained(model_name_or_path)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path, config=config)
nlp = pipeline('token-classification', model=model, tokenizer=tokenizer, aggregation_strategy="average")
高度な使用法
複数の文章に対してタイポを検出する例です。
sentences = [
"Páli, vini mínum, langaði að horfa á sjónnvarpið.",
"Leggir þciðursins eru þaktir fjöðrum til bað edravn fuglnn gekgn kuldanué .",
"Þar hitta þeir konu Björns og segir ovs :",
"Ingvar Sæmundsson ekgk rú sveitinni árið 2015 og etnbeitii sér að hinni þungarokkssvedt svnni Momentum .",
"Þar hitta þeir konu Björns og segir ovs :",
"Var hann síðaún hkluti af leikhópnum sem ferðaðist um Bandaríkin til að sýan söngleikinn ."
]
for sentence in sentences:
typos = [sentence[r["start"]: r["end"]] for r in nlp(sentence)]
detected = sentence
for typo in typos:
detected = detected.replace(typo, f'<i>{typo}</i>')
print(" [Input]: ", sentence)
print("[Detected]: ", detected)
print("-" * 130)
出力例:
[Input]: Páli, vini mínum, langaði að horfa á sjónnvarpið.
[Detected]: Páli, vini mínum, langaði að horfa á <i>sjónnvarpið</i>.
----------------------------------------------------------------------------------------------------------------------------------
[Input]: Leggir þciðursins eru þaktir fjöðrum til bað edravn fuglnn gekgn kuldanué .
[Detected]: Leggir <i>þciðursins</i> eru þaktir fjöðrum til <i>bað</i> <i>edravn</i> <i>fuglnn</i> <i>gekgn</i> <i>kuldanué</i> .
----------------------------------------------------------------------------------------------------------------------------------
[Input]: Þar hitta þeir konu Björns og segir ovs :
[Detected]: Þar hitta þeir konu Björns og segir <i>ovs</i> :
----------------------------------------------------------------------------------------------------------------------------------
[Input]: Ingvar Sæmundsson ekgk rú sveitinni árið 2015 og etnbeitii sér að hinni þungarokkssvedt svnni Momentum .
[Detected]: Ingvar Sæmundsson <i>ekgk</i> <i>rú</i> sveitinni árið 2015 og <i>etnbeitii</i> sér að hinni <i>þungarokkssvedt</i> <i>svnni</i> Momentum .
----------------------------------------------------------------------------------------------------------------------------------
[Input]: Þar hitta þeir konu Björns og segir ovs :
[Detected]: Þar hitta þeir konu Björns og segir <i>ovs</i> :
----------------------------------------------------------------------------------------------------------------------------------
[Input]: Var hann síðaún hkluti af leikhópnum sem ferðaðist um Bandaríkin til að sýan söngleikinn .
[Detected]: Var hann <i>síðaún</i> <i>hkluti</i> af leikhópnum sem ferðaðist um Bandaríkin til að <i>sýan</i> söngleikinn .
----------------------------------------------------------------------------------------------------------------------------------
❓ 質問がある場合
TypoDetectorの問題リポジトリにGitHubのIssueを投稿してください。