distilbert_punctuator_enオープンソースモデル - 無句読の英語テキストに無料で句読点を復元

ホーム

Distilbert Punctuator En

Qishuaiによって開発

DistilBERTを微調整した英文テキストの句読点復元モデルで、句読点のない小文字の英文テキストに句読点を付けるために設計されています。

シーケンスラベリング

Transformers

#英文の句読点復元 #ニューステキスト処理 #軽量BERT

ダウンロード数 55

リリース時間 : 3/2/2022

モデル概要

このモデルは、句読点のない小文字の英文テキストに自動的にコンマ、ピリオド、疑問符、感嘆符などの句読点を付け、テキストの読みやすさを向上させます。

モデル特徴

高効率で軽量

DistilBERTアーキテクチャに基づいており、高い性能を維持しながらモデルサイズと計算リソースの要求を削減します。

多源訓練データ

BBCニュース、ニュース記事、TEDスピーチの3つの異なるソースのテキストデータを統合し、モデルの汎化能力を強化します。

句読点タイプのカバー

コンマ、ピリオド、疑問符、感嘆符の4種類の一般的な英文句読点の復元をサポートします。

モデル能力

英文テキストの句読点復元

句読点のないテキスト処理

小文字テキストの正規化

使用事例

テキスト前処理

音声文字変換後の処理

音声認識システムの出力する句読点のないテキストに句読点を付けます。

転写テキストの読みやすさと後続の処理効果を向上させます。

ニューステキストの正規化

ウェブから収集した句読点のないニューステキストを処理します。

ニュースコンテンツを出版基準により適合させます。

執筆支援

高速執筆支援

高速入力された句読点のないテキストに自動的に句読点を付けます。

執筆効率を向上させ、後の編集作業を減らします。

🚀 大文字小文字を区別しない英語用の句読点付与モデル

このモデルは、DistilBertForTokenClassification をベースにファインチューニングされており、平文（大文字小文字を区別しない英語）に句読点を付与するために使用されます。

🚀 クイックスタート

💻 使用例

基本的な使用法

from transformers import DistilBertForTokenClassification, DistilBertTokenizerFast

model = DistilBertForTokenClassification.from_pretrained("Qishuai/distilbert_punctuator_en")
tokenizer = DistilBertTokenizerFast.from_pretrained("Qishuai/distilbert_punctuator_en")

📚 ドキュメント

モデル概要

学習データ

以下の3つのデータセットを組み合わせたものです：

BBCニュース：2004年から2005年までの5つのトピック領域の記事に対応するBBCニュースウェブサイトからのデータ。参照
ニュース記事：2017年2月から2017年8月までにHindu、Indian times、Guardianからスクレイピングされた20000件の短いニュース記事のサンプル。参照
Tedトーク：2004年から2019年までの4000以上のTedトークの文字起こし。参照

モデルの性能

https://www.thenews.com.pk ウェブサイトからスクレイピングされたデータセットの500サンプルでの検証。参照

評価指標レポート：

	適合率	再現率	F1値	サポート
COMMA	0.66	0.55	0.60	7064
EXLAMATIONMARK	1.00	0.00	0.00	5
PERIOD	0.73	0.63	0.68	6573
QUESTIONMARK	0.54	0.41	0.47	17
micro avg	0.69	0.59	0.64	13659
macro avg	0.73	0.40	0.44	13659
weighted avg	0.69	0.59	0.64	13659

学習データセットに含まれていない2020年の86件のニュースTedトークでの検証。参照

評価指標レポート：

	適合率	再現率	F1値	サポート
COMMA	0.71	0.56	0.63	10712
EXLAMATIONMARK	0.45	0.07	0.12	75
PERIOD	0.75	0.65	0.70	7921
QUESTIONMARK	0.73	0.67	0.70	827
micro avg	0.73	0.60	0.66	19535
macro avg	0.66	0.49	0.53	19535
weighted avg	0.73	0.60	0.66	19535

属性	详情
模型类型	大文字小文字を区別しない英語用の句読点付与モデル
训练数据	BBCニュース、ニュース記事、Tedトークのデータセットを組み合わせたもの