🚀 マルチ言語句読点予測モデル
このモデルは、英語、イタリア語、フランス語、ドイツ語のテキストの句読点を予測します。音声文字起こしの際に欠落した句読点を復元するために開発されました。
🚀 クイックスタート
このモデルは、英語、イタリア語、フランス語、ドイツ語のテキストの句読点を予測します。音声文字起こしの際に欠落した句読点を復元するために開発されました。
✨ 主な機能
- 英語、イタリア語、フランス語、ドイツ語のテキストの句読点を予測します。
- 音声文字起こしの際に欠落した句読点を復元することができます。
- 以下の句読点マーカーを復元します:"." "," "?" "-" ":"
📦 インストール
このパッケージをpypiからインストールすることで始めることができます。
pip install deepmultilingualpunctuation
💻 使用例
基本的な使用法
句読点の復元
from deepmultilingualpunctuation import PunctuationModel
model = PunctuationModel()
text = "My name is Clara and I live in Berkeley California Ist das eine Frage Frau Müller"
result = model.restore_punctuation(text)
print(result)
出力
My name is Clara and I live in Berkeley, California. Ist das eine Frage, Frau Müller?
ラベルの予測
from deepmultilingualpunctuation import PunctuationModel
model = PunctuationModel()
text = "My name is Clara and I live in Berkeley California Ist das eine Frage Frau Müller"
clean_text = model.preprocess(text)
labled_words = model.predict(clean_text)
print(labled_words)
出力
[['My', '0', 0.9999887], ['name', '0', 0.99998665], ['is', '0', 0.9998579], ['Clara', '0', 0.6752215], ['and', '0', 0.99990904], ['I', '0', 0.9999877], ['live', '0', 0.9999839], ['in', '0', 0.9999515], ['Berkeley', ',', 0.99800044], ['California', '.', 0.99534047], ['Ist', '0', 0.99998784], ['das', '0', 0.99999154], ['eine', '0', 0.9999918], ['Frage', ',', 0.99622655], ['Frau', '0', 0.9999889], ['Müller', '?', 0.99863917]]
高度な使用法
異なるモデルを使用するには、model
パラメータを設定します。
model = PunctuationModel(model = "oliverguhr/fullstop-dutch-punctuation-prediction")
📚 ドキュメント
結果
句読点マーカーによって性能が異なります。多くの場合、ハイフンとコロンはオプションであり、カンマまたはピリオドで置き換えることができます。このモデルは、異なる言語に対して以下のF1スコアを達成しています。
ラベル |
英語 |
ドイツ語 |
フランス語 |
イタリア語 |
0 |
0.991 |
0.997 |
0.992 |
0.989 |
. |
0.948 |
0.961 |
0.945 |
0.942 |
? |
0.890 |
0.893 |
0.871 |
0.832 |
, |
0.819 |
0.945 |
0.831 |
0.798 |
: |
0.575 |
0.652 |
0.620 |
0.588 |
- |
0.425 |
0.435 |
0.431 |
0.421 |
マクロ平均 |
0.775 |
0.814 |
0.782 |
0.762 |
言語とモデル
モデル
コミュニティモデル
コードと独自モデルの訓練
コードはこのリポジトリで確認できます。また、このガイドを参考に、独自のデータや言語でこのモデルを微調整することもできます。
🔧 技術詳細
このマルチ言語モデルは、SEPP-NLG Shared Taskが提供するEuroparl Datasetで訓練されています。このデータセットは政治演説で構成されているため、他のドメインのテキストではモデルの性能が異なる可能性があります。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
参考文献
@article{guhr-EtAl:2021:fullstop,
title={FullStop: Multilingual Deep Models for Punctuation Prediction},
author = {Guhr, Oliver and Schumann, Anne-Kathrin and Bahrmann, Frank and Böhme, Hans Joachim},
booktitle = {Proceedings of the Swiss Text Analytics Conference 2021},
month = {June},
year = {2021},
address = {Winterthur, Switzerland},
publisher = {CEUR Workshop Proceedings},
url = {http://ceur-ws.org/Vol-2957/sepp_paper4.pdf}
}