🚀 德語Bert情感分類模型
本模型用於對德語文本進行情感分類。為達到最佳效果,所有模型輸入都需採用與訓練時相同的預處理步驟。為簡化模型使用,我們提供了一個 Python 包,它集成了預處理和推理所需的代碼。
該模型採用了谷歌的Bert架構,並在183.4萬個德語樣本上進行了訓練。訓練數據包含來自不同領域的文本,如 Twitter、Facebook 以及電影、應用和酒店評論等。你可以在論文中找到有關數據集和訓練過程的更多信息。
🚀 快速開始
📦 安裝指南
要開始使用,可從 pypi 安裝該包:
pip install germansentiment
💻 使用示例
基礎用法
from germansentiment import SentimentModel
model = SentimentModel()
texts = [
"Mit keinem guten Ergebniss","Das ist gar nicht mal so gut",
"Total awesome!","nicht so schlecht wie erwartet",
"Der Test verlief positiv.","Sie fährt ein grünes Auto."]
result = model.predict_sentiment(texts)
print(result)
上述代碼將輸出以下列表:
["negative","negative","positive","positive","neutral", "neutral"]
高級用法
from germansentiment import SentimentModel
model = SentimentModel()
classes, probabilities = model.predict_sentiment(["das ist super"], output_probabilities = True)
print(classes, probabilities)
['positive'] [[['positive', 0.9761366844177246], ['negative', 0.023540444672107697], ['neutral', 0.00032294404809363186]]]
📚 詳細文檔
模型與數據
如果你對訓練此模型所使用的代碼和數據感興趣,請查看 此倉庫 和我們的 論文。以下是該模型在不同數據集上的 F1 分數表。由於我們使用了較新版本的 Transformer 庫來訓練此模型,結果比論文中報告的略好。
屬性 |
詳情 |
模型類型 |
基於谷歌Bert架構的情感分類模型 |
訓練數據 |
包含來自 Twitter、Facebook、電影、應用和酒店評論等不同領域的183.4萬個德語樣本 |
引用
若你有反饋或疑問,請通過郵件或 Twitter @oliverguhr 聯繫我。如果你覺得此模型有用,請引用以下內容:
@InProceedings{guhr-EtAl:2020:LREC,
author = {Guhr, Oliver and Schumann, Anne-Kathrin and Bahrmann, Frank and Böhme, Hans Joachim},
title = {Training a Broad-Coverage German Sentiment Classification Model for Dialog Systems},
booktitle = {Proceedings of The 12th Language Resources and Evaluation Conference},
month = {May},
year = {2020},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {1620--1625},
url = {https://www.aclweb.org/anthology/2020.lrec-1.202}
}
📄 許可證
本項目採用 MIT 許可證。