Roberta Base Finetuned Dianping Chinese
模型概述
該系列模型基於UER-py框架微調,專門用於中文文本分類任務,包括情感極性分析和新聞主題分類
模型特點
多領域覆蓋
包含5個不同領域的分類模型,覆蓋電商評論、新聞分類等多種場景
高效微調
基於預訓練RoBERTa模型進行高效微調,在多箇中文分類任務上表現優異
簡單易用
提供HuggingFace接口,可直接通過pipeline進行文本分類
模型能力
中文文本分類
情感極性分析
新聞主題分類
用戶評論分析
使用案例
電商分析
京東評論情感分析
分析京東商品評論的情感極性(正面/負面)
提供二分類和全量多分類兩種模型選擇
新聞分類
新聞主題分類
對新聞首段落進行主題分類(如政治、經濟等)
支持鳳凰新聞和中國新聞兩種分類體系
🚀 中文RoBERTa基礎文本分類模型
本項目提供了一系列用於文本分類的中文RoBERTa基礎模型。這些模型能夠有效處理各類中文文本的分類任務,為中文自然語言處理提供了強大的支持。
🚀 快速開始
模型下載
你可以從 UER-py模型庫頁面 下載這5箇中文RoBERTa基礎分類模型,也可以通過HuggingFace從以下鏈接下載:
模型使用
你可以直接使用該模型進行文本分類(以 roberta-base-finetuned-chinanews-chinese 為例):
>>> from transformers import AutoModelForSequenceClassification,AutoTokenizer,pipeline
>>> model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> text_classification = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
>>> text_classification("北京上個月召開了兩會")
[{'label': 'mainland China politics', 'score': 0.7211663722991943}]
✨ 主要特性
- 基於 UER-py 進行微調,也可通過 TencentPretrain 微調。
- 支持多種中文文本分類數據集,包括用戶評論和新聞文章。
- 可轉換為Huggingface格式,方便使用。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
>>> from transformers import AutoModelForSequenceClassification,AutoTokenizer,pipeline
>>> model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> text_classification = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
>>> text_classification("北京上個月召開了兩會")
[{'label': 'mainland China politics', 'score': 0.7211663722991943}]
📚 詳細文檔
模型描述
這是由 UER-py 微調的5箇中文RoBERTa基礎分類模型,相關內容在 這篇論文 中有所介紹。此外,這些模型也可以通過 TencentPretrain 進行微調,該框架繼承了UER-py,支持參數超過十億的模型,並將其擴展為多模態預訓練框架,相關內容在 這篇論文 中介紹。
訓練數據
使用了5箇中文文本分類數據集。京東全量數據、京東二分類數據和大眾點評數據集包含不同情感極性的用戶評論。鳳凰網和中新網數據集包含不同主題類別的新聞文章的第一段。這些數據由 Glyph 項目收集,更多細節在相應的 論文 中討論。
訓練過程
模型在 騰訊雲 上使用 UER-py 進行微調。我們在預訓練模型 chinese_roberta_L-12_H-768 的基礎上,以512的序列長度進行三個週期的微調。在每個週期結束時,當在開發集上達到最佳性能時保存模型。我們在不同模型上使用相同的超參數。
以 roberta-base-finetuned-chinanews-chinese 為例:
python3 finetune/run_classifier.py --pretrained_model_path models/cluecorpussmall_roberta_base_seq512_model.bin-250000 \
--vocab_path models/google_zh_vocab.txt \
--train_path datasets/glyph/chinanews/train.tsv \
--dev_path datasets/glyph/chinanews/dev.tsv \
--output_model_path models/chinanews_classifier_model.bin \
--learning_rate 3e-5 --epochs_num 3 --batch_size 32 --seq_length 512
最後,我們將預訓練模型轉換為Huggingface格式:
python3 scripts/convert_bert_text_classification_from_uer_to_huggingface.py --input_model_path models/chinanews_classifier_model.bin \
--output_model_path pytorch_model.bin \
--layers_num 12
BibTeX引用和引用信息
@article{liu2019roberta,
title={Roberta: A robustly optimized bert pretraining approach},
author={Liu, Yinhan and Ott, Myle and Goyal, Naman and Du, Jingfei and Joshi, Mandar and Chen, Danqi and Levy, Omer and Lewis, Mike and Zettlemoyer, Luke and Stoyanov, Veselin},
journal={arXiv preprint arXiv:1907.11692},
year={2019}
}
@article{zhang2017encoding,
title={Which encoding is the best for text classification in chinese, english, japanese and korean?},
author={Zhang, Xiang and LeCun, Yann},
journal={arXiv preprint arXiv:1708.02657},
year={2017}
}
@article{zhao2019uer,
title={UER: An Open-Source Toolkit for Pre-training Models},
author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
journal={EMNLP-IJCNLP 2019},
pages={241},
year={2019}
}
@article{zhao2023tencentpretrain,
title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
journal={ACL 2023},
pages={217},
year={2023}
🔧 技術細節
文檔未提供足夠的技術實現細節,暫不展示。
📄 許可證
文檔未提及許可證信息,暫不展示。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98