Roberta Base Finetuned Chinanews Chinese
模型概述
該模型是基於RoBERTa架構的中文文本分類模型,經過中國新聞數據集微調,能夠準確識別新聞文本的主題類別。
模型特點
高質量微調
基於RoBERTa-Base預訓練模型,在中國新聞數據集上進行了精細微調
多類別分類
能夠識別中國新聞中的多種主題類別
長文本處理
支持最長512個token的文本序列輸入
模型能力
中文文本分類
新聞主題識別
情感分析(僅限特定模型)
使用案例
新聞媒體
新聞自動分類
自動將新聞文章分類到預定義的類別中
在測試集上達到高準確率
內容分析
輿情監測
分析新聞報道的主題分佈和趨勢
🚀 中文RoBERTa-Base文本分類模型
本項目提供了5個經過微調的中文RoBERTa-Base文本分類模型,可有效解決文本分類任務,為中文文本處理提供了強大的支持。
🚀 快速開始
你可以使用以下代碼直接調用該模型進行文本分類(以 roberta-base-finetuned-chinanews-chinese
為例):
>>> from transformers import AutoModelForSequenceClassification,AutoTokenizer,pipeline
>>> model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> text_classification = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
>>> text_classification("北京上個月召開了兩會")
[{'label': 'mainland China politics', 'score': 0.7211663722991943}]
✨ 主要特性
- 本套模型由 UER-py 微調得到,相關介紹見 此論文。
- 模型也可由 TencentPretrain 微調,該框架繼承自 UER-py,支持參數超十億的模型,並擴展為多模態預訓練框架,相關介紹見 此論文。
📦 安裝指南
文檔中未提及安裝相關內容,可參考 transformers
庫的安裝方式進行安裝。
💻 使用示例
基礎用法
使用 roberta-base-finetuned-chinanews-chinese
模型進行文本分類:
>>> from transformers import AutoModelForSequenceClassification,AutoTokenizer,pipeline
>>> model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> text_classification = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
>>> text_classification("北京上個月召開了兩會")
[{'label': 'mainland China politics', 'score': 0.7211663722991943}]
📚 詳細文檔
模型下載
你可以從 UER-py 模型庫頁面 下載這5箇中文 RoBERTa-Base 分類模型,也可以通過 HuggingFace 從以下鏈接下載:
數據集 | 鏈接 |
---|---|
JD full | roberta-base-finetuned-jd-full-chinese |
JD binary | roberta-base-finetuned-jd-binary-chinese |
Dianping | roberta-base-finetuned-dianping-chinese |
Ifeng | roberta-base-finetuned-ifeng-chinese |
Chinanews | roberta-base-finetuned-chinanews-chinese |
訓練數據
使用了5箇中文文本分類數據集。其中,JD full、JD binary 和 Dianping 數據集包含不同情感極性的用戶評論;Ifeng 和 Chinanews 數據集包含不同主題類別的新聞文章首段。這些數據集由 Glyph 項目收集,更多詳細信息見 相應論文。
訓練過程
模型在 騰訊雲 上使用 UER-py 進行微調。在預訓練模型 chinese_roberta_L-12_H-768 的基礎上,以序列長度512進行3個輪次的微調。在每個輪次結束時,當模型在開發集上達到最佳性能時進行保存。不同模型使用相同的超參數。
以 roberta-base-finetuned-chinanews-chinese
為例:
python3 finetune/run_classifier.py --pretrained_model_path models/cluecorpussmall_roberta_base_seq512_model.bin-250000 \
--vocab_path models/google_zh_vocab.txt \
--train_path datasets/glyph/chinanews/train.tsv \
--dev_path datasets/glyph/chinanews/dev.tsv \
--output_model_path models/chinanews_classifier_model.bin \
--learning_rate 3e-5 --epochs_num 3 --batch_size 32 --seq_length 512
最後,將預訓練模型轉換為 Huggingface 格式:
python3 scripts/convert_bert_text_classification_from_uer_to_huggingface.py --input_model_path models/chinanews_classifier_model.bin \
--output_model_path pytorch_model.bin \
--layers_num 12
引用信息
@article{liu2019roberta,
title={Roberta: A robustly optimized bert pretraining approach},
author={Liu, Yinhan and Ott, Myle and Goyal, Naman and Du, Jingfei and Joshi, Mandar and Chen, Danqi and Levy, Omer and Lewis, Mike and Zettlemoyer, Luke and Stoyanov, Veselin},
journal={arXiv preprint arXiv:1907.11692},
year={2019}
}
@article{zhang2017encoding,
title={Which encoding is the best for text classification in chinese, english, japanese and korean?},
author={Zhang, Xiang and LeCun, Yann},
journal={arXiv preprint arXiv:1708.02657},
year={2017}
}
@article{zhao2019uer,
title={UER: An Open-Source Toolkit for Pre-training Models},
author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
journal={EMNLP-IJCNLP 2019},
pages={241},
year={2019}
}
@article{zhao2023tencentpretrain,
title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
journal={ACL 2023},
pages={217},
year={2023}
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98