Roberta Base Finetuned Jd Binary Chinese
模型概述
該系列模型基於RoBERTa架構,專門用於中文文本分類任務,包括情感分析和新聞分類等
模型特點
多領域分類能力
包含5個不同領域的數據集模型,覆蓋評論情感分析和新聞分類
基於RoBERTa優化
採用RoBERTa架構,相比原始BERT有更好的訓練效果
中文優化
專門針對中文文本進行優化,使用中文預訓練模型微調
模型能力
中文文本分類
情感極性分析
新聞主題分類
用戶評論分析
使用案例
情感分析
電商評論分析
分析京東用戶評論的情感極性
可區分正面和負面評價
餐飲評價分析
分析大眾點評的用戶評價情感
可識別用戶對餐廳的滿意度
新聞分類
新聞主題分類
對鳳凰新聞和中國新聞進行分類
可準確識別新聞所屬類別
🚀 中文文本分類RoBERTa基礎模型
本項目提供了5個用於文本分類的中文RoBERTa基礎模型,這些模型能夠高效準確地對中文文本進行分類,為中文自然語言處理任務提供了強大支持。
🚀 快速開始
你可以直接使用該模型進行文本分類,以下以 roberta-base-finetuned-chinanews-chinese
模型為例:
>>> from transformers import AutoModelForSequenceClassification,AutoTokenizer,pipeline
>>> model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> text_classification = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
>>> text_classification("北京上個月召開了兩會")
[{'label': 'mainland China politics', 'score': 0.7211663722991943}]
✨ 主要特性
- 這組模型由 UER-py 進行微調,相關介紹見 此論文。
- 模型也可通過 TencentPretrain 進行微調,該框架繼承了 UER-py,支持參數超過十億的模型,並將其擴展為多模態預訓練框架,相關介紹見 此論文。
📦 安裝指南
本部分文檔未提及具體安裝步驟,若有需要,請參考相關項目的官方文檔。
💻 使用示例
基礎用法
>>> from transformers import AutoModelForSequenceClassification,AutoTokenizer,pipeline
>>> model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')
>>> text_classification = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)
>>> text_classification("北京上個月召開了兩會")
[{'label': 'mainland China politics', 'score': 0.7211663722991943}]
高級用法
本部分文檔未提及高級用法示例,若有需要,請參考相關項目的官方文檔。
📚 詳細文檔
模型下載
你可以從 UER-py 模型庫頁面 下載這5箇中文 RoBERTa 基礎分類模型,也可以通過 HuggingFace 從以下鏈接下載:
數據集 | 鏈接 |
---|---|
JD full | roberta-base-finetuned-jd-full-chinese |
JD binary | roberta-base-finetuned-jd-binary-chinese |
Dianping | roberta-base-finetuned-dianping-chinese |
Ifeng | roberta-base-finetuned-ifeng-chinese |
Chinanews | roberta-base-finetuned-chinanews-chinese |
訓練數據
使用了5箇中文文本分類數據集。JD full、JD binary 和 Dianping 數據集包含不同情感極性的用戶評論。Ifeng 和 Chinanews 包含不同主題類別的新聞文章的第一段。這些數據集由 Glyph 項目收集,更多詳細信息見相應 論文。
訓練過程
模型在 騰訊雲 上使用 UER-py 進行微調。我們在預訓練模型 chinese_roberta_L-12_H-768 的基礎上,以序列長度512進行三個 epoch 的微調。在每個 epoch 結束時,當在開發集上取得最佳性能時保存模型。我們在不同模型上使用相同的超參數。
以 roberta-base-finetuned-chinanews-chinese
為例:
python3 finetune/run_classifier.py --pretrained_model_path models/cluecorpussmall_roberta_base_seq512_model.bin-250000 \
--vocab_path models/google_zh_vocab.txt \
--train_path datasets/glyph/chinanews/train.tsv \
--dev_path datasets/glyph/chinanews/dev.tsv \
--output_model_path models/chinanews_classifier_model.bin \
--learning_rate 3e-5 --epochs_num 3 --batch_size 32 --seq_length 512
最後,我們將預訓練模型轉換為 Huggingface 格式:
python3 scripts/convert_bert_text_classification_from_uer_to_huggingface.py --input_model_path models/chinanews_classifier_model.bin \
--output_model_path pytorch_model.bin \
--layers_num 12
引用信息
@article{liu2019roberta,
title={Roberta: A robustly optimized bert pretraining approach},
author={Liu, Yinhan and Ott, Myle and Goyal, Naman and Du, Jingfei and Joshi, Mandar and Chen, Danqi and Levy, Omer and Lewis, Mike and Zettlemoyer, Luke and Stoyanov, Veselin},
journal={arXiv preprint arXiv:1907.11692},
year={2019}
}
@article{zhang2017encoding,
title={Which encoding is the best for text classification in chinese, english, japanese and korean?},
author={Zhang, Xiang and LeCun, Yann},
journal={arXiv preprint arXiv:1708.02657},
year={2017}
}
@article{zhao2019uer,
title={UER: An Open-Source Toolkit for Pre-training Models},
author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
journal={EMNLP-IJCNLP 2019},
pages={241},
year={2019}
}
@article{zhao2023tencentpretrain,
title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
journal={ACL 2023},
pages={217},
year={2023}
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98