Xlmroberta Alexa Intents Classification
X
Xlmroberta Alexa Intents Classification
由qanastek開發
基於XLM-RoBERTa的多語言意圖分類模型,支持51種語言,用於識別用戶語句的意圖類別。
下載量 2,413
發布時間 : 5/4/2022
模型概述
該模型是一個多語言意圖分類器,基於XLM-RoBERTa架構,訓練於MASSIVE數據集,能夠識別60種不同的用戶意圖,適用於智能助手等自然語言理解場景。
模型特點
多語言支持
支持51種語言的意圖分類,覆蓋全球主要語言
廣泛的意圖覆蓋
能夠識別60種不同的用戶意圖,滿足智能助手多樣化需求
高精度分類
在多個意圖類別上F1分數超過0.9,表現優異
模型能力
多語言意圖識別
自然語言理解
文本分類
使用案例
智能助手
鬧鐘設置
識別用戶設置鬧鐘的請求
F1分數0.8921
音樂播放
識別用戶播放音樂的請求
F1分數0.8763
天氣查詢
識別用戶查詢天氣的請求
F1分數0.9439
智能家居控制
燈光控制
識別用戶控制智能家居燈光的請求
Hue燈控制F1分數0.9075
設備開關
識別用戶開關智能家居設備的請求
Wemo設備控制F1分數0.9143
🚀 XLMRoberta-Alexa意圖分類模型
本項目是一個基於XLMRoberta的多語言文本意圖分類模型,可處理51種語言,適用於自然語言理解中的意圖預測和槽位標註任務,為智能語音助手等應用提供支持。
🚀 快速開始
環境準備
需要安裝 transformers,使用以下命令進行安裝:
pip install transformers
代碼示例
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TextClassificationPipeline
model_name = 'qanastek/XLMRoberta-Alexa-Intents-Classification'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
classifier = TextClassificationPipeline(model=model, tokenizer=tokenizer)
res = classifier("réveille-moi à neuf heures du matin le vendredi")
print(res)
輸出結果
[{'label': 'alarm_set', 'score': 0.9998375177383423}]
✨ 主要特性
- 多語言支持:支持51種語言,包括南非荷蘭語、阿姆哈拉語、阿拉伯語等,覆蓋廣泛的語言範圍。
- 豐富的意圖分類:可識別60種不同的意圖,涵蓋了音頻控制、音樂播放、日程安排、天氣查詢等多個領域。
- 高質量的訓練數據:基於 MASSIVE 數據集進行訓練,該數據集包含超過100萬個跨51種語言的話語。
📦 安裝指南
確保你已經安裝了Python環境,然後使用以下命令安裝所需的依賴庫:
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TextClassificationPipeline
model_name = 'qanastek/XLMRoberta-Alexa-Intents-Classification'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
classifier = TextClassificationPipeline(model=model, tokenizer=tokenizer)
res = classifier("réveille-moi à neuf heures du matin le vendredi")
print(res)
高級用法
你可以根據需要修改輸入的文本,以測試不同的意圖分類:
# 測試不同的輸入文本
res = classifier("我想聽周杰倫的歌")
print(res)
📚 詳細文檔
訓練數據
MASSIVE 是一個並行數據集,包含超過100萬個跨51種語言的話語,用於自然語言理解中的意圖預測和槽位標註任務。這些話語涵蓋了60種意圖和55種槽位類型。MASSIVE 是通過本地化 SLURP 數據集創建的,SLURP 數據集由通用智能語音助手的單輪交互組成。
意圖分類
模型可以識別以下60種意圖:
- audio_volume_other
- play_music
- iot_hue_lighton
- general_greet
- calendar_set
- audio_volume_down
- social_query
- audio_volume_mute
- iot_wemo_on
- iot_hue_lightup
- audio_volume_up
- iot_coffee
- takeaway_query
- qa_maths
- play_game
- cooking_query
- iot_hue_lightdim
- iot_wemo_off
- music_settings
- weather_query
- news_query
- alarm_remove
- social_post
- recommendation_events
- transport_taxi
- takeaway_order
- music_query
- calendar_query
- lists_query
- qa_currency
- recommendation_movies
- general_joke
- recommendation_locations
- email_querycontact
- lists_remove
- play_audiobook
- email_addcontact
- lists_createoradd
- play_radio
- qa_stock
- alarm_query
- email_sendemail
- general_quirky
- music_likeness
- cooking_recipe
- email_query
- datetime_query
- transport_traffic
- play_podcasts
- iot_hue_lightchange
- calendar_remove
- transport_query
- transport_ticket
- qa_factoid
- iot_cleaning
- alarm_set
- datetime_convert
- iot_hue_lightoff
- qa_definition
- music_dislikeness
評估結果
以下是模型在各個意圖分類上的評估結果:
precision recall f1-score support
alarm_query 0.9661 0.9037 0.9338 1734
alarm_remove 0.9484 0.9608 0.9545 1071
alarm_set 0.8611 0.9254 0.8921 2091
audio_volume_down 0.8657 0.9537 0.9075 561
audio_volume_mute 0.8608 0.9130 0.8861 1632
audio_volume_other 0.8684 0.5392 0.6653 306
audio_volume_up 0.7198 0.8446 0.7772 663
calendar_query 0.7555 0.8229 0.7878 6426
calendar_remove 0.8688 0.9441 0.9049 3417
calendar_set 0.9092 0.9014 0.9053 10659
cooking_query 0.0000 0.0000 0.0000 0
cooking_recipe 0.9282 0.8592 0.8924 3672
datetime_convert 0.8144 0.7686 0.7909 765
datetime_query 0.9152 0.9305 0.9228 4488
email_addcontact 0.6482 0.8431 0.7330 612
email_query 0.9629 0.9319 0.9472 6069
email_querycontact 0.6853 0.8032 0.7396 1326
email_sendemail 0.9530 0.9381 0.9455 5814
general_greet 0.1026 0.3922 0.1626 51
general_joke 0.9305 0.9123 0.9213 969
general_quirky 0.6984 0.5417 0.6102 8619
iot_cleaning 0.9590 0.9359 0.9473 1326
iot_coffee 0.9304 0.9749 0.9521 1836
iot_hue_lightchange 0.8794 0.9374 0.9075 1836
iot_hue_lightdim 0.8695 0.8711 0.8703 1071
iot_hue_lightoff 0.9440 0.9229 0.9334 2193
iot_hue_lighton 0.4545 0.5882 0.5128 153
iot_hue_lightup 0.9271 0.8315 0.8767 1377
iot_wemo_off 0.9615 0.8715 0.9143 918
iot_wemo_on 0.8455 0.7941 0.8190 510
lists_createoradd 0.8437 0.8356 0.8396 1989
lists_query 0.8918 0.8335 0.8617 2601
lists_remove 0.9536 0.8601 0.9044 2652
music_dislikeness 0.7725 0.7157 0.7430 204
music_likeness 0.8570 0.8159 0.8359 1836
music_query 0.8667 0.8050 0.8347 1785
music_settings 0.4024 0.3301 0.3627 306
news_query 0.8343 0.8657 0.8498 6324
play_audiobook 0.8172 0.8125 0.8149 2091
play_game 0.8666 0.8403 0.8532 1785
play_music 0.8683 0.8845 0.8763 8976
play_podcasts 0.8925 0.9125 0.9024 3213
play_radio 0.8260 0.8935 0.8585 3672
qa_currency 0.9459 0.9578 0.9518 1989
qa_definition 0.8638 0.8552 0.8595 2907
qa_factoid 0.7959 0.8178 0.8067 7191
qa_maths 0.8937 0.9302 0.9116 1275
qa_stock 0.7995 0.9412 0.8646 1326
recommendation_events 0.7646 0.7702 0.7674 2193
recommendation_locations 0.7489 0.8830 0.8104 1581
recommendation_movies 0.6907 0.7706 0.7285 1020
social_post 0.9623 0.9080 0.9344 4131
social_query 0.8104 0.7914 0.8008 1275
takeaway_order 0.7697 0.8458 0.8059 1122
takeaway_query 0.9059 0.8571 0.8808 1785
transport_query 0.8141 0.7559 0.7839 2601
transport_taxi 0.9222 0.9403 0.9312 1173
transport_ticket 0.9259 0.9384 0.9321 1785
transport_traffic 0.6919 0.9660 0.8063 765
weather_query 0.9387 0.9492 0.9439 7956
accuracy 0.8617 151674
macro avg 0.8162 0.8273 0.8178 151674
weighted avg 0.8639 0.8617 0.8613 151674
🔧 技術細節
本模型基於 XLMRoberta 架構,通過在 MASSIVE 數據集上進行訓練,學習不同語言中的語義信息,以實現準確的意圖分類。模型的輸入是文本,經過分詞和編碼後,通過預訓練的 XLMRoberta 模型提取特徵,最後通過全連接層進行分類。
📄 許可證
本項目採用 CC BY 4.0 許可證。
👥 參與人員
- LABRAK Yanis (1)
所屬機構
- LIA, NLP team, 阿維尼翁大學, 阿維尼翁, 法國。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98