Ke T5 Base Ko
K
Ke T5 Base Ko
由KETI-AIR開發
KE-T5是由韓國電子技術研究院開發的基於T5架構的韓英雙語文本生成模型,支持跨語言知識遷移的對話生成任務。
下載量 208
發布時間 : 3/2/2022
模型概述
該模型是基於T5架構的韓英雙語文本生成模型,主要用於開放域對話系統中的跨語言知識遷移響應生成。
模型特點
跨語言知識遷移
模型能夠利用英語知識提升韓語對話系統的性能
韓英雙語支持
模型同時支持韓語和英語的文本生成任務
開放域對話優化
特別針對開放域對話場景進行了優化
模型能力
文本生成
跨語言知識遷移
開放域對話生成
使用案例
對話系統
韓語開放域對話
用於構建韓語開放域對話系統,即使只提供英語知識也能提升性能
實驗結果顯示模型性能得到提升
🚀 ke-t5-base-ko 模型卡片
ke-t5-base-ko 是一個用於文本到文本生成任務的模型,由韓國電子技術研究院人工智能研究中心開發。它基於 T5 架構,在大規模語料上進行預訓練,可用於多種自然語言處理任務。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("KETI-AIR/ke-t5-base-ko")
model = AutoModelForSeq2SeqLM.from_pretrained("KETI-AIR/ke-t5-base-ko")
✨ 主要特性
- 文本到文本生成:該模型可用於文本到文本生成任務。
- 多語言支持:支持韓語和英語。
📦 安裝指南
暫未提供安裝步驟相關內容。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("KETI-AIR/ke-t5-base-ko")
model = AutoModelForSeq2SeqLM.from_pretrained("KETI-AIR/ke-t5-base-ko")
input_text = "아버지가 방에 들어가신다.</s>"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(output_text)
📚 詳細文檔
模型詳情
模型描述
- 開發者:韓國電子技術研究院人工智能研究中心
- 模型類型:文本到文本生成
- 相關模型:父模型為 T5
- 更多信息資源:
用途
直接用途
該模型可用於文本到文本生成任務。
超出範圍的使用
該模型不應用於故意為人們創造敵對或疏遠的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題。該模型生成的預測可能包括受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。
訓練詳情
訓練數據
該模型在 Colossal Clean Crawled Corpus (C4) 上進行預訓練,該語料庫是在與 T5 相同的 研究論文 背景下開發和發佈的。模型在無監督(1.)和有監督任務(2.)的多任務混合上進行預訓練。
評估
相關測試數據、因素、指標及結果的詳細信息暫未提供。
模型檢查
相關信息暫未提供。
環境影響
可以使用 Lacoste 等人(2019) 提出的 機器學習影響計算器 來估算碳排放。但硬件類型、使用時長、雲服務提供商、計算區域和碳排放等具體信息暫未提供。
技術規格(可選)
相關模型架構和目標、計算基礎設施(硬件和軟件)的詳細信息暫未提供。
引用
BibTeX
@inproceedings{kim-etal-2021-model-cross,
title = "A Model of Cross-Lingual Knowledge-Grounded Response Generation for Open-Domain Dialogue Systems",
author = "Kim, San and
Jang, Jin Yea and
Jung, Minyoung and
Shin, Saim",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-emnlp.33",
doi = "10.18653/v1/2021.findings-emnlp.33",
pages = "352--365",
abstract = "Research on open-domain dialogue systems that allow free topics is challenging in the field of natural language processing (NLP). The performance of the dialogue system has been improved recently by the method utilizing dialogue-related knowledge; however, non-English dialogue systems suffer from reproducing the performance of English dialogue systems because securing knowledge in the same language with the dialogue system is relatively difficult. Through experiments with a Korean dialogue system, this paper proves that the performance of a non-English dialogue system can be improved by utilizing English knowledge, highlighting the system uses cross-lingual knowledge. For the experiments, we 1) constructed a Korean version of the Wizard of Wikipedia dataset, 2) built Korean-English T5 (KE-T5), a language model pre-trained with Korean and English corpus, and 3) developed a knowledge-grounded Korean dialogue model based on KE-T5. We observed the performance improvement in the open-domain Korean dialogue model even only English knowledge was given. The experimental results showed that the knowledge inherent in cross-lingual language models can be helpful for generating responses in open dialogue systems.",
}
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
📄 許可證
該模型使用 Apache-2.0 許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98