模型简介
模型特点
模型能力
使用案例
🚀 Taiwan-LLaMa-v1.0 - GGUF
本项目提供了 Yen-Ting Lin的台湾文化语言模型v1.0 的GGUF格式模型文件,助力台湾文化相关的文本生成任务。
🚀 快速开始
本仓库包含了 Yen-Ting Lin的台湾文化语言模型v1.0 的GGUF格式模型文件。
✨ 主要特性
关于GGUF
GGUF是llama.cpp团队在2023年8月21日推出的新格式,它取代了不再被llama.cpp支持的GGML。
GGUF的主要优势在于它是一种可扩展、面向未来的格式,能将更多关于模型的信息作为元数据存储。此外,它还显著改进了分词代码,首次实现了对特殊标记的全面支持,这将提升模型性能,尤其是对于使用新特殊标记和自定义提示模板的模型。
截至8月25日,以下是已知支持GGUF的客户端和库:
- llama.cpp。
- text-generation-webui,最广泛使用的Web UI。通过ctransformers后端支持GGUF的GPU加速,llama-cpp-python后端也即将支持。
- KoboldCpp,从1.41版本开始支持GGUF!这是一个强大的GGML Web UI,支持全GPU加速,尤其适合讲故事。
- LM Studio,0.2.2及更高版本支持GGUF。这是一个功能齐全的本地GUI,在Windows(NVIDIA和AMD)和macOS上均支持GPU加速。
- LoLLMS Web UI,现在应该可以使用,选择
c_transformers
后端。这是一个很棒的Web UI,有许多有趣的功能,支持CUDA GPU加速。 - ctransformers,从0.2.24版本开始支持GGUF!这是一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。
- llama-cpp-python,从0.1.79版本开始支持GGUF。这是一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
- candle,在8月22日添加了对GGUF的支持。Candle是一个Rust机器学习框架,注重性能,包括GPU支持和易用性。
可用仓库
- 适用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- 适用于CPU+GPU推理的2、3、4、5、6和8位GGML模型(已弃用)
- Yen-Ting Lin原始未量化的fp16 PyTorch格式模型,用于GPU推理和进一步转换
📚 详细文档
原始模型卡片:Yen-Ting Lin的台湾文化语言模型v1.0
台湾文化语言模型
✍️ 在线演示
•
🤗 HF仓库 • 🐦 Twitter • 📃 [论文即将发布]
• 👨️ Yen-Ting Lin
概述
Taiwan-LLaMa是基于LLaMa 2进行全参数微调的模型,适用于繁体中文应用。
Taiwan-LLaMa v1.0 在超过50亿个繁体中文标记上进行了预训练,并在超过49万个繁体中文对话上进行了指令微调。
演示
可以在 Hugging Face Spaces 上访问该模型的实时演示。
关键特性
- 支持繁体中文:该模型经过微调,能够理解和生成繁体中文文本,适用于台湾文化及相关应用。
- 指令微调:在对话数据上进一步微调,能够提供上下文感知和遵循指令的响应。
- 在Vicuna基准测试中的表现:Taiwan-LLaMa在Vicuna基准测试中的相对性能是与GPT-4和ChatGPT等模型进行比较的,它特别针对台湾文化进行了优化。
- 灵活定制:在演示中可以使用系统提示、温度、top-p和top-k等高级选项来控制模型的行为。
正在进行的工作
- [ ] 改进预训练:正在开发更精细的预训练过程(例如,使用更多来自台湾的数据、改进训练策略),旨在提高模型在台湾文化方面的性能。
- [ ] 扩展最大长度:利用 论文 中描述的Rope机制,将模型的长度从4k扩展到8k。
台湾文化示例
问题 | ChatGPT | Taiwan LLaMa v1.0 | Taiwan LLaMa v0.0(未预训练) | Llama2_Traditional_Chinese_13b_Chat |
---|---|---|---|---|
以恶地景观著名的是高雄哪一个景点? | 以恶地地景著名的是高雄市的旗津。 | 高雄以拥有恶地景观著名的景点是田寮月世界。✅ | 以恶地景观著名的是高雄市的旗津岛。旗津岛是一个小岛,... | 高雄市内有多个以恶地景观著名的景点,其中以下面几个最为著名: 1. 高雄捷运红线沿途景点:高雄市政府为了推广高雄 |
唐凤是谁? | 唐凤(Audrey Tang)是台湾的政治家、社会活动家和软件工程师。她于2016年担任台湾行政院数位政务委员,是台湾政府历史上首位没有政党背景的政务官。唐凤在软件工程领域有丰富的经验。 ✅ | 唐凤是政治评论家、资讯社会学者,也是台湾第一位担任政府数位政委的人。 ✅ | 唐凤(Tang Feng)是一位著名的中国演员和歌手。他出生于1974年12月17日,出生地在中国北京。唐凤在1995年开始他的演艺生涯,并在同年发行了他的首张专辑《我不孤单》。此后,他发行了许多受欢迎的歌曲,并在多部电视剧和电影中担任主角。唐凤因其精湛的演技和迷人的歌声而被誉为“亚洲魅力男王”。他的音乐获得了多个奖项,包括“华表最佳新男演唱奖”、“华表最佳歌曲奖”和“华表最佳舞蹈奖”等。 | 唐凤是唐朝时期的一位著名文学家,他的代表作品包括《阴骘》、《狂凡子》等。他的文学风格具有强烈的个性和创意,被誉为「唐代文学之父」。 |
NTU 在哪? | NTU位于新加坡,具体地址是50 Nanyang Avenue, Singapore 639798。 | NTU 是国立台湾大学的缩写。它是台湾的一所顶尖研究型大学,位于台北市。✅ | NTU 是台湾的一所大学,位于台北市。✅ | NTU 的总部位于台湾新北市板桥区,占地面积约为1,000公顷。 |
什么是22K? | "22K" 可能指的是金的纯度,尤其是在珠宝和金饰方面。 | "22K"是指台湾的大学毕业生的起薪,大约是新台币22,000元。这个词被用来形容大学毕业生的起薪偏低,并且在就业市场上对于大学毕业生的需求不足。✅ | 22K是指温度尺度上的22,000K(千度)。1K代表一度,即温度差距,是摄氏温标(摄氏度)的一百万分之一。因此,22K等于-253.15°C(摄氏温标)或-423.67°F(华氏温标)。 | 22K是一种简写,即22,000。它是一个数字,表示22,000个单位。 |
肉圆要不要加香菜? | 这是个个人口味的问题,有些人喜欢在肉圆中加入香菜,因为香菜的清香可以增添风味;而有些人则不喜欢香菜的味道,觉得它会盖过其他食材的味道。所以要不要加香菜,可以根据个人喜好来决定。 | 这是一个个人喜好的问题,有些人喜欢在肉圆里加香菜,有些人不喜欢。在台湾,肉圆加香菜是一种常见的做法。然而,在其他国家这是一个文化差异的问题。😊 | 肉圆加香菜可以增添一些芳香和美味的口感,如果你喜欢香菜的味道,可以试试加入肉圆中。香菜通常在制作过程中炒香,可以增添一些芳香和美味的味道。如果你想要加入香菜,可以在制作过程中炒香一些香菜,然后将其混入肉圆中。肉圆加香菜可以增添一些芳香和美味的口感,如果你喜欢香菜的味道,可以试试加入肉圆中。 | 加香菜的肉圆味道更好,但是不加香菜的肉圆也很好吃。如果你喜欢香菜的味道,那么加上香菜就好了。如果你不喜欢香菜,那么不加也不会影响肉 |
模型
我们提供了一些训练好的模型检查点,可以在Hugging Face 这里 找到它们。以下是一些从LLaMa 2微调而来的检查点的快速链接:
模型 | 13B |
---|---|
Taiwan-LLaMa v1.0 (更适合台湾文化) | 🤗 yentinglin/Taiwan-LLaMa-v1.0 |
Taiwan-LLaMa v0.9(部分指令集) | 🤗 yentinglin/Taiwan-LLaMa-v0.9 |
Taiwan-LLaMa v0.0(未进行繁体中文预训练) | 🤗 yentinglin/Taiwan-LLaMa-v0.0 |
数据
以下是我们用于训练模型的数据集的快速链接:
数据集 | 链接 |
---|---|
指令微调 | 🤗 yentinglin/traditional_mandarin_instructions |
繁体中文预训练 | 🤗 yentinglin/zh_TW_c4 |
架构
Taiwan-LLaMa基于LLaMa 2,采用了Transformer架构、flash attention 2 和bfloat16。
它包括:
- 预训练阶段:在超过50亿个繁体中文标记的庞大语料库上进行预训练,这些标记是从Common Crawl中提取的。
- 微调阶段:在超过49万个多轮对话数据上进行进一步的指令微调,以实现更多遵循指令和上下文感知的响应。
在Vicuna基准测试中的通用能力
为了评估通用能力,数据被翻译成了繁体中文。
分数是以ChatGPT为基准计算的,ChatGPT的分数表示为100%。其他值显示了不同模型相对于ChatGPT的相对性能。
语言模型 | 相对分数 (%) |
---|---|
GPT-4 | 102.59% |
ChatGPT | 100.00% |
Taiwan-LLaMa v1.0 | 76.76% |
Claude-Instant-1.2 | 74.04% |
Llama2_Traditional_Chinese_13b_Chat | 56.21% |
如何在自己的机器上部署模型?
我们建议使用 🤗 Text Generation Inference 来托管模型。有关使用和限制的详细信息,请参阅他们的 许可证。
bash run_text_generation_inference.sh "yentinglin/Taiwan-LLaMa-v1.0" NUM_GPUS DIR_TO_SAVE_MODEL PORT MAX_INPUT_LEN MODEL_MAX_LEN
提示格式遵循vicuna-v1.1模板:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {user} ASSISTANT:
设置开发环境
conda create -n taiwan-llama python=3.10 -y
conda activate taiwan-llama
pip install -r requirements.txt
引用
如果您在研究中使用了我们的代码、数据或模型,请引用此仓库。您可以使用以下BibTeX条目:
@inproceedings{lin-chen-2023-llm,
title = "{LLM}-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models",
author = "Lin, Yen-Ting and Chen, Yun-Nung",
booktitle = "Proceedings of the 5th Workshop on NLP for Conversational AI (NLP4ConvAI 2023)",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.nlp4convai-1.5",
pages = "47--58"
}
@misc{taiwanllama,
author={Lin, Yen-Ting and Chen, Yun-Nung},
title={Language Models for Taiwanese Culture},
year={2023},
url={https://github.com/MiuLab/Taiwan-LLaMa},
note={Code and models available at https://github.com/MiuLab/Taiwan-LLaMa},
}
与我们合作
如果您有兴趣为繁体中文语言模型的开发做出贡献、探索新的应用或利用Taiwan-LLaMa满足您的特定需求,请随时与我们联系。我们欢迎学术界、工业界和个人贡献者的合作。
📄 许可证
本项目中的代码遵循Apache 2.0许可证,请参阅 LICENSE 文件了解详细信息。
本项目中包含的模型遵循LLAMA 2社区许可证。请参阅 LLAMA2许可证 了解完整详细信息。
致谢
我们感谢 Meta LLaMA团队 和 Vicuna团队 在推动大语言模型民主化方面所做的开源努力。
信息表格
属性 | 详情 |
---|---|
模型类型 | llama |
训练数据集 | yentinglin/zh_TW_c4、yentinglin/traditional_chinese_instructions |
模型创建者 | Yen-Ting Lin |
模型链接 | https://huggingface.co/yentinglin/Taiwan-LLaMa-v1.0 |
模型名称 | Language Models for Taiwanese Culture 1.0 |
量化者 | Audrey Tang |
任务类型 | 文本生成 |
许可证 | llama2 |
语言 | 中文 |
推理 | false |



