Taiwan-LLaMa-v1.0-GGUF开源模型 - 适配台湾文化的繁体中文交流首选

首页

Taiwan LLaMa V1.0 GGUF

由 audreyt 开发

基于LLaMa 2进行全参数微调的繁体中文模型，专为台湾文化应用设计

大型语言模型中文#繁体中文优化 #台湾文化理解 #指令微调

下载量 650

发布时间 : 8/26/2023

模型简介

台湾LLaMa v1.0在超过50亿个token上进行预训练，并在49万多个繁体中文对话上进行指令微调，适合台湾文化及相关应用

模型特点

繁体中文支持

专为理解和生成繁体中文文本优化，特别适合台湾文化相关应用

指令微调

在49万多个繁体中文对话上进行指令微调，提供上下文感知和遵循指令的响应

台湾文化优化

针对台湾本地文化、习俗和知识进行特别优化

GGUF格式支持

提供多种量化版本的GGUF格式模型文件，便于不同硬件环境部署

模型能力

繁体中文文本生成

台湾文化相关问答

指令跟随

上下文理解

使用案例

文化教育

台湾文化知识问答

回答关于台湾历史、地理、风俗等文化相关问题

能准确回答如'以恶地景观著名的是高雄哪一个景点?'等问题

日常对话

台湾本地话题讨论

讨论台湾本地生活话题如'肉圆要不要加香菜'等

能提供符合台湾本地习惯的回答

信息查询

台湾相关信息查询

查询台湾相关机构、人物等信息

能准确回答如'NTU在哪?'、'唐凤是谁?'等问题

🚀 Taiwan-LLaMa-v1.0 - GGUF

本项目提供了 Yen-Ting Lin的台湾文化语言模型v1.0 的GGUF格式模型文件，助力台湾文化相关的文本生成任务。

🚀 快速开始

本仓库包含了 Yen-Ting Lin的台湾文化语言模型v1.0 的GGUF格式模型文件。

✨ 主要特性

关于GGUF

GGUF是llama.cpp团队在2023年8月21日推出的新格式，它取代了不再被llama.cpp支持的GGML。

GGUF的主要优势在于它是一种可扩展、面向未来的格式，能将更多关于模型的信息作为元数据存储。此外，它还显著改进了分词代码，首次实现了对特殊标记的全面支持，这将提升模型性能，尤其是对于使用新特殊标记和自定义提示模板的模型。

截至8月25日，以下是已知支持GGUF的客户端和库：

llama.cpp。
text-generation-webui，最广泛使用的Web UI。通过ctransformers后端支持GGUF的GPU加速，llama-cpp-python后端也即将支持。
KoboldCpp，从1.41版本开始支持GGUF！这是一个强大的GGML Web UI，支持全GPU加速，尤其适合讲故事。
LM Studio，0.2.2及更高版本支持GGUF。这是一个功能齐全的本地GUI，在Windows（NVIDIA和AMD）和macOS上均支持GPU加速。
LoLLMS Web UI，现在应该可以使用，选择c_transformers后端。这是一个很棒的Web UI，有许多有趣的功能，支持CUDA GPU加速。
ctransformers，从0.2.24版本开始支持GGUF！这是一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。
llama-cpp-python，从0.1.79版本开始支持GGUF。这是一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
candle，在8月22日添加了对GGUF的支持。Candle是一个Rust机器学习框架，注重性能，包括GPU支持和易用性。

可用仓库

📚 详细文档

原始模型卡片：Yen-Ting Lin的台湾文化语言模型v1.0

台湾文化语言模型

✍️ 在线演示 • 🤗 HF仓库 • 🐦 Twitter • 📃 [论文即将发布] • 👨️ Yen-Ting Lin

概述

Taiwan-LLaMa是基于LLaMa 2进行全参数微调的模型，适用于繁体中文应用。

Taiwan-LLaMa v1.0 在超过50亿个繁体中文标记上进行了预训练，并在超过49万个繁体中文对话上进行了指令微调。

演示

可以在 Hugging Face Spaces 上访问该模型的实时演示。

关键特性

支持繁体中文：该模型经过微调，能够理解和生成繁体中文文本，适用于台湾文化及相关应用。
指令微调：在对话数据上进一步微调，能够提供上下文感知和遵循指令的响应。
在Vicuna基准测试中的表现：Taiwan-LLaMa在Vicuna基准测试中的相对性能是与GPT-4和ChatGPT等模型进行比较的，它特别针对台湾文化进行了优化。
灵活定制：在演示中可以使用系统提示、温度、top-p和top-k等高级选项来控制模型的行为。

正在进行的工作

[ ] 改进预训练：正在开发更精细的预训练过程（例如，使用更多来自台湾的数据、改进训练策略），旨在提高模型在台湾文化方面的性能。
[ ] 扩展最大长度：利用论文中描述的Rope机制，将模型的长度从4k扩展到8k。

台湾文化示例

问题	ChatGPT	Taiwan LLaMa v1.0	Taiwan LLaMa v0.0（未预训练）	Llama2_Traditional_Chinese_13b_Chat
以恶地景观著名的是高雄哪一个景点?	以恶地地景著名的是高雄市的旗津。	高雄以拥有恶地景观著名的景点是田寮月世界。✅	以恶地景观著名的是高雄市的旗津岛。旗津岛是一个小岛，...	高雄市内有多个以恶地景观著名的景点，其中以下面几个最为著名： 1. 高雄捷运红线沿途景点：高雄市政府为了推广高雄
唐凤是谁？	唐凤（Audrey Tang）是台湾的政治家、社会活动家和软件工程师。她于2016年担任台湾行政院数位政务委员，是台湾政府历史上首位没有政党背景的政务官。唐凤在软件工程领域有丰富的经验。 ✅	唐凤是政治评论家、资讯社会学者，也是台湾第一位担任政府数位政委的人。 ✅	唐凤（Tang Feng）是一位著名的中国演员和歌手。他出生于1974年12月17日，出生地在中国北京。唐凤在1995年开始他的演艺生涯，并在同年发行了他的首张专辑《我不孤单》。此后，他发行了许多受欢迎的歌曲，并在多部电视剧和电影中担任主角。唐凤因其精湛的演技和迷人的歌声而被誉为“亚洲魅力男王”。他的音乐获得了多个奖项，包括“华表最佳新男演唱奖”、“华表最佳歌曲奖”和“华表最佳舞蹈奖”等。	唐凤是唐朝时期的一位著名文学家，他的代表作品包括《阴骘》、《狂凡子》等。他的文学风格具有强烈的个性和创意，被誉为「唐代文学之父」。
NTU 在哪?	NTU位于新加坡，具体地址是50 Nanyang Avenue, Singapore 639798。	NTU 是国立台湾大学的缩写。它是台湾的一所顶尖研究型大学，位于台北市。✅	NTU 是台湾的一所大学，位于台北市。✅	NTU 的总部位于台湾新北市板桥区，占地面积约为1,000公顷。
什么是22K?	"22K" 可能指的是金的纯度，尤其是在珠宝和金饰方面。	"22K"是指台湾的大学毕业生的起薪，大约是新台币22,000元。这个词被用来形容大学毕业生的起薪偏低，并且在就业市场上对于大学毕业生的需求不足。✅	22K是指温度尺度上的22,000K（千度）。1K代表一度，即温度差距，是摄氏温标（摄氏度）的一百万分之一。因此，22K等于-253.15°C（摄氏温标）或-423.67°F（华氏温标）。	22K是一种简写，即22,000。它是一个数字，表示22,000个单位。
肉圆要不要加香菜？	这是个个人口味的问题，有些人喜欢在肉圆中加入香菜，因为香菜的清香可以增添风味；而有些人则不喜欢香菜的味道，觉得它会盖过其他食材的味道。所以要不要加香菜，可以根据个人喜好来决定。	这是一个个人喜好的问题，有些人喜欢在肉圆里加香菜，有些人不喜欢。在台湾，肉圆加香菜是一种常见的做法。然而，在其他国家这是一个文化差异的问题。😊	肉圆加香菜可以增添一些芳香和美味的口感，如果你喜欢香菜的味道，可以试试加入肉圆中。香菜通常在制作过程中炒香，可以增添一些芳香和美味的味道。如果你想要加入香菜，可以在制作过程中炒香一些香菜，然后将其混入肉圆中。肉圆加香菜可以增添一些芳香和美味的口感，如果你喜欢香菜的味道，可以试试加入肉圆中。	加香菜的肉圆味道更好，但是不加香菜的肉圆也很好吃。如果你喜欢香菜的味道，那么加上香菜就好了。如果你不喜欢香菜，那么不加也不会影响肉

模型

我们提供了一些训练好的模型检查点，可以在Hugging Face 这里找到它们。以下是一些从LLaMa 2微调而来的检查点的快速链接：

模型	13B
Taiwan-LLaMa v1.0 (更适合台湾文化)	🤗 yentinglin/Taiwan-LLaMa-v1.0
Taiwan-LLaMa v0.9（部分指令集）	🤗 yentinglin/Taiwan-LLaMa-v0.9
Taiwan-LLaMa v0.0（未进行繁体中文预训练）	🤗 yentinglin/Taiwan-LLaMa-v0.0

数据

以下是我们用于训练模型的数据集的快速链接：

数据集	链接
指令微调	🤗 yentinglin/traditional_mandarin_instructions
繁体中文预训练	🤗 yentinglin/zh_TW_c4

架构

Taiwan-LLaMa基于LLaMa 2，采用了Transformer架构、flash attention 2 和bfloat16。

它包括：

预训练阶段：在超过50亿个繁体中文标记的庞大语料库上进行预训练，这些标记是从Common Crawl中提取的。
微调阶段：在超过49万个多轮对话数据上进行进一步的指令微调，以实现更多遵循指令和上下文感知的响应。

在Vicuna基准测试中的通用能力

为了评估通用能力，数据被翻译成了繁体中文。

Vicuna基准测试结果

分数是以ChatGPT为基准计算的，ChatGPT的分数表示为100%。其他值显示了不同模型相对于ChatGPT的相对性能。

语言模型	相对分数 (%)
GPT-4	102.59%
ChatGPT	100.00%
Taiwan-LLaMa v1.0	76.76%
Claude-Instant-1.2	74.04%
Llama2_Traditional_Chinese_13b_Chat	56.21%

如何在自己的机器上部署模型？

我们建议使用 🤗 Text Generation Inference 来托管模型。有关使用和限制的详细信息，请参阅他们的许可证。

bash run_text_generation_inference.sh "yentinglin/Taiwan-LLaMa-v1.0" NUM_GPUS DIR_TO_SAVE_MODEL PORT MAX_INPUT_LEN MODEL_MAX_LEN

提示格式遵循vicuna-v1.1模板：

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {user} ASSISTANT:

设置开发环境

conda create -n taiwan-llama python=3.10 -y 
conda activate taiwan-llama
pip install -r requirements.txt

引用

如果您在研究中使用了我们的代码、数据或模型，请引用此仓库。您可以使用以下BibTeX条目：

@inproceedings{lin-chen-2023-llm,
    title = "{LLM}-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models",
    author = "Lin, Yen-Ting  and Chen, Yun-Nung",
    booktitle = "Proceedings of the 5th Workshop on NLP for Conversational AI (NLP4ConvAI 2023)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.nlp4convai-1.5",
    pages = "47--58"
}

@misc{taiwanllama,
    author={Lin, Yen-Ting and Chen, Yun-Nung},
    title={Language Models for Taiwanese Culture},
    year={2023},
    url={https://github.com/MiuLab/Taiwan-LLaMa},
    note={Code and models available at https://github.com/MiuLab/Taiwan-LLaMa},
}

与我们合作

如果您有兴趣为繁体中文语言模型的开发做出贡献、探索新的应用或利用Taiwan-LLaMa满足您的特定需求，请随时与我们联系。我们欢迎学术界、工业界和个人贡献者的合作。

📄 许可证

本项目中的代码遵循Apache 2.0许可证，请参阅 LICENSE 文件了解详细信息。

本项目中包含的模型遵循LLAMA 2社区许可证。请参阅 LLAMA2许可证了解完整详细信息。

致谢

我们感谢 Meta LLaMA团队和 Vicuna团队在推动大语言模型民主化方面所做的开源努力。

信息表格

属性	详情
模型类型	llama
训练数据集	yentinglin/zh_TW_c4、yentinglin/traditional_chinese_instructions
模型创建者	Yen-Ting Lin
模型链接	https://huggingface.co/yentinglin/Taiwan-LLaMa-v1.0
模型名称	Language Models for Taiwanese Culture 1.0
量化者	Audrey Tang
任务类型	文本生成
许可证	llama2
语言	中文
推理	false