Taiwan-LLaMa-v1.0-GGUF開源模型 - 適配臺灣文化的繁體中文交流首選

首頁

Taiwan LLaMa V1.0 GGUF

由audreyt開發

基於LLaMa 2進行全參數微調的繁體中文模型，專為臺灣文化應用設計

大型語言模型中文#繁體中文優化 #臺灣文化理解 #指令微調

下載量 650

發布時間 : 8/26/2023

模型概述

臺灣LLaMa v1.0在超過50億個token上進行預訓練，並在49萬多個繁體中文對話上進行指令微調，適合臺灣文化及相關應用

模型特點

繁體中文支持

專為理解和生成繁體中文文本優化，特別適合臺灣文化相關應用

指令微調

在49萬多個繁體中文對話上進行指令微調，提供上下文感知和遵循指令的響應

臺灣文化優化

針對臺灣本地文化、習俗和知識進行特別優化

GGUF格式支持

提供多種量化版本的GGUF格式模型文件，便於不同硬件環境部署

模型能力

繁體中文文本生成

臺灣文化相關問答

指令跟隨

上下文理解

使用案例

文化教育

臺灣文化知識問答

回答關於臺灣歷史、地理、風俗等文化相關問題

能準確回答如'以惡地景觀著名的是高雄哪一個景點?'等問題

日常對話

臺灣本地話題討論

討論臺灣本地生活話題如'肉圓要不要加香菜'等

能提供符合臺灣本地習慣的回答

信息查詢

臺灣相關信息查詢

查詢臺灣相關機構、人物等信息

能準確回答如'NTU在哪?'、'唐鳳是誰?'等問題

🚀 Taiwan-LLaMa-v1.0 - GGUF

本項目提供了 Yen-Ting Lin的臺灣文化語言模型v1.0 的GGUF格式模型文件，助力臺灣文化相關的文本生成任務。

🚀 快速開始

本倉庫包含了 Yen-Ting Lin的臺灣文化語言模型v1.0 的GGUF格式模型文件。

✨ 主要特性

關於GGUF

GGUF是llama.cpp團隊在2023年8月21日推出的新格式，它取代了不再被llama.cpp支持的GGML。

GGUF的主要優勢在於它是一種可擴展、面向未來的格式，能將更多關於模型的信息作為元數據存儲。此外，它還顯著改進了分詞代碼，首次實現了對特殊標記的全面支持，這將提升模型性能，尤其是對於使用新特殊標記和自定義提示模板的模型。

截至8月25日，以下是已知支持GGUF的客戶端和庫：

llama.cpp。
text-generation-webui，最廣泛使用的Web UI。通過ctransformers後端支持GGUF的GPU加速，llama-cpp-python後端也即將支持。
KoboldCpp，從1.41版本開始支持GGUF！這是一個強大的GGML Web UI，支持全GPU加速，尤其適合講故事。
LM Studio，0.2.2及更高版本支持GGUF。這是一個功能齊全的本地GUI，在Windows（NVIDIA和AMD）和macOS上均支持GPU加速。
LoLLMS Web UI，現在應該可以使用，選擇c_transformers後端。這是一個很棒的Web UI，有許多有趣的功能，支持CUDA GPU加速。
ctransformers，從0.2.24版本開始支持GGUF！這是一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
llama-cpp-python，從0.1.79版本開始支持GGUF。這是一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
candle，在8月22日添加了對GGUF的支持。Candle是一個Rust機器學習框架，注重性能，包括GPU支持和易用性。

可用倉庫

📚 詳細文檔

原始模型卡片：Yen-Ting Lin的臺灣文化語言模型v1.0

臺灣文化語言模型

✍️ 在線演示 • 🤗 HF倉庫 • 🐦 Twitter • 📃 [論文即將發佈] • 👨️ Yen-Ting Lin

概述

Taiwan-LLaMa是基於LLaMa 2進行全參數微調的模型，適用於繁體中文應用。

Taiwan-LLaMa v1.0 在超過50億個繁體中文標記上進行了預訓練，並在超過49萬個繁體中文對話上進行了指令微調。

演示

可以在 Hugging Face Spaces 上訪問該模型的即時演示。

關鍵特性

支持繁體中文：該模型經過微調，能夠理解和生成繁體中文文本，適用於臺灣文化及相關應用。
指令微調：在對話數據上進一步微調，能夠提供上下文感知和遵循指令的響應。
在Vicuna基準測試中的表現：Taiwan-LLaMa在Vicuna基準測試中的相對性能是與GPT-4和ChatGPT等模型進行比較的，它特別針對臺灣文化進行了優化。
靈活定製：在演示中可以使用系統提示、溫度、top-p和top-k等高級選項來控制模型的行為。

正在進行的工作

[ ] 改進預訓練：正在開發更精細的預訓練過程（例如，使用更多來自臺灣的數據、改進訓練策略），旨在提高模型在臺灣文化方面的性能。
[ ] 擴展最大長度：利用論文中描述的Rope機制，將模型的長度從4k擴展到8k。

臺灣文化示例

問題	ChatGPT	Taiwan LLaMa v1.0	Taiwan LLaMa v0.0（未預訓練）	Llama2_Traditional_Chinese_13b_Chat
以惡地景觀著名的是高雄哪一個景點?	以惡地地景著名的是高雄市的旗津。	高雄以擁有惡地景觀著名的景點是田寮月世界。✅	以惡地景觀著名的是高雄市的旗津島。旗津島是一個小島，...	高雄市內有多個以惡地景觀著名的景點，其中以下面幾個最為著名： 1. 高雄捷運紅線沿途景點：高雄市政府為了推廣高雄
唐鳳是誰？	唐鳳（Audrey Tang）是臺灣的政治家、社會活動家和軟件工程師。她於2016年擔任臺灣行政院數位政務委員，是臺灣政府歷史上首位沒有政黨背景的政務官。唐鳳在軟件工程領域有豐富的經驗。 ✅	唐鳳是政治評論家、資訊社會學者，也是臺灣第一位擔任政府數位政委的人。 ✅	唐鳳（Tang Feng）是一位著名的中國演員和歌手。他出生於1974年12月17日，出生地在中國北京。唐鳳在1995年開始他的演藝生涯，並在同年發行了他的首張專輯《我不孤單》。此後，他發行了許多受歡迎的歌曲，並在多部電視劇和電影中擔任主角。唐鳳因其精湛的演技和迷人的歌聲而被譽為“亞洲魅力男王”。他的音樂獲得了多個獎項，包括“華表最佳新男演唱獎”、“華表最佳歌曲獎”和“華表最佳舞蹈獎”等。	唐鳳是唐朝時期的一位著名文學家，他的代表作品包括《陰騭》、《狂凡子》等。他的文學風格具有強烈的個性和創意，被譽為「唐代文學之父」。
NTU 在哪?	NTU位於新加坡，具體地址是50 Nanyang Avenue, Singapore 639798。	NTU 是國立臺灣大學的縮寫。它是臺灣的一所頂尖研究型大學，位於臺北市。✅	NTU 是臺灣的一所大學，位於臺北市。✅	NTU 的總部位於臺灣新北市板橋區，佔地面積約為1,000公頃。
什麼是22K?	"22K" 可能指的是金的純度，尤其是在珠寶和金飾方面。	"22K"是指臺灣的大學畢業生的起薪，大約是新臺幣22,000元。這個詞被用來形容大學畢業生的起薪偏低，並且在就業市場上對於大學畢業生的需求不足。✅	22K是指溫度尺度上的22,000K（千度）。1K代表一度，即溫度差距，是攝氏溫標（攝氏度）的一百萬分之一。因此，22K等於-253.15°C（攝氏溫標）或-423.67°F（華氏溫標）。	22K是一種簡寫，即22,000。它是一個數字，表示22,000個單位。
肉圓要不要加香菜？	這是個個人口味的問題，有些人喜歡在肉圓中加入香菜，因為香菜的清香可以增添風味；而有些人則不喜歡香菜的味道，覺得它會蓋過其他食材的味道。所以要不要加香菜，可以根據個人喜好來決定。	這是一個個人喜好的問題，有些人喜歡在肉圓里加香菜，有些人不喜歡。在臺灣，肉圓加香菜是一種常見的做法。然而，在其他國家這是一個文化差異的問題。😊	肉圓加香菜可以增添一些芳香和美味的口感，如果你喜歡香菜的味道，可以試試加入肉圓中。香菜通常在製作過程中炒香，可以增添一些芳香和美味的味道。如果你想要加入香菜，可以在製作過程中炒香一些香菜，然後將其混入肉圓中。肉圓加香菜可以增添一些芳香和美味的口感，如果你喜歡香菜的味道，可以試試加入肉圓中。	加香菜的肉圓味道更好，但是不加香菜的肉圓也很好吃。如果你喜歡香菜的味道，那麼加上香菜就好了。如果你不喜歡香菜，那麼不加也不會影響肉

模型

我們提供了一些訓練好的模型檢查點，可以在Hugging Face 這裡找到它們。以下是一些從LLaMa 2微調而來的檢查點的快速鏈接：

模型	13B
Taiwan-LLaMa v1.0 (更適合臺灣文化)	🤗 yentinglin/Taiwan-LLaMa-v1.0
Taiwan-LLaMa v0.9（部分指令集）	🤗 yentinglin/Taiwan-LLaMa-v0.9
Taiwan-LLaMa v0.0（未進行繁體中文預訓練）	🤗 yentinglin/Taiwan-LLaMa-v0.0

數據

以下是我們用於訓練模型的數據集的快速鏈接：

數據集	鏈接
指令微調	🤗 yentinglin/traditional_mandarin_instructions
繁體中文預訓練	🤗 yentinglin/zh_TW_c4

架構

Taiwan-LLaMa基於LLaMa 2，採用了Transformer架構、flash attention 2 和bfloat16。

它包括：

預訓練階段：在超過50億個繁體中文標記的龐大語料庫上進行預訓練，這些標記是從Common Crawl中提取的。
微調階段：在超過49萬個多輪對話數據上進行進一步的指令微調，以實現更多遵循指令和上下文感知的響應。

在Vicuna基準測試中的通用能力

為了評估通用能力，數據被翻譯成了繁體中文。

Vicuna基準測試結果

分數是以ChatGPT為基準計算的，ChatGPT的分數表示為100%。其他值顯示了不同模型相對於ChatGPT的相對性能。

語言模型	相對分數 (%)
GPT-4	102.59%
ChatGPT	100.00%
Taiwan-LLaMa v1.0	76.76%
Claude-Instant-1.2	74.04%
Llama2_Traditional_Chinese_13b_Chat	56.21%

如何在自己的機器上部署模型？

我們建議使用 🤗 Text Generation Inference 來託管模型。有關使用和限制的詳細信息，請參閱他們的許可證。

bash run_text_generation_inference.sh "yentinglin/Taiwan-LLaMa-v1.0" NUM_GPUS DIR_TO_SAVE_MODEL PORT MAX_INPUT_LEN MODEL_MAX_LEN

提示格式遵循vicuna-v1.1模板：

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {user} ASSISTANT:

設置開發環境

conda create -n taiwan-llama python=3.10 -y 
conda activate taiwan-llama
pip install -r requirements.txt

引用

如果您在研究中使用了我們的代碼、數據或模型，請引用此倉庫。您可以使用以下BibTeX條目：

@inproceedings{lin-chen-2023-llm,
    title = "{LLM}-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models",
    author = "Lin, Yen-Ting  and Chen, Yun-Nung",
    booktitle = "Proceedings of the 5th Workshop on NLP for Conversational AI (NLP4ConvAI 2023)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.nlp4convai-1.5",
    pages = "47--58"
}

@misc{taiwanllama,
    author={Lin, Yen-Ting and Chen, Yun-Nung},
    title={Language Models for Taiwanese Culture},
    year={2023},
    url={https://github.com/MiuLab/Taiwan-LLaMa},
    note={Code and models available at https://github.com/MiuLab/Taiwan-LLaMa},
}

與我們合作

如果您有興趣為繁體中文語言模型的開發做出貢獻、探索新的應用或利用Taiwan-LLaMa滿足您的特定需求，請隨時與我們聯繫。我們歡迎學術界、工業界和個人貢獻者的合作。

📄 許可證

本項目中的代碼遵循Apache 2.0許可證，請參閱 LICENSE 文件瞭解詳細信息。

本項目中包含的模型遵循LLAMA 2社區許可證。請參閱 LLAMA2許可證瞭解完整詳細信息。

致謝

我們感謝 Meta LLaMA團隊和 Vicuna團隊在推動大語言模型民主化方面所做的開源努力。

信息表格

屬性	詳情
模型類型	llama
訓練數據集	yentinglin/zh_TW_c4、yentinglin/traditional_chinese_instructions
模型創建者	Yen-Ting Lin
模型鏈接	https://huggingface.co/yentinglin/Taiwan-LLaMa-v1.0
模型名稱	Language Models for Taiwanese Culture 1.0
量化者	Audrey Tang
任務類型	文本生成
許可證	llama2
語言	中文
推理	false