Taiwan-LLaMa-v1.0-GGUFオープンソースモデル - 台湾の文化に適合した繁体字中国語での交流に最適な選択肢

ホーム

Taiwan LLaMa V1.0 GGUF

audreytによって開発

LLaMa 2を基に全パラメータ微調整した繁体中国語モデルで、台湾文化アプリケーション専用に設計

大規模言語モデル中国語#繁体中国語最適化 #台湾文化理解 #命令微調整

ダウンロード数 650

リリース時間 : 8/26/2023

モデル概要

台湾LLaMa v1.0は50億以上のトークンで事前学習され、49万以上の繁体中国語会話で命令微調整されており、台湾文化及び関連アプリケーションに適しています

モデル特徴

繁体中国語サポート

繁体中国語テキストの理解と生成に最適化されており、特に台湾文化関連アプリケーションに適しています

命令微調整

49万以上の繁体中国語会話で命令微調整されており、文脈を理解し命令に従った応答を提供

台湾文化最適化

台湾のローカル文化、習慣、知識に特化して最適化

GGUFフォーマットサポート

様々な量子化バージョンのGGUFフォーマットモデルファイルを提供し、異なるハードウェア環境での展開を容易にします

モデル能力

繁体中国語テキスト生成

台湾文化関連Q&A

命令追従

文脈理解

使用事例

文化教育

台湾文化知識Q&A

台湾の歴史、地理、風習などの文化的な質問に回答

'悪地景観で有名な高雄の観光地は?'などの質問に正確に回答可能

日常会話

台湾ローカルトピック討論

'肉圓に香菜を入れるべきか'などの台湾ローカル生活トピックを討論

台湾のローカル習慣に合った回答を提供可能

情報検索

台湾関連情報検索

台湾関連機関、人物などの情報を検索

'NTUはどこ?'、'唐鳳は誰?'などの質問に正確に回答可能

🚀 台湾-LLaMa-v1.0 - GGUF

このプロジェクトは、台湾文化に特化した言語モデルであるTaiwan-LLaMa-v1.0のGGUF形式のモデルファイルを提供します。GGUFは新しいモデルフォーマットで、性能や拡張性に優れています。

🚀 クイックスタート

このリポジトリには、Yen-Ting Lin氏のLanguage Models for Taiwanese Culture v1.0 のGGUF形式のモデルファイルが含まれています。

✨ 主な機能

GGUF形式の利点

GGUFは2023年8月21日にllama.cppチームによって導入された新しいフォーマットです。これはGGMLの代替であり、現在はllama.cppではGGMLがサポートされなくなりました。

GGUFの主な利点は、拡張性があり将来性のあるフォーマットであり、モデルに関するより多くの情報をメタデータとして保存することができることです。また、大幅に改善されたトークン化コードが含まれており、初めて特殊トークンの完全サポートが実現されています。これにより、特に新しい特殊トークンを使用し、カスタムプロンプトテンプレートを実装したモデルでのパフォーマンスが向上するはずです。

8月25日現在、GGUFをサポートすることが知られているクライアントとライブラリのリストは次の通りです。

llama.cpp
text-generation-webui。最も広く使用されているWeb UIです。ctransformersバックエンドを介してGPUアクセラレーションでGGUFをサポートしています - llama-cpp-pythonバックエンドもまもなく動作するはずです。
KoboldCpp。バージョン1.41からGGUFをサポートしています！強力なGGML Web UIで、完全なGPUアクセラレーションがあります。特にストーリーテリングに適しています。
LM Studio。バージョン0.2.2以降がGGUFをサポートしています。GPUアクセラレーション付きの完全機能のローカルGUIで、Windows（NVidiaおよびAMD）とmacOSの両方で動作します。
LoLLMS Web UI。c_transformersバックエンドを選択すると動作するはずです。多くの興味深い機能を備えた素晴らしいWeb UIです。CUDA GPUアクセラレーションをサポートしています。
ctransformers。バージョン0.2.24からGGUFをサポートしています！GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
llama-cpp-python。バージョン0.1.79からGGUFをサポートしています。GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle。8月22日にGGUFサポートが追加されました。Candleは、パフォーマンス（GPUサポートを含む）と使いやすさに重点を置いたRustのMLフレームワークです。

台湾-LLaMaの特徴

繁体字中国語のサポート：モデルは繁体字中国語のテキストを理解し、生成するように微調整されており、台湾文化や関連するアプリケーションに適しています。
命令に基づく微調整：会話データでさらに微調整されており、文脈を考慮した命令に従った応答を提供します。
Vicunaベンチマークでの性能：台湾-LLaMaのVicunaベンチマークでの相対的な性能は、GPT-4やChatGPTなどのモデルと比較されています。特に台湾文化に最適化されています。
柔軟なカスタマイズ：デモでは、システムプロンプト、温度、top-p、top-kなどのモデルの動作を制御するための高度なオプションが利用可能です。

📦 インストール

モデルのデプロイ

モデルを独自のマシンにデプロイするには、🤗 Text Generation Inference を使用することをおすすめします。使用方法と制限事項の詳細については、ライセンスを参照してください。

bash run_text_generation_inference.sh "yentinglin/Taiwan-LLaMa-v1.0" NUM_GPUS DIR_TO_SAVE_MODEL PORT MAX_INPUT_LEN MODEL_MAX_LEN

開発環境のセットアップ

conda create -n taiwan-llama python=3.10 -y 
conda activate taiwan-llama
pip install -r requirements.txt

💻 使用例

基本的な使用法

プロンプトフォーマットはvicuna-v1.1のテンプレートに従います。

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {user} ASSISTANT:

📚 ドキュメント

モデル情報

属性	详情
モデル作成者	Yen-Ting Lin
モデル名	Language Models for Taiwanese Culture 1.0
モデルタイプ	llama
モデルリンク	https://huggingface.co/yentinglin/Taiwan-LLaMa-v1.0
データセット	- yentinglin/zh_TW_c4 - yentinglin/traditional_chinese_instructions
量子化担当者	Audrey Tang
パイプラインタグ	text-generation
ライセンス	llama2
言語	zh

モデルチェックポイント

モデル	13B
Taiwan-LLaMa v1.0 (台湾文化に最適)	🤗 yentinglin/Taiwan-LLaMa-v1.0
Taiwan-LLaMa v0.9 (部分的な命令セット)	🤗 yentinglin/Taiwan-LLaMa-v0.9
Taiwan-LLaMa v0.0 (繁体字中国語の事前学習なし)	🤗 yentinglin/Taiwan-LLaMa-v0.0

データセット

データセット	リンク
命令微調整用	🤗 yentinglin/traditional_mandarin_instructions
繁体字中国語の事前学習用	🤗 yentinglin/zh_TW_c4

アーキテクチャ

台湾-LLaMaはLLaMa 2をベースにしており、トランスフォーマーアーキテクチャ、flash attention 2、およびbfloat16を利用しています。

事前学習フェーズ：繁体字中国語のコモンクロールから抽出された50億以上のトークンの膨大なコーパスで事前学習されています。
微調整フェーズ：49万以上のマルチターン会話データでさらに命令微調整されており、より命令に従い、文脈を考慮した応答を可能にしています。

Vicunaベンチマークでの汎用能力

汎用能力を評価するために、データは繁体字中国語に翻訳されています。

Vicunaベンチマークのスコア

スコアはChatGPTをベースライン（100%）として計算されています。他の値は、ChatGPTと比較した異なるモデルの相対的な性能を示しています。

言語モデル	相対スコア (%)
GPT-4	102.59%
ChatGPT	100.00%
Taiwan-LLaMa v1.0	76.76%
Claude-Instant-1.2	74.04%
Llama2_Traditional_Chinese_13b_Chat	56.21%

台湾文化に関する例

質問	ChatGPT	Taiwan LLaMa v1.0	Taiwan LLaMa v0.0 (事前学習なし)	Llama2_Traditional_Chinese_13b_Chat
以惡地景觀著名的是高雄哪一個景點?	以惡地地景著名的是高雄市的旗津。	高雄以擁有惡地景觀著名的景點是田寮月世界。✅	以惡地景觀著名的是高雄市的旗津島。旗津島是一個小島，...	高雄市內有多個以惡地景觀著名的景點，其中以下面幾個最為著名： 1. 高雄捷運紅線沿途景點：高雄市政府為了推廣高雄
唐鳳是誰？	唐鳳（Audrey Tang）是台灣的政治家、社會活動家和軟體工程師。她於2016年擔任台灣行政院數位政務委員，是台灣政府歷史上首位沒有政黨背景的政務官。唐鳳在軟體工程領域有豐富的經驗。 ✅	唐鳳是政治評論家、資訊社會學研究者，也是台灣第一位擔任政府數位政委的人。 ✅	唐鳳（Tang Feng）是一位著名的中國演員和歌手。他出生於1974年12月17日，出生地點在中國北京。唐鳳在1995年開始他的演藝生涯，並在同年發行了他的首張專輯《我不孤單》。此後，他發行了許多受歡迎的歌曲，並在多部電視劇和電影中擔任主角。唐鳳因其精湛的演技和迷人的歌聲而被譽為“亞洲魅力男王”。他的音樂獲得了多個獎項，包括“華表最佳新男演唱獎”、“華表最佳歌曲獎”和“華表最佳舞蹈獎”等。	唐鳳是唐朝時期的一位著名文學家，他的代表作品包括《陰騭》、《狂凡子》等。他的文學風格具有強烈的個性和創意，被譽為「唐代文學之父」。
NTU 在哪?	NTU位於新加坡，具體地址是50 Nanyang Avenue, Singapore 639798。	NTU 是國立臺灣大學的縮寫。它是臺灣的一所頂尖研究型大學，位於臺北市。✅	NTU 是台灣的一所大學，位於台北市。✅	NTU 的總部位於台灣新北市板橋區，佔地面積約為1,000公頃。
甚麼是22K?	"22K" 可能指的是金的純度，尤其是在珠寶和金飾方面。	"22K"是指台灣的大學畢業生的起薪，大約是新台幣22,000元。這個詞被用來形容大學畢業生的起薪偏低，並且在就業市場上對於大學畢業生的需求不足。✅	22K是指溫度尺度上的22,000K（千度）。1K代表一度，即溫度差距，是攝氏溫標（攝氏度）的一百萬分之一。因此，22K等於-253.15°C（攝氏溫標）或-423.67°F（華氏溫標）。	22K是一種簡寫，即22,000。它是一個數字，表示22,000個單位。
肉圓要不要加香菜？	這是個個人口味的問題，有些人喜歡在肉圓中加入香菜，因為香菜的清香可以增添風味；而有些人則不喜歡香菜的味道，覺得它會蓋過其他食材的味道。所以要不要加香菜，可以根據個人喜好來決定。	這是一個個人喜好的問題，有些人喜歡在肉圓裡加香菜，有些人不喜歡。在台灣，肉圓加香菜是一種常見的做法，這是一種在肉圓上加香菜的做法。然而，在其他國這是一個文化差異的問題。😊	肉圓加香菜可以增添一些芳香和美味的口感，如果你喜歡香菜的味道，可以試試加入肉圓中。香菜通常在製作過程中炒香，可以增添一些芳香和美味的味道。如果你想要加入香菜，可以在製作過程中炒香一些香菜，然後將其混入肉圓中。肉圓加香菜可以增添一些芳香和美味的口感，如果你喜歡香菜的味道，可以試試加入肉圓中。	加香菜的肉圓味道更好，但是不加香菜的肉圓也很好吃。如果你喜歡香菜的味道，那麼加上香菜就好了。如果你不喜歡香菜，那麼不加也不會影響肉

🔧 技術詳細

開発中の機能

[ ] 改善された事前学習：より良い台湾文化に対応するために、洗練された事前学習プロセス（例：台湾からのより多くのデータ、トレーニング戦略）が開発中です。
[ ] 最大長の拡張：論文で説明されているRopeメカニズムを利用して、モデルの長さを4kから8kに拡張します。

📄 ライセンス

このプロジェクトのコードはApache 2.0ライセンスの下でライセンスされています。詳細については、LICENSEファイルを参照してください。

このプロジェクトに含まれるモデルは、LLAMA 2コミュニティライセンスの下でライセンスされています。完全な詳細については、LLAMA2 License を参照してください。

引用

もしあなたが私たちのコード、データ、またはモデルをあなたの研究で使用する場合は、このリポジトリを引用してください。以下のBibTeXエントリを使用することができます。

@inproceedings{lin-chen-2023-llm,
    title = "{LLM}-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models",
    author = "Lin, Yen-Ting  and Chen, Yun-Nung",
    booktitle = "Proceedings of the 5th Workshop on NLP for Conversational AI (NLP4ConvAI 2023)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.nlp4convai-1.5",
    pages = "47--58"
}

@misc{taiwanllama,
    author={Lin, Yen-Ting and Chen, Yun-Nung},
    title={Language Models for Taiwanese Culture},
    year={2023},
    url={https://github.com/MiuLab/Taiwan-LLaMa},
    note={Code and models available at https://github.com/MiuLab/Taiwan-LLaMa},
}