Phi-3-mini-4k-instruct-onnx-web開源模型 - 加速瀏覽器內推理輕鬆上手

首頁

Phi 3 Mini 4k Instruct Onnx Web

由microsoft開發

適用於瀏覽器內推理的Phi-3 Mini-4K-Instruct ONNX模型，通過ONNX Runtime Web加速瀏覽器中的推理。

大型語言模型

Transformers

開源協議:MIT #瀏覽器內推理 #輕量級對話模型 #WebGPU加速

下載量 243

發布時間 : 5/17/2024

模型概述

這是一個輕量級、最先進的開源模型，擁有38億參數，專注於高質量和推理密集的特性，適用於常識、語言理解、數學、代碼、長上下文和邏輯推理等任務。

模型特點

瀏覽器內推理

完全在瀏覽器中運行，無需服務器支持，通過ONNX Runtime Web加速。

輕量級高性能

38億參數的輕量級模型，在參數少於130億的模型中展現了強大且最先進的性能。

WebGPU加速

推薦使用WebGPU後端高效運行，在NVIDIA GeForce RTX 4090上可達約42個令牌/秒。

優化存儲

模型為fp16，權重採用int4塊量化，確保模型和外部數據文件保持在2GB以下，便於在Chromium中緩存。

模型能力

文本生成

常識推理

語言理解

數學計算

代碼生成

邏輯推理

使用案例

對話系統

智能聊天機器人

構建完全在瀏覽器中運行的對話式AI應用。

低延遲的交互體驗

教育

學習助手

幫助學生解答數學、編程等問題。

提供即時、準確的解答

🚀 Phi-3 Mini-4K-Instruct ONNX模型，用於瀏覽器內推理

本項目提供了一個可在瀏覽器內運行的Phi-3 Mini-4K-Instruct ONNX模型。它能讓你在瀏覽器中直接運行Phi3-mini-4K模型，無需額外的服務器支持。藉助ONNX Runtime Web，該模型在瀏覽器中的推理速度得到了顯著優化。你可以點擊這裡查看演示。

Phi-3-Mini-4K-Instruct是一個具有38億參數的輕量級、先進的開源模型。它基於Phi-3數據集進行訓練，該數據集包含合成數據和經過篩選的公開網站數據，注重高質量和推理密集特性。在常識、語言理解、數學、代碼、長上下文和邏輯推理等基準測試中，Phi-3 Mini-4K-Instruct在參數少於130億的模型中表現出色。

🚀 快速開始

運行環境

ONNX Runtime Web 是一個JavaScript庫，可讓Web開發者直接在瀏覽器中部署機器學習模型，並提供多種支持硬件加速的後端。為了高效運行Phi-3-mini，建議使用WebGPU後端。

支持設備和瀏覽器

支持WebGPU的設備和瀏覽器包括：Mac、Windows、ChromeOS系統下的Chrome 113+和Edge 113+，以及安卓系統下的Chrome 121+。你可以點擊這裡查看各瀏覽器對WebGPU的支持情況。

運行示例

這裡有一個端到端示例，展示瞭如何使用ONNX Runtime結合WebGPU運行優化後的Web版Phi3-mini-4K。

📊 性能指標

模型的性能會因GPU的不同而有所差異，GPU性能越強，推理速度越快。在NVIDIA GeForce RTX 4090上，推理速度約為每秒42個token。

🔧 技術細節

不同平臺模型獲取

若你需要獲取適用於服務器平臺、Windows、Linux、Mac桌面和移動設備的其他優化後的Phi3-mini-4k ONNX模型，請訪問Phi-3-mini-4k-instruct onnx model。

模型差異

與其他版本相比，Web版模型具有以下特點：

模型權重採用fp16和int4塊量化。
“logits”輸出為fp32。
模型使用MHA而非GQA。
onnx和外部數據文件需小於2GB，以便在Chromium中緩存。

模型優化

若你想優化微調後的Phi3-mini-4k模型，使其能在ONNX Runtime Web上運行，請參考此Olive示例。Olive是一個易於使用的模型優化工具，可生成優化後的ONNX模型，以在不同平臺上高效運行。

📚 模型描述

屬性	詳情
開發者	Microsoft
模型類型	ONNX
推理語言 (NLP)	JavaScript
許可證	MIT
模型說明	這是用於ONNX Runtime推理的Phi-3 Mini-4K-Instruct模型的Web版本。