LTX Video 0.9.7 Distilled
DiTアーキテクチャに基づく初のリアルタイム高品質動画生成モデル、1216×704解像度30FPS生成をサポート
ダウンロード数 208
リリース時間 : 5/14/2025
モデル概要
拡散モデルに基づくテキスト/画像から動画を生成するシステム、大規模データセットのトレーニングにより高画質動画をリアルタイム生成
モデル特徴
リアルタイム高画質生成
1216×704解像度、30フレーム/秒で動画を生成可能、再生速度を上回る速度
デュアルモーダル入力
テキストプロンプトと画像入力の2つの生成モードを同時にサポート
高品質出力
大規模で多様な動画データセットでトレーニングされ、リアルで豊かな高画質動画を生成
モデル能力
テキストから動画生成
画像から動画生成
高解像度動画合成
リアルタイム動画レンダリング
使用事例
クリエイティブコンテンツ制作
ショート動画制作
テキスト説明に基づきクリエイティブなショート動画コンテンツを自動生成
720P-1080P高画質動画を生成
画像アニメーション化
静止画を動画に変換
元の構図を保持しつつ合理的な動的効果を追加
マーケティング素材制作
広告動画生成
製品紹介動画を迅速に生成
複数角度の展示とシーン切り替えをサポート
tags:
- ltx-video
- image-to-video pinned: true language:
- en license: other pipeline_tag: text-to-video library_name: diffusers
LTX-Video 0.9.7 蒸留モデルカード
このモデルカードは、LTX-Videoモデルに関連するモデルに焦点を当てています。コードベースはこちらで利用可能です。
LTX-Videoは、高品質な動画をリアルタイムで生成可能な初のDiTベースの動画生成モデルです。1216×704解像度で30FPSの動画を、視聴可能な速度よりも速く生成します。多様な動画の大規模データセットでトレーニングされており、現実的でバラエティに富んだコンテンツの高解像度動画を生成します。 テキストから動画、および画像+テキストから動画の両方のユースケースに対応したモデルを提供しています。

![]() 長い茶色の髪と明るい肌の女性が、長い金髪の別の女性に微笑みかけています...長い茶色の髪と明るい肌の女性が、長い金髪の別の女性に微笑みかけています。茶色の髪の女性は黒いジャケットを着ており、右頬に小さなほくろがあります。カメラアングルはクローズアップで、茶色の髪の女性の顔に焦点が当てられています。照明は暖かく自然で、おそらく夕日の光が柔らかな輝きを放っています。シーンは実写映像のように見えます。 |
![]() 夜の街路に停車した白いジープから女性が離れ、階段を上りドアをノックします...夜の街路に停車した白いジープから女性が離れ、階段を上りドアをノックします。女性はダークジャケットとジーンズを着ており、ジープから左側の通りに向かって背を向けて歩いています。彼女は一定のペースで歩き、腕を軽く振っています。通りは薄暗く、街灯が濡れた舗道に光のプールを作っています。ダークジャケットとジーンズの男性がジープの横を反対方向に歩いています。カメラは女性の後ろから階段を上る様子を追い、緑色のドアがある建物に向かいます。彼女は階段の頂上に達し左に曲がり、建物に向かって歩き続けます。ドアに到達し右手でノックします。カメラは静止したままドアに焦点を当てています。シーンは実写映像として撮影されています。 |
![]() アップスタイルの金髪の女性が、スパンコールの黒いドレスと真珠のイヤリングを身に付け、悲しげな表情で下を向いています...アップスタイルの金髪の女性が、スパンコールの黒いドレスと真珠のイヤリングを身に付け、悲しげな表情で下を向いています。カメラは静止したまま女性の顔に焦点を当てています。照明は暗く、顔に柔らかな影を落としています。シーンは映画やテレビ番組からのもののように見えます。 |
![]() カメラが雪に覆われた山脈をパンします...カメラが雪に覆われた山脈をパンし、雪に覆われた峰と谷の広大な景色を映し出します。山々は厚い雪に覆われ、一部はほぼ白く、他の部分はやや暗い灰色がかっています。峰はギザギザで不規則で、急峻に空に向かってそびえ立つものもあれば、より丸みを帯びたものもあります。谷は深く狭く、急勾配の斜面も雪に覆われています。前景の木々はほとんど葉がなく、枝にわずかな葉が残っています。空は曇っており、厚い雲が太陽を遮っています。全体的な印象は平和と静けさで、雪に覆われた山々は自然の力と美しさの証です。 |
![]() 明るい肌の女性が青いジャケットとベール付きの黒い帽子をかぶり、下を見て右を向き、話しながら上を向きます...明るい肌の女性が青いジャケットとベール付きの黒い帽子をかぶり、下を見て右を向き、話しながら上を向きます。茶色の髪はアップスタイルで、薄茶色の眉毛をしています。ジャケットの下に白い襟付きシャツを着ています。カメラは彼女の顔に静止したままです。背景はぼやけていますが、木々と時代衣装の人々が見えます。シーンは実写映像として撮影されています。 |
![]() 薄暗い部屋で男性がヴィンテージ電話で話し、受話器を置き、悲しげな表情で下を向きます...薄暗い部屋で男性がヴィンテージ電話で話し、受話器を置き、悲しげな表情で下を向きます。右手で黒いダイヤル式電話を右耳に当て、左手には琥珀色の液体が入ったロックグラスを持っています。白いシャツの上に茶色のスーツジャケットを着ており、左手の薬指に金の指輪をはめています。短い髪はきちんと整えられ、明るい肌で目の周りにしわが見えます。カメラは静止したまま、顔と上半身に焦点を当てています。部屋は暗く、画面左側の暖かい光源のみが照明で、後ろの壁に影を落としています。シーンは映画からのもののように見えます。 |
![]() 刑務官が独房のドアを開錠し開け、テーブルに座る若い男性と女性を現します...刑務官が独房のドアを開錠し開け、テーブルに座る若い男性と女性を現します。刑務官は左胸にバッジが付いた濃紺の制服を着て、右手に鍵を持って独房のドアを開錠し引っ張って開けます。短い茶色の髪と明るい肌で、表情は中立です。黒と白の縞模様のシャツを着た若い男性は、白いテーブルクロスがかけられたテーブルに座り、女性の方を向いています。短い茶色の髪と明るい肌で、表情は中立です。女性は濃紺のシャツを着て、若い男性の反対側に座り、顔を彼に向けています。短い金髪と明るい肌です。カメラは中距離からやや右側に位置して静止したままです。部屋は薄暗く、テーブルと2人の人物を照らす単一の照明器具があります。壁は大きな灰色のコンクリートブロックでできており、背景に金属製のドアが見えます。シーンは実写映像として撮影されています。 |
![]() 顔に血が付いた白いタンクトップの女性が下を見て右を向き、話しながら上を向きます...顔に血が付いた白いタンクトップの女性が下を見て右を向き、話しながら上を向きます。後ろにまとめた黒い髪と明るい肌で、顔と胸は血に覆われています。カメラアングルはクローズアップで、女性の顔と上半身に焦点が当てられています。照明は暗く青みがかっており、重く緊張した雰囲気を作り出しています。シーンは映画やテレビ番組からのもののように見えます。 |
![]() 白髪交じりの髪とひげ、灰色のシャツを着た男性が下を見て右を向き、左に頭を向けます...白髪交じりの髪とひげ、灰色のシャツを着た男性が下を見て右を向き、左に頭を向けます。カメラアングルはクローズアップで、男性の顔に焦点が当てられています。照明は暗く、緑がかった色合いです。シーンは実写映像のように見えます。 |
![]() 透き通ったターコイズ色の川が岩だらけの峡谷を流れ、小さな滝を下り底に水たまりを形成します...透き通ったターコイズ色の川が岩だらけの峡谷を流れ、小さな滝を下り底に水たまりを形成します。川がシーンの主な焦点で、澄んだ水が周囲の木々と岩を映しています。峡谷の壁は急峻で岩だらけで、一部に植生が生えています。木々は主に松の木で、緑の針葉が茶色と灰色の岩と対照的です。シーンの全体的な雰囲気は平和と静けさです。 |
![]() スーツ姿の男性が部屋に入り、ソファに座る2人の女性に話しかけます...スーツ姿の男性が部屋に入り、ソファに座る2人の女性に話しかけます。男性は金のネクタイをしたダークスーツを着て、左から部屋に入りフレーム中央に向かって歩きます。短い灰色の髪と明るい肌で、真剣な表情です。ソファに近づきながら右手を椅子の背もたれに置きます。背景の薄い色のソファには2人の女性が座っています。左側の女性は薄い青のセーターを着て短い金髪です。右側の女性は白いセーターを着て短い金髪です。カメラは静止したまま男性が部屋に入る様子に焦点を当てています。部屋は明るく照らされ、壁と家具に暖かい色調が反射しています。シーンは映画やテレビ番組からのもののように見えます。 |
![]() 波が海岸線のギザギザした岩に打ちつけ、しぶきを高く空中に放ちます...波が海岸線のギザギザした岩に打ちつけ、しぶきを高く空中に放ちます。岩は濃い灰色で、鋭い縁と深い割れ目があります。水は透き通った青緑色で、波が岩にぶつかる部分は白い泡立っています。空は薄灰色で、地平線にいくつかの白い雲が点在しています。 |
![]() カメラが円形の建物を中心に高層ビル群をパンします...カメラが円形の建物を中心に高層ビル群をパンします。カメラは左から右に移動し、ビルの上部と中央の円形建物を映し出します。ビルは様々な灰色と白の色合いで、円形建物は緑色の屋根を持っています。カメラアングルは高く、街を見下ろしています。照明は明るく、左上から太陽が照らしビルに影を落としています。シーンはコンピュータ生成映像です。 |
![]() 男性が窓に向かって歩き、外を見てから振り返ります...男性が窓に向かって歩き、外を見てから振り返ります。短い黒髪と濃い肌色で、茶色のコートと赤と灰色のスカーフを着ています。左から右に窓に向かって歩き、視線は外の何かに固定されています。カメラは中距離から後ろから追います。部屋は明るく、白い壁と白いカーテンがかかった大きな窓があります。窓に近づくと、頭をわずかに左に向け、次に右に戻します。その後、体全体を右に回し窓に向き合います。カメラは静止したまま窓の前で立つ様子を捉えます。シーンは実写映像として撮影されています。 |
![]() 濃紺の制服と帽子をかぶった2人の警察官が薄暗い部屋に入ります...濃紺の制服と帽子をかぶった2人の警察官が薄暗い部屋に入ります。最初の警官は短い茶髪と口ひげで、パートナーは剃り上げた頭とあごひげです。両方の警官は真剣な表情で、部屋の奥に向かって一定のペースで進みます。カメラはやや低い角度から静止したまま入ってくる様子を捉えます。部屋はレンガむき出しの壁と波型金属の天井で、背景には格子窓が見えます。照明は暗く、警官の顔に影を落とし陰鬱な雰囲気を強調しています。シーンは映画やテレビ番組からのもののように見えます。 |
![]() 短い茶髪の女性がマルーンのノースリーブトップと銀のネックレスを着て部屋を歩きながら話し、ピンクの髪と白いシャツの女性がドアに現れて叫びます...短い茶髪の女性がマルーンのノースリーブトップと銀のネックレスを着て部屋を歩きながら話し、ピンクの髪と白いシャツの女性がドアに現れて叫びます。最初の女性は左から右に歩き、表情は真剣です。明るい肌で眉はわずかにしかめられています。2人目の女性はドアに立ち、口を開けて叫んでいます。明るい肌で目は大きく見開かれています。部屋は薄暗く、背景に本棚が見えます。カメラは最初の女性が歩く様子を追い、次に2人目の女性の顔のクローズアップに切り替わります。シーンは実写映像として撮影されています。 |
モデルとワークフロー
名前 | 備考 | inference.py設定 | ComfyUIワークフロー(推奨) |
---|---|---|---|
ltxv-13b-0.9.7-dev | 最高品質、より多くのVRAMが必要 | ltxv-13b-0.9.7-dev.yaml | ltxv-13b-i2v-base.json |
ltxv-13b-0.9.7-mix | ltxv-13b-devとltxv-13b-distilledを同じマルチスケールレンダリングワークフローで混合し、速度と品質のバランスを取る | N/A | ltxv-13b-i2v-mix.json |
ltxv-13b-0.9.7-distilled | より高速、VRAM使用量が少ない、13bと比べて品質がわずかに低下。迅速な反復に最適 | ltxv-13b-0.9.7-distilled.yaml | ltxv-13b-dist-i2v-base.json |
ltxv-13b-0.9.7-distilled-lora128 | ltxv-13b-devを蒸留モデルのように動作させるLoRA | N/A | N/A |
ltxv-13b-0.9.7-fp8 | ltxv-13bの量子化バージョン | 近日公開 | ltxv-13b-i2v-base-fp8.json |
ltxv-13b-0.9.7-distilled-fp8 | ltxv-13b-distilledの量子化バージョン | 近日公開 | ltxv-13b-dist-fp8-i2v-base.json |
ltxv-2b-0.9.6 | 良好な品質、ltxv-13bよりもVRAM要件が低い | ltxv-2b-0.9.6-dev.yaml | ltxvideo-i2v.json |
ltxv-2b-0.9.6-distilled | 15倍高速、リアルタイム対応、必要なステップが少ない、STG/CFG不要 | ltxv-2b-0.9.6-distilled.yaml | ltxvideo-i2v-distilled.json |
モデル詳細
- 開発者: Lightricks
- モデルタイプ: 拡散ベースのテキストから動画、画像から動画生成モデル
- 対応言語: 英語
使用方法
直接利用
ライセンスに基づき以下の目的でモデルを使用できます:
- 2Bバージョン0.9: ライセンス
- 2Bバージョン0.9.1 ライセンス
- 2Bバージョン0.9.5 ライセンス
- 2Bバージョン0.9.6-dev ライセンス
- 2Bバージョン0.9.6-distilled ライセンス
- 13Bバージョン0.9.7-dev ライセンス
- 13Bバージョン0.9.7-dev-fp8 ライセンス
- 13Bバージョン0.9.7-distilled ライセンス
- 13Bバージョン0.9.7-distilled-fp8 ライセンス
- 13Bバージョン0.9.7-distilled-lora128 ライセンス
- 時間的アップスケーラーバージョン0.9.7 ライセンス
- 空間的アップスケーラーバージョン0.9.7 ライセンス
一般的なヒント:
- このモデルは32で割り切れる解像度と8 + 1(例:257)で割り切れるフレーム数で動作します。解像度やフレーム数が32や8 + 1で割り切れない場合、入力は-1でパディングされ、その後目的の解像度とフレーム数にクロップされます。
- モデルは720 x 1280以下の解像度と257フレーム未満で最もよく動作します。
- プロンプトは英語である必要があります。より詳細なほど良いです。良いプロンプトの例:
ターコイズ色の波が暗くギザギザした海岸の岩に打ちつけ、白い泡を空中に飛散させます。シーンは明るい青い水と暗くほぼ黒い岩との鮮明なコントラストが支配的です。水は透明なターコイズ色で、波は白い泡で覆われています。岩は暗くギザギザで、緑の苔が点在しています。海岸線には木々や低木などの緑豊かな植生が並んでいます。背景には密林に覆われたなだらかな丘があります。空は曇っており、光は薄暗いです。
オンラインデモ
以下のリンクからすぐにモデルを利用できます:
- LTX-Studio 画像から動画 (13B-mix)
- LTX-Studio 画像から動画 (13B蒸留)
- Fal.ai テキストから動画
- Fal.ai 画像から動画
- Replicate テキストから動画と画像から動画
ComfyUI
ComfyUIでモデルを使用するには、専用のComfyUIリポジトリの手順に従ってください。
ローカル実行
インストール
コードベースはPython 3.10.5、CUDAバージョン12.2でテストされており、PyTorch >= 2.1.2をサポートしています。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
# 環境作成
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
推論
モデルを使用するには、inference.pyの推論コードに従ってください:
テキストから動画生成:
python inference.py --prompt "プロンプト" --height 高さ --width 幅 --num_frames フレーム数 --seed シード --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
画像から動画生成:
python inference.py --prompt "プロンプト" --input_image_path 画像パス --height 高さ --width 幅 --num_frames フレーム数 --seed シード --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
Diffusers 🧨
LTX VideoはDiffusers Pythonライブラリと互換性があります。テキストから動画と画像から動画の両方の生成をサポートしています。
以下の例を試す前にdiffusers
をインストールしてください。
pip install -U git+https://github.com/huggingface/diffusers
以下の例を実行できます(アップサンプリングステージはオプションですが推奨されます):
テキストから動画:
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
prompt = "この動画は雪に覆われた曲がりくねった山道を1台の車が走る様子を描いています。道の両側には急峻な岩壁とまばらな植生があります。地形は起伏に富み、遠くに川が見えます。冬の山岳地帯をドライブする孤独さと美しさを捉えたシーンです。"
negative_prompt = "最悪の品質、一貫性のない動き、ぼやけている、ぎくしゃくしている、歪んでいる"
expected_height, expected_width = 704, 512
downscale_factor = 2 / 3
num_frames = 121
# パート1. 小さい解像度で動画生成
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
latents = pipe(
conditions=None,
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
decode_timestep = 0.05,
guidnace_scale=1.0,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# パート2. 潜在空間アップサンプラーで生成動画をアップスケール(推論ステップ数を減らして)
# 利用可能な潜在空間アップサンプラーは高さ/幅を2倍にアップスケール
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# パート3. アップスケールされた動画を数ステップでデノイズしテクスチャを改善(オプションだが推奨)
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.3, # 実質的に10ステップ中4ステップ
num_inference_steps=10,
latents=upscaled_latents,
decode_timestep = 0.05,
guidnace_scale=1.0,
decode_noise_scale = 0.025,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# パート4. 動画を期待する解像度にダウンスケール
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
画像から動画:
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_image
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/penguin.png")
video = [image]
condition1 = LTXVideoCondition(video=video, frame_index=0)
prompt = "この動画は雪に覆われた曲がりくねった山道を1台の車が走る様子を描いています。道の両側には急峻な岩壁とまばらな植生があります。地形は起伏に富み、遠くに川が見えます。冬の山岳地帯をドライブする孤独さと美しさを捉えたシーンです。"
negative_prompt = "最悪の品質、一貫性のない動き、ぼやけている、ぎくしゃくしている、歪んでいる"
expected_height, expected_width = 832, 480
downscale_factor = 2 / 3
num_frames = 96
# パート1. 小さい解像度で動画生成
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
guidnace_scale=1.0,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# パート2. 潜在空間アップサンプラーで生成
Xclip Base Patch32
MIT
X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。
テキスト生成ビデオ
Transformers 英語

X
microsoft
309.80k
84
LTX Video
その他
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
テキスト生成ビデオ 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14BモデルのGGUF形式のバージョンで、主にテキストからビデオの生成タスクに使用されます。
テキスト生成ビデオ
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上
テキスト生成ビデオ
A
ByteDance
144.00k
925
V Express
V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。
テキスト生成ビデオ 英語
V
tk93
118.36k
85
Cogvideox 5b
その他
CogVideoXは清影に由来する動画生成モデルのオープンソース版で、高品質な動画生成能力を提供します。
テキスト生成ビデオ 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1は、動画生成の境界を突破することを目的とした包括的なオープンな動画基盤モデルで、中英テキストから動画生成、画像から動画生成など様々なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1は包括的に開放されたビデオ基盤モデルで、トップクラスの性能、コンシューマー向けGPUサポート、マルチタスク対応、視覚テキスト生成、高効率ビデオVAEなどの特徴を備えています。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1は包括的なオープンソース動画基盤モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクに対応し、日中バイリンガルのテキスト生成をサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
44.88k
1,238
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98