動画生成 AI FramePack のインストールから動画生成までの手順

ついに、ローカルの GPU で動作する動画生成 AI が公開されました。lllyasviel 氏が公開した FramePack は、GPU VRAM 6GB の環境でも静止画から動画を生成できる AI モデルです。今回は、この FramePack を Windows11 24H2 の WSL2 Ubuntu の環境にインストールし、実際に動画を生成してみました。

はじめに
前提となる動作環境
インストール手順
使用方法
生成できた動画
まとめ

はじめに

これまで、各種の生成 AI を Windows11 WSL2 に構築してきました。

画像生成 AI (Stable Diffusion WebUI, Forge)
音声生成 AI (VOICEVOX)
文書生成 AI (Text generation web UI)
音声認識 AI (Wisper, Faster Wisper)

今回、ローカルで動作できる動画生成 AI の FramePack が公開されました。これまでと同様に、Windows11 24H2 WSL2 上に環境を構築して、動画を生成する事ができました。

FramePack の WSL2 へのインストール手順、及び動画の生成方法について説明します。

これまでの生成 AI の取り組み内容についてのリンクは以下の通りです。これと同じ環境で FramePack の環境を構築します。

Stable Diffusion WebUI を Ver.1.10.1 にアップデートする

Stable Diffusion WebUI を Ver.1.10.1 にアップデートしました。git pull でアップデートでき、特に不具合はありませんでした。

Stable Diffusion WebUI Forge を f0.0.17 へアップデートする

Stable Diffusion WebUI Forge を f0.0.17 にアップデートする方法についてまとめました。git pull のみでアップデートできました。

WSL2 Ubuntu 22.04 LTS に VOICEVOX core をインストールする

Windows11 WSL2 Ubuntu 22.04 LTS に VOICEVOX core Ver.0.15.0-preview.16 を新規にインストールする方法についてまとめました。予め CUDA 11.8 と cuDNN 8 for CUDA 11.8 をインストールしておけば容易に環境を構築できます。

WSL2 Ubuntu 22.04 LTS に Text generation web UI をインストールする

Windows11 WSL2 Ubuntu 22.04 LTS に Text generation web UI を新規にインストールする方法についてまとめました。インストーラは使用せず、pip で環境を構築しました。 CUDA 12.1 版です。

WSL2 で Whisper WebUI を使用する

Windows11 WSL2 Ubuntu 23.10 で Whisper WebUI を使用してみました。予め Whisper や Faster-Whisper を構成しておいた Python 仮想環境を利用すると簡単に導入できます。

前提となる動作環境

前提となる環境は、Windows11 WSL2 Ubuntu 22.04 LTS です。python のバージョンは若干古く 3.10.12 になります。GPU は nVidia RTX3060 12GB で Driver は Ver.570.133.07 です。WSL2 の場合は、Windows 側にインストールした GPU ドライバーのバージョンとなり、WSL2 用のコマンド・ライブラリも同時にインストールされます。

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 22.04.5 LTS
Release:        22.04
Codename:       jammy

$ python3 -V
Python 3.10.12

$ nvidia-smi
Sat Apr 19 21:26:56 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.133.07             Driver Version: 572.83         CUDA Version: 12.8     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 3060        On  |   00000000:08:00.0  On |                  N/A |
|  0%   47C    P8             12W /  170W |    1865MiB /  12288MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A             553      G   /Xwayland                             N/A      |
+-----------------------------------------------------------------------------------------+

python3-venv と git のパッケージはインストールして下さい。

$ sudo apt install git python3-venv

私は ~/GenerationAI/ 以下に生成 AI の環境を構築していますので、このディレクトリを基準としてインストールします。

$ cd ~/GenerationAI/

インストール手順

FramePack の github リポジトリは次のリンク先になります。

GitHub - lllyasviel/FramePack: Lets make video diffusion practical!

Lets make video diffusion practical! Contribute to lllyasviel/FramePack development by creating an account on GitHub.

README.md に Linux 向けのインストール手順が書かれていますが、かなり省略して書かれています。この記事では、一つ一つの手順を紹介します。

github から clone

github リポジトリから FramePack を clone します。

$ git clone https://github.com/lllyasviel/FramePack.git
$ cd FramePack

python 仮想環境の構築と仮想環境に入る

仮想環境を構築し、仮想環境の中に入ります。

$ python3 -m venv .venv
$ source .venv/bin/activate
(.venv) $

PyTorch のインストール

PyTorch 一式をインストールします。

(.venv) $ pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

最近は CUDA 周りも pip でインストールされるようです。CUDA 12.6 とそれに合わせた PyTorch 2.6.0 がインストールされています。

$ pip list
Package                  Version
------------------------ ------------
filelock                 3.13.1
fsspec                   2024.6.1
Jinja2                   3.1.4
MarkupSafe               2.1.5
mpmath                   1.3.0
networkx                 3.3
numpy                    2.1.2
nvidia-cublas-cu12       12.6.4.1
nvidia-cuda-cupti-cu12   12.6.80
nvidia-cuda-nvrtc-cu12   12.6.77
nvidia-cuda-runtime-cu12 12.6.77
nvidia-cudnn-cu12        9.5.1.17
nvidia-cufft-cu12        11.3.0.4
nvidia-curand-cu12       10.3.7.77
nvidia-cusolver-cu12     11.7.1.2
nvidia-cusparse-cu12     12.5.4.2
nvidia-cusparselt-cu12   0.6.3
nvidia-nccl-cu12         2.21.5
nvidia-nvjitlink-cu12    12.6.85
nvidia-nvtx-cu12         12.6.77
pillow                   11.0.0
pip                      22.0.2
setuptools               59.6.0
sympy                    1.13.1
torch                    2.6.0+cu126
torchaudio               2.6.0+cu126
torchvision              0.21.0+cu126
triton                   3.2.0
typing_extensions        4.12.2

残りの python package をインストール

requirements.txt に記載されている、残りの依存パッケージをインストールします。

(.venv) $ pip install -r requirements.txt

合計72個のパッケージがインストールされます。

WebUI の起動

仮想環境の中に入った状態で、demo_gradio.py を実行します。

(.venv) $ python demo_gradio.py

初回の実行時は model のダウンロードがありますので時間を要します。合計40GB程度をダウンロードしますので、SSD の容量にもご注意下さい。

無事に起動すれば下記のメッセージが表示されます。

* Running on local URL:  http://0.0.0.0:7860

To create a public link, set `share=True` in `launch()`.

URL の表記が異なっています。実際には、http://127.0.0.1:7860 でアクセスできます。WebUI が表示されると、以下のような画面になります。

使用方法

とりあえず、次の画像を元に動画を生成してみました。オリジナルはクリスマスの子供の写真です。それをジブリ風に変換したものです。

これを左上の Image エリアに読み込ませます。

プロンプトとして "Picking and eating strawberries" (イチゴをつまんで食べる) を与えて4秒間の動画を生成しました。

Generate ボタンを押すと生成が始まります。

生成できた動画

640 x 608 ピクセルの 30.00 フレーム/秒、4秒間の動画を生成しました。

サイズは約1.6 MB、動画生成に要した時間は nVidia RTX3060 12GB で約22分でした。

元の画像から大きく乱れる事なく、瞬きやイチゴを食べる所が表現されていると思います。

他のサイトで FramePack で生成している動画は実写系ものが多いですが、アニメ調の画像からでも品質の高い動画が生成できるようです。

まとめ

動画生成 AI の FramePack を Windows11 24H2 WSL2 Ubuntu にインストールし、動画を生成してみました。

事前に思っていたよりも簡単に環境が構築でき、短い時間ではありますがプロンプトで指示した内容の動画を生成する事が出来ました。

高解像度・長時間を動画を生成するには nVidia RTX3060 12GB は能力不足だと思いますが、このレベルの GPU でも動画を生成できるのは驚きです。

この先、新たな AI が次々と公開されると思います。ローカルで実行できるものをできるだけ試してみようと思います。

Apple 2024 Mac mini 10 コア CPU、10 コア GPU の M4 チップ搭載デスクトップコンピュータ:Apple Intelligence のために設計、16GBユニファイドメモリ、 256GBの SSD ストレージ、ギガビット Ethernet。iPhone や iPad との連係機能

Apple(アップル)

Amazon ギフトカードが溜まってきましたので、もうすぐ M4 Mac mini が入手できそうです。自分で所有するのは初の Mac です。楽しみ。