ついに、ローカルの GPU で動作する動画生成 AI が公開されました。lllyasviel 氏が公開した FramePack は、GPU VRAM 6GB の環境でも静止画から動画を生成できる AI モデルです。今回は、この FramePack を Windows11 24H2 の WSL2 Ubuntu の環境にインストールし、実際に動画を生成してみました。
はじめに
これまで、各種の生成 AI を Windows11 WSL2 に構築してきました。
- 画像生成 AI (Stable Diffusion WebUI, Forge)
- 音声生成 AI (VOICEVOX)
- 文書生成 AI (Text generation web UI)
- 音声認識 AI (Wisper, Faster Wisper)
今回、ローカルで動作できる動画生成 AI の FramePack が公開されました。これまでと同様に、Windows11 24H2 WSL2 上に環境を構築して、動画を生成する事ができました。
FramePack の WSL2 へのインストール手順、及び動画の生成方法について説明します。
これまでの生成 AI の取り組み内容についてのリンクは以下の通りです。これと同じ環境で FramePack の環境を構築します。
前提となる動作環境
前提となる環境は、Windows11 WSL2 Ubuntu 22.04 LTS です。python のバージョンは若干古く 3.10.12 になります。GPU は nVidia RTX3060 12GB で Driver は Ver.570.133.07 です。WSL2 の場合は、Windows 側にインストールした GPU ドライバーのバージョンとなり、WSL2 用のコマンド・ライブラリも同時にインストールされます。
$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 22.04.5 LTS
Release: 22.04
Codename: jammy
$ python3 -V
Python 3.10.12
$ nvidia-smi
Sat Apr 19 21:26:56 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.133.07 Driver Version: 572.83 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3060 On | 00000000:08:00.0 On | N/A |
| 0% 47C P8 12W / 170W | 1865MiB / 12288MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 553 G /Xwayland N/A |
+-----------------------------------------------------------------------------------------+
python3-venv と git のパッケージはインストールして下さい。
$ sudo apt install git python3-venv
私は ~/GenerationAI/ 以下に生成 AI の環境を構築していますので、このディレクトリを基準としてインストールします。
$ cd ~/GenerationAI/
インストール手順
FramePack の github リポジトリは次のリンク先になります。
README.md に Linux 向けのインストール手順が書かれていますが、かなり省略して書かれています。この記事では、一つ一つの手順を紹介します。
github から clone
github リポジトリから FramePack を clone します。
$ git clone https://github.com/lllyasviel/FramePack.git
$ cd FramePack
python 仮想環境の構築と仮想環境に入る
仮想環境を構築し、仮想環境の中に入ります。
$ python3 -m venv .venv
$ source .venv/bin/activate
(.venv) $
PyTorch のインストール
PyTorch 一式をインストールします。
(.venv) $ pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
最近は CUDA 周りも pip でインストールされるようです。CUDA 12.6 とそれに合わせた PyTorch 2.6.0 がインストールされています。
$ pip list
Package Version
------------------------ ------------
filelock 3.13.1
fsspec 2024.6.1
Jinja2 3.1.4
MarkupSafe 2.1.5
mpmath 1.3.0
networkx 3.3
numpy 2.1.2
nvidia-cublas-cu12 12.6.4.1
nvidia-cuda-cupti-cu12 12.6.80
nvidia-cuda-nvrtc-cu12 12.6.77
nvidia-cuda-runtime-cu12 12.6.77
nvidia-cudnn-cu12 9.5.1.17
nvidia-cufft-cu12 11.3.0.4
nvidia-curand-cu12 10.3.7.77
nvidia-cusolver-cu12 11.7.1.2
nvidia-cusparse-cu12 12.5.4.2
nvidia-cusparselt-cu12 0.6.3
nvidia-nccl-cu12 2.21.5
nvidia-nvjitlink-cu12 12.6.85
nvidia-nvtx-cu12 12.6.77
pillow 11.0.0
pip 22.0.2
setuptools 59.6.0
sympy 1.13.1
torch 2.6.0+cu126
torchaudio 2.6.0+cu126
torchvision 0.21.0+cu126
triton 3.2.0
typing_extensions 4.12.2
残りの python package をインストール
requirements.txt に記載されている、残りの依存パッケージをインストールします。
(.venv) $ pip install -r requirements.txt
合計72個のパッケージがインストールされます。
WebUI の起動
仮想環境の中に入った状態で、demo_gradio.py を実行します。
(.venv) $ python demo_gradio.py
初回の実行時は model のダウンロードがありますので時間を要します。合計40GB程度をダウンロードしますので、SSD の容量にもご注意下さい。
無事に起動すれば下記のメッセージが表示されます。
* Running on local URL: http://0.0.0.0:7860
To create a public link, set `share=True` in `launch()`.
URL の表記が異なっています。実際には、http://127.0.0.1:7860 でアクセスできます。WebUI が表示されると、以下のような画面になります。

使用方法
とりあえず、次の画像を元に動画を生成してみました。オリジナルはクリスマスの子供の写真です。それをジブリ風に変換したものです。

これを左上の Image エリアに読み込ませます。
プロンプトとして "Picking and eating strawberries" (イチゴをつまんで食べる) を与えて4秒間の動画を生成しました。
Generate ボタンを押すと生成が始まります。

生成できた動画
640 x 608 ピクセルの 30.00 フレーム/秒、4秒間の動画を生成しました。
サイズは約1.6 MB、動画生成に要した時間は nVidia RTX3060 12GB で約22分でした。
元の画像から大きく乱れる事なく、瞬きやイチゴを食べる所が表現されていると思います。
他のサイトで FramePack で生成している動画は実写系ものが多いですが、アニメ調の画像からでも品質の高い動画が生成できるようです。
まとめ
動画生成 AI の FramePack を Windows11 24H2 WSL2 Ubuntu にインストールし、動画を生成してみました。
事前に思っていたよりも簡単に環境が構築でき、短い時間ではありますがプロンプトで指示した内容の動画を生成する事が出来ました。
高解像度・長時間を動画を生成するには nVidia RTX3060 12GB は能力不足だと思いますが、このレベルの GPU でも動画を生成できるのは驚きです。
この先、新たな AI が次々と公開されると思います。ローカルで実行できるものをできるだけ試してみようと思います。
Amazon ギフトカードが溜まってきましたので、もうすぐ M4 Mac mini が入手できそうです。自分で所有するのは初の Mac です。楽しみ。
コメント
[…] 動画生成 AI FramePack のインストールから動画生成までの手順 | hiroの長い長い冒険日記動画生成 AI の FramePack のインストールから動画生成までの手順をまとめました。他の生成AIと同様に W […]