FramePack をぜんぶゼロから一緒に触っていきます。パソコンがちょっと苦手でも大丈夫。クリックする場所や、出てくる用語の意味まで、「なんでそうするの?」 まで含めてやさしく解説します。
目次
この記事でできること
- そもそも FramePackって何者? が分かる。
- Windows と Linux で インストール〜初回起動 まで迷わず進める。
- 画像1枚を読み込んで、最初の短い動画 を完成させる。
- WebUIにある 主要パラメータ(設定項目)の意味 がサクッと理解できる。
- つまづいたときの 対処法(FAQ) と、品質と速度のコツ が分かる。
※情報は 2025年10月12日 時点。ツールはよくアップデートされるので、名称や見た目が少し変わることがあります。
FramePackってなに?
- 画像や短いフレームから、次のフレームを予測して動画をどんどん伸ばすAI。
- 長い動画でも計算量が爆増しにくい工夫があって、わりと軽めに動くのが推しポイント。
- ノートPCのRTXでも条件次第でいける。まずは短い秒数で試してみるのがコツだよ。
大事な注意:公式はGitHubだけ。framepack.ai みたいなサイトは 偽物注意 とされてます。ダウンロードやお金はぜったいNG!
事前準備(最低限これがあればOK)
- GPU:RTX 30/40/50シリーズ推奨(fp16/bf16対応)。
- OS:Windows か Linux。
- VRAM:目安は 6GB以上。長尺は余裕あるほど安定。
- 速度の目安:初期設定だと1フレームあたり数秒〜。最適化すると速くなるけど、画質が落ちやすいこともあるので本番は標準推し。
体感はPCごとにけっこう変わるから、まずは5〜10秒で作ってみて、手応えを掴もう!
まずはインストールから
Windows(いちばん簡単:One-Clickパッケージ)
- 公式GitHubで “Windows One-Click Package” をダウンロード。
- 解凍したフォルダで
update.batを実行(初回の不具合修正が入ることがあるから念のため)。 run.batを実行。初回はモデルを自動ダウンロード(数十GBあるので、ストレージと回線に注意)。
もし英語の黒い画面(ターミナル)が怖くても、待てばOK。止まってるように見えても裏で準備してること、よくあります。
Linux(Pythonでセットアップ派のあなたに)
# できれば独立した Python 3.10 環境で
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -r requirements.txt
# GUI起動(ローカル用)
python demo_gradio.py # 公開したいなら --share / ポート番号は --port
- アテンション実装(
PyTorch/xFormers/flash-attn/sage-attention)は後で切替OK。まずはPyTorchで安定確認してから。
はじめての起動〜最初の動画まで(いっしょにやろ)
- 起動:Windowsは
run.bat、Linuxはpython demo_gradio.py。 - 画面が開いたら、左側で 画像を1枚アップロード。
- Prompt(プロンプト) に簡単な指示を書こう。
- 例:“A girl waves her hand gently; hair sways a little.”
- 長文よりも 「誰/何が → どう動く」 をシンプルに。
- Video Length / Duration を 5〜10秒にして、まずはテスト生成!
- 右側でプレビューが 区間ごとに伸びて いくよ。最初はちょっと時間がかかっても普通。
うまくいったら、同じ画像・同じプロンプトで 長さを30〜60秒 に伸ばしていこう。少しずつ慣れるのがいちばん。
WebUIのボタン&パラメータ、ぜんぶ噛みくだき解説
「この用語、正直よく分からない…」をゼロにしたいから、意味+使いどころ の2点セットで説明するね。
Input Image(入力画像)
- 意味:動画のスタートになる1枚の画像。
- コツ:ピントが合ってて主役が分かりやすい画像ほど、動きの説得力が出やすいよ。
Prompt(プロンプト)
- 意味:AIへの指示文。誰/何が → どう動く → 補足 の順で短く。
- 例:
- 人物:“A boy runs along the beach, splashes, laughing.”
- 人物:“The girl dances gracefully, with clear movements, full of charm.”
- 人物:“She walks over to me while talking.”
- 風景:“Clouds drift slowly over mountains; sunlight flickers.”
- 注意:装飾語を盛りすぎると迷子になりがち。動き中心でOK。
Video Length / Duration(動画の長さ)
- 意味:最終的な動画の秒数。
- 使いどころ:最初は 5〜10秒 → 成功したら 30秒 → 余裕があれば 60秒 へ。
FPS(フレームレート)
- 意味:1秒あたりの画像枚数。一般的には 30fps が目安。
- 使いどころ:fpsを上げるほど滑らかだけど、負荷&時間 も増えるので初心者は既定値のままでOK。
TeaCache(テキャッシュ)
- 意味:高速化オプション。生成がサクサクになる代わりに、
- 画質がブレたり 表情が不安定になることも。
- 使いどころ:
- 試行錯誤・下書き:ONにしてスピード重視。
- 保存版・公開用:OFFに戻して品質重視。
Attention Backend(注意機構の実装)
- 意味:内部の計算エンジンを切り替える感じ。
- 選択肢:
PyTorch/xFormers/flash-attn/sage-attentionなど。 - 使いどころ:まずは PyTorch でOK。調子が悪いときに他を試す、くらいの気持ちで。
Server / Share オプション
- 意味:
--shareで一時URLを出したり、--portでポートを指定したり。 - 使いどころ:ローカルで自分だけ使うなら 何もしなくてOK。誰かに見せたいときだけ。
プロンプト作り、これだけ覚えれば十分!
- 主語(誰/何) → 動詞(どう動く) → ちょい補足 の3点。
- 短く断言 がコツ。「やさしく」「ゆっくり」「小さく」みたいな 動きの形容詞 が効果的。
- 迷ったら:
- “The cat tilts its head; ears twitch a little.”
- “Leaves rustle slightly; light flickers through branches.”
モデルの種類:F1と通常版のちがい
- FramePack-F1(単方向):過去→未来だけを見るモデル。動きが大きめ になりやすく、実験やアイデア出しに向くよ。
- 起動例:
demo_gradio_f1.py
- 起動例:
- 通常版(双方向):安定志向。まずはこっちで品質を確認してからF1を試すのが安心。
品質と速度を両立するレシピ
- 標準設定+TeaCache OFF で短い秒数をテスト。
- 問題なければ 長さ→解像度 の順で少しずつ上げる。
- どうしても遅いときは一時的に TeaCache ON でアイデア検証。
- 公開用を作るときは TeaCacheをOFFに戻す(安定・高品質狙い)。
トラブル対策(よくある質問)
Q. 生成が遅すぎて不安…
A. まずは 5〜10秒 で比べてみて。GPUドライバや電源設定、Attentionの種類で体感が変わるよ。
Q. 1〜2秒で終わって「え?」ってなる
A. FramePackは 区間ごとに動画が伸びる方式。少し待つと次の区間が生成されて、ちゃんと長くなっていきます。
Q. それっぽい配布サイトを見つけた
A. 使わないで!公式はGitHubだけ。安全第一でいこ。
まずはここまで:最短ゴールのおさらい
Windows
- GitHubで One-Click をDL → 解凍。
update.bat→run.bat。- 画像アップロード → 短いプロンプト → 5〜10秒でテスト → 良さげなら徐々に長尺へ。
Linux
pip install torch ...cu126→pip install -r requirements.txtpython demo_gradio.py(必要なら--share)。- あとはWindowsと同じ流れでOK。
参考リンク(ブクマ推奨)
- 公式GitHub(README / One-Click / 注意喚起): https://github.com/lllyasviel/FramePack
- 論文や図解のリンクは、公式READMEから最新を確認してね(ツールはよく更新されます)。
ここまで読んでくれてありがとう。この記事は初心者さん最優先で書きました。分かりにくいところがあったら、追記するので気軽に教えてね!🙌
コメント
この記事へのコメントはありません。
トラックバック:🌸AI美少女が“本当に生きてる”みたい…!FramePackで感動した私の体験レポ💓 – Girls Summoner