从图片到视频:图生视频(Image-to-Video)完整工作流
从图片到视频:图生视频(Image-to-Video)完整工作流
为什么越来越多创作者从"图生视频"开始
如果你用过文生视频,一定遇到过这种崩溃时刻:同样一句提示词,跑十次出十个样子。人物的脸每次都不一样,产品的颜色对不上,构图完全不受控制。你想要的明明只是"让这张图动起来",却被迫在文字里反复描述一个 AI 根本猜不准的画面。
图生视频(Image-to-Video,简称 I2V)就是为了解决这个问题而生的。
它的逻辑很简单:你先给 AI 一张确定的图——可能是你拍的照片、设计的海报、AI 生成的静帧——然后 AI 以这张图为"第一帧",只负责让它动起来。构图、人物、色彩、光线全部锁定,AI 只需要推演"接下来几秒会发生什么"。
结果就是:可控性大幅提升,出片成功率成倍增加,成本也更省。
这篇文章会把图生视频的完整工作流拆开,从选图、写运镜提示词、到导出成片,一步一步讲清楚。无论你用的是 Kling、Veo 3.1、Sora 2 还是 Tomato AI 上的多模型,这套流程都通用。
第一步:选对"起始帧"决定成败一半
图生视频里,那张图不是配角,它是整段视频的地基。地基歪了,后面运镜再花哨也救不回来。
选图或做图时,盯住这四个维度:
1. 主体清晰、边缘干净
AI 需要"看懂"画面里什么是主体、什么是背景。一张主体模糊、和背景糊成一团的图,AI 在推演动作时会把主体的边缘"融化"掉——你会看到人物的手指粘在一起、产品轮廓扭曲。选主体和背景有明确层次的图。
2. 构图要留出"动的空间"
如果你想让镜头往左推、人物往前走,那图里就得预留出运动的方向和余量。一张主体顶满画框、四周没有空间的图,动起来会立刻穿帮或被裁切。给运动留白。
3. 光影方向统一
图里的光从哪来,动起来之后就得从哪来。光影混乱的图(比如多个方向的强光源打架),AI 在生成后续帧时会出现光线跳变、忽明忽暗,非常出戏。
4. 分辨率够高
用低清图当起始帧,成片清晰度不会凭空变高。想要 1080P HD 的成片,起始帧就该是高清的。这也是为什么在 Tomato AI 这类支持 1080P 无水印导出的平台上,起始帧质量和成片质量能真正对齐。
一句话原则:你能接受这张图被放大到全屏定格看吗? 如果能,它就是合格的起始帧。
第二步:想清楚"你要它怎么动"
选好图之后,先别急着写提示词。花 30 秒在脑子里过一遍:这张图动起来,到底是什么在动?
图生视频的运动大致分三类,想清楚你要哪一类:
镜头运动(Camera Motion)——画面本身不变,是"摄像机"在动。
- 推近(push in / zoom in)、拉远(pull out)
- 左右平移(pan left / pan right)
- 环绕(orbit)、跟随(tracking)
- 升降(crane up / down)
主体运动(Subject Motion)——摄像机不动,画面里的人或物在动。
- 人物眨眼、转头、走动、微笑
- 头发、衣物、水面被风吹动
- 产品旋转、液体流动
环境运动(Ambient Motion)——氛围性的细微动态。
- 光斑闪烁、烟雾飘散、粒子浮动
- 背景人群走动、车流经过
大多数出彩的图生视频,都是只挑一到两种运动,而不是全都要。运动越克制,AI 越可控,成片越自然。新手最常犯的错就是"既要镜头环绕、又要人物走动、还要头发飘"——AI 一慌,全乱套。
第三步:写图生视频提示词的公式
图生视频的提示词和文生视频完全不同。文生视频要描述"整个画面",图生视频不用——画面已经在图里了。你只需要描述"变化"。
这是一个好用的四段式公式:
[主体动作] + [镜头运动] + [运动幅度/速度] + [氛围细节]
举个例子。假设你的起始帧是一张"女孩站在海边看夕阳"的照片:
不好的写法(还在描述画面):
A girl standing on the beach, sunset, orange sky, ocean waves, beautiful scenery...
好的写法(只描述变化):
The girl slowly turns her head toward the camera and smiles. Gentle sea breeze moves her hair. Camera slowly pushes in. Soft, natural motion. Waves rolling in the background.
看出区别了吗?好的写法里没有一个字在描述"海边""夕阳"——因为那些图里已经有了。它只说了四件事:她转头微笑(主体动作)、镜头推近(镜头运动)、缓慢自然(运动幅度)、海浪+海风(氛围细节)。
几个提升成功率的关键词
- 控制幅度:
subtle motion(细微运动)、slow and smooth(缓慢平滑)、minimal movement(极小动作)——这几个词能大幅降低画面崩坏率 - 控制镜头:
slow push in、gentle pan、static camera(固定镜头,只让主体动) - 保持一致性:
maintain character consistency、keep the composition stable
一个反直觉但极其有效的技巧
如果你只想让图"轻微地活过来",就把动作写得越小越好。 与其让人物大幅走动(容易崩脸、崩身材),不如只让她"眨眼 + 头发微动 + 镜头极缓推近"。这种"几乎静止"的动态,反而是社交媒体上最有质感、最像真实拍摄的效果。
第四步:生成、筛选、迭代
提示词写好,就可以生成了。这一步的心法是:别指望一次成功,要批量生成、快速筛选。
1. 一次多跑几条
同一张图 + 同一句提示词,跑 3-4 次。AI 视频有随机性,多跑几条挑最好的一条,比反复改提示词更高效。
2. 用"秒数"控制成本
图生视频通常按秒计费。以 Tomato AI 为例,不同模型的积分消耗不同——像 Kling / 即梦系模型约 10 积分/秒,Seedance 2.0 等高端模型约 20 积分/秒。先用 3-5 秒的短片段测试运镜方向对不对,方向对了再生成完整时长,能省下大量试错成本。
3. 看这三个地方判断成片好坏
- 主体一致性:从第一帧到最后一帧,人脸/产品有没有"变形"或"变脸"
- 运动合理性:动作是不是符合物理,有没有"鬼手""穿模""瞬移"
- 边缘稳定性:主体边缘有没有"融化""闪烁"
如果崩了,优先调运动幅度(改小)而不是换图。九成的崩坏都是因为让 AI 动得太多。
第五步:导出与成片处理
拿到满意的片段后,最后一步是导出和收尾。
1. 认准 1080P + 无水印
很多免费工具会在成片上打水印、或者只给 720P。如果你要发到 TikTok、Reels、YouTube Shorts,或者用于商业用途,水印和低清是硬伤。选择支持 1080P HD 无水印导出的平台(Tomato AI 支持),成片才能直接商用。
2. 拼接与配乐
单段图生视频通常只有几秒。想做完整的短视频,就把多个片段拼接起来,加上转场、配乐、字幕。可以用平台内置的剪辑器,也可以导出后用外部软件处理。
3. 首帧衔接技巧
如果想做一段更长的连续视频,有个进阶玩法:把上一段的最后一帧,当作下一段的起始帧。 这样多段视频能无缝衔接,做出"一镜到底"的长镜头效果。
完整工作流速查表
把上面五步压缩成一张清单,下次直接照着做:
| 步骤 | 要做的事 | 关键点 |
| ① 选起始帧 | 挑/做一张高清、主体清晰、留白够的图 | 光影统一,能全屏定格看 |
| ② 定运动 | 想清楚镜头动还是主体动 | 只挑 1-2 种运动 |
| ③ 写提示词 | 只描述"变化",不描述画面 | 主体动作+镜头+幅度+氛围 |
| ④ 生成筛选 | 同图跑 3-4 条,先短后长 | 崩了先调小运动幅度 |
| ⑤ 导出成片 | 1080P 无水印,拼接配乐 | 末帧接下段做长镜头 |
从今天开始
图生视频不是什么高深技术,它的核心就一句话:用一张确定的图,锁住 AI 的不确定性。
你不需要一开始就追求复杂的多段长视频。找一张你喜欢的照片,让它"轻轻动起来"——一次眨眼、一缕头发飘动、一个缓慢的镜头推近。当你第一次看到静态照片活过来的那一刻,你就理解了图生视频真正的魔力。
Tomato AI 支持多模型图生视频、1080P HD 无水印导出,新用户还有免费积分可以直接上手试。挑一张图,写下你的第一句运镜提示词,让它动起来吧。