图生视频

从图片到视频：图生视频（Image-to-Video）完整工作流

2026-07-018 分钟阅读Tomato AI 编辑部

从图片到视频：图生视频（Image-to-Video）完整工作流

为什么越来越多创作者从"图生视频"开始

如果你用过文生视频，一定遇到过这种崩溃时刻：同样一句提示词，跑十次出十个样子。人物的脸每次都不一样，产品的颜色对不上，构图完全不受控制。你想要的明明只是"让这张图动起来"，却被迫在文字里反复描述一个 AI 根本猜不准的画面。

图生视频（Image-to-Video，简称 I2V）就是为了解决这个问题而生的。

它的逻辑很简单：你先给 AI 一张确定的图——可能是你拍的照片、设计的海报、AI 生成的静帧——然后 AI 以这张图为"第一帧"，只负责让它动起来。构图、人物、色彩、光线全部锁定，AI 只需要推演"接下来几秒会发生什么"。

结果就是：可控性大幅提升，出片成功率成倍增加，成本也更省。

这篇文章会把图生视频的完整工作流拆开，从选图、写运镜提示词、到导出成片，一步一步讲清楚。无论你用的是 Kling、Veo 3.1、Sora 2 还是 Tomato AI 上的多模型，这套流程都通用。

第一步：选对"起始帧"决定成败一半

图生视频里，那张图不是配角，它是整段视频的地基。地基歪了，后面运镜再花哨也救不回来。

选图或做图时，盯住这四个维度：

1. 主体清晰、边缘干净

AI 需要"看懂"画面里什么是主体、什么是背景。一张主体模糊、和背景糊成一团的图，AI 在推演动作时会把主体的边缘"融化"掉——你会看到人物的手指粘在一起、产品轮廓扭曲。选主体和背景有明确层次的图。

2. 构图要留出"动的空间"

如果你想让镜头往左推、人物往前走，那图里就得预留出运动的方向和余量。一张主体顶满画框、四周没有空间的图，动起来会立刻穿帮或被裁切。给运动留白。

3. 光影方向统一

图里的光从哪来，动起来之后就得从哪来。光影混乱的图（比如多个方向的强光源打架），AI 在生成后续帧时会出现光线跳变、忽明忽暗，非常出戏。

4. 分辨率够高

用低清图当起始帧，成片清晰度不会凭空变高。想要 1080P HD 的成片，起始帧就该是高清的。这也是为什么在 Tomato AI 这类支持 1080P 无水印导出的平台上，起始帧质量和成片质量能真正对齐。

一句话原则：你能接受这张图被放大到全屏定格看吗？ 如果能，它就是合格的起始帧。

第二步：想清楚"你要它怎么动"

选好图之后，先别急着写提示词。花 30 秒在脑子里过一遍：这张图动起来，到底是什么在动？

图生视频的运动大致分三类，想清楚你要哪一类：

镜头运动（Camera Motion）——画面本身不变，是"摄像机"在动。

推近（push in / zoom in）、拉远（pull out）
左右平移（pan left / pan right）
环绕（orbit）、跟随（tracking）
升降（crane up / down）

主体运动（Subject Motion）——摄像机不动，画面里的人或物在动。

人物眨眼、转头、走动、微笑
头发、衣物、水面被风吹动
产品旋转、液体流动

环境运动（Ambient Motion）——氛围性的细微动态。

光斑闪烁、烟雾飘散、粒子浮动
背景人群走动、车流经过

大多数出彩的图生视频，都是只挑一到两种运动，而不是全都要。运动越克制，AI 越可控，成片越自然。新手最常犯的错就是"既要镜头环绕、又要人物走动、还要头发飘"——AI 一慌，全乱套。

第三步：写图生视频提示词的公式

图生视频的提示词和文生视频完全不同。文生视频要描述"整个画面"，图生视频不用——画面已经在图里了。你只需要描述"变化"。

这是一个好用的四段式公式：

[主体动作] + [镜头运动] + [运动幅度/速度] + [氛围细节]

举个例子。假设你的起始帧是一张"女孩站在海边看夕阳"的照片：

不好的写法（还在描述画面）：

A girl standing on the beach, sunset, orange sky, ocean waves, beautiful scenery...

好的写法（只描述变化）：

The girl slowly turns her head toward the camera and smiles. Gentle sea breeze moves her hair. Camera slowly pushes in. Soft, natural motion. Waves rolling in the background.

看出区别了吗？好的写法里没有一个字在描述"海边""夕阳"——因为那些图里已经有了。它只说了四件事：她转头微笑（主体动作）、镜头推近（镜头运动）、缓慢自然（运动幅度）、海浪+海风（氛围细节）。

几个提升成功率的关键词

控制幅度：subtle motion（细微运动）、slow and smooth（缓慢平滑）、minimal movement（极小动作）——这几个词能大幅降低画面崩坏率
控制镜头：slow push in、gentle pan、static camera（固定镜头，只让主体动）
保持一致性：maintain character consistency、keep the composition stable

一个反直觉但极其有效的技巧

如果你只想让图"轻微地活过来"，就把动作写得越小越好。 与其让人物大幅走动（容易崩脸、崩身材），不如只让她"眨眼 + 头发微动 + 镜头极缓推近"。这种"几乎静止"的动态，反而是社交媒体上最有质感、最像真实拍摄的效果。

第四步：生成、筛选、迭代

提示词写好，就可以生成了。这一步的心法是：别指望一次成功，要批量生成、快速筛选。

1. 一次多跑几条

同一张图 + 同一句提示词，跑 3-4 次。AI 视频有随机性，多跑几条挑最好的一条，比反复改提示词更高效。

2. 用"秒数"控制成本

图生视频通常按秒计费。以 Tomato AI 为例，不同模型的积分消耗不同——像 Kling / 即梦系模型约 10 积分/秒，Seedance 2.0 等高端模型约 20 积分/秒。先用 3-5 秒的短片段测试运镜方向对不对，方向对了再生成完整时长，能省下大量试错成本。

3. 看这三个地方判断成片好坏

主体一致性：从第一帧到最后一帧，人脸/产品有没有"变形"或"变脸"
运动合理性：动作是不是符合物理，有没有"鬼手""穿模""瞬移"
边缘稳定性：主体边缘有没有"融化""闪烁"

如果崩了，优先调运动幅度（改小）而不是换图。九成的崩坏都是因为让 AI 动得太多。

第五步：导出与成片处理

拿到满意的片段后，最后一步是导出和收尾。

1. 认准 1080P + 无水印

很多免费工具会在成片上打水印、或者只给 720P。如果你要发到 TikTok、Reels、YouTube Shorts，或者用于商业用途，水印和低清是硬伤。选择支持 1080P HD 无水印导出的平台（Tomato AI 支持），成片才能直接商用。

2. 拼接与配乐

单段图生视频通常只有几秒。想做完整的短视频，就把多个片段拼接起来，加上转场、配乐、字幕。可以用平台内置的剪辑器，也可以导出后用外部软件处理。

3. 首帧衔接技巧

如果想做一段更长的连续视频，有个进阶玩法：把上一段的最后一帧，当作下一段的起始帧。 这样多段视频能无缝衔接，做出"一镜到底"的长镜头效果。

完整工作流速查表

把上面五步压缩成一张清单，下次直接照着做：

步骤	要做的事	关键点
① 选起始帧	挑/做一张高清、主体清晰、留白够的图	光影统一，能全屏定格看
② 定运动	想清楚镜头动还是主体动	只挑 1-2 种运动
③ 写提示词	只描述"变化"，不描述画面	主体动作+镜头+幅度+氛围
④ 生成筛选	同图跑 3-4 条，先短后长	崩了先调小运动幅度
⑤ 导出成片	1080P 无水印，拼接配乐	末帧接下段做长镜头

从今天开始

图生视频不是什么高深技术，它的核心就一句话：用一张确定的图，锁住 AI 的不确定性。

你不需要一开始就追求复杂的多段长视频。找一张你喜欢的照片，让它"轻轻动起来"——一次眨眼、一缕头发飘动、一个缓慢的镜头推近。当你第一次看到静态照片活过来的那一刻，你就理解了图生视频真正的魔力。

Tomato AI 支持多模型图生视频、1080P HD 无水印导出，新用户还有免费积分可以直接上手试。挑一张图，写下你的第一句运镜提示词，让它动起来吧。

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分，一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印，1080P 输出。

立即免费体验 →

← 返回博客

图生视频

从图片到视频：图生视频（Image-to-Video）完整工作流

2026-07-018 分钟阅读Tomato AI 编辑部

从图片到视频：图生视频（Image-to-Video）完整工作流

为什么越来越多创作者从"图生视频"开始

图生视频（Image-to-Video，简称 I2V）就是为了解决这个问题而生的。

结果就是：可控性大幅提升，出片成功率成倍增加，成本也更省。

第一步：选对"起始帧"决定成败一半

图生视频里，那张图不是配角，它是整段视频的地基。地基歪了，后面运镜再花哨也救不回来。

选图或做图时，盯住这四个维度：

1. 主体清晰、边缘干净

2. 构图要留出"动的空间"

3. 光影方向统一

图里的光从哪来，动起来之后就得从哪来。光影混乱的图（比如多个方向的强光源打架），AI 在生成后续帧时会出现光线跳变、忽明忽暗，非常出戏。

4. 分辨率够高

一句话原则：你能接受这张图被放大到全屏定格看吗？ 如果能，它就是合格的起始帧。

第二步：想清楚"你要它怎么动"

选好图之后，先别急着写提示词。花 30 秒在脑子里过一遍：这张图动起来，到底是什么在动？

图生视频的运动大致分三类，想清楚你要哪一类：

镜头运动（Camera Motion）——画面本身不变，是"摄像机"在动。

推近（push in / zoom in）、拉远（pull out）
左右平移（pan left / pan right）
环绕（orbit）、跟随（tracking）
升降（crane up / down）

主体运动（Subject Motion）——摄像机不动，画面里的人或物在动。

人物眨眼、转头、走动、微笑
头发、衣物、水面被风吹动
产品旋转、液体流动

环境运动（Ambient Motion）——氛围性的细微动态。

光斑闪烁、烟雾飘散、粒子浮动
背景人群走动、车流经过

第三步：写图生视频提示词的公式

图生视频的提示词和文生视频完全不同。文生视频要描述"整个画面"，图生视频不用——画面已经在图里了。你只需要描述"变化"。

这是一个好用的四段式公式：

[主体动作] + [镜头运动] + [运动幅度/速度] + [氛围细节]

举个例子。假设你的起始帧是一张"女孩站在海边看夕阳"的照片：

不好的写法（还在描述画面）：

A girl standing on the beach, sunset, orange sky, ocean waves, beautiful scenery...

好的写法（只描述变化）：

The girl slowly turns her head toward the camera and smiles. Gentle sea breeze moves her hair. Camera slowly pushes in. Soft, natural motion. Waves rolling in the background.

几个提升成功率的关键词

控制幅度：subtle motion（细微运动）、slow and smooth（缓慢平滑）、minimal movement（极小动作）——这几个词能大幅降低画面崩坏率
控制镜头：slow push in、gentle pan、static camera（固定镜头，只让主体动）
保持一致性：maintain character consistency、keep the composition stable

一个反直觉但极其有效的技巧

第四步：生成、筛选、迭代

提示词写好，就可以生成了。这一步的心法是：别指望一次成功，要批量生成、快速筛选。

1. 一次多跑几条

同一张图 + 同一句提示词，跑 3-4 次。AI 视频有随机性，多跑几条挑最好的一条，比反复改提示词更高效。

2. 用"秒数"控制成本

3. 看这三个地方判断成片好坏

主体一致性：从第一帧到最后一帧，人脸/产品有没有"变形"或"变脸"
运动合理性：动作是不是符合物理，有没有"鬼手""穿模""瞬移"
边缘稳定性：主体边缘有没有"融化""闪烁"

如果崩了，优先调运动幅度（改小）而不是换图。九成的崩坏都是因为让 AI 动得太多。

第五步：导出与成片处理

拿到满意的片段后，最后一步是导出和收尾。

1. 认准 1080P + 无水印

2. 拼接与配乐

3. 首帧衔接技巧

完整工作流速查表

把上面五步压缩成一张清单，下次直接照着做：

步骤	要做的事	关键点
① 选起始帧	挑/做一张高清、主体清晰、留白够的图	光影统一，能全屏定格看
② 定运动	想清楚镜头动还是主体动	只挑 1-2 种运动
③ 写提示词	只描述"变化"，不描述画面	主体动作+镜头+幅度+氛围
④ 生成筛选	同图跑 3-4 条，先短后长	崩了先调小运动幅度
⑤ 导出成片	1080P 无水印，拼接配乐	末帧接下段做长镜头

从今天开始

图生视频不是什么高深技术，它的核心就一句话：用一张确定的图，锁住 AI 的不确定性。

Tomato AI 支持多模型图生视频、1080P HD 无水印导出，新用户还有免费积分可以直接上手试。挑一张图，写下你的第一句运镜提示词，让它动起来吧。

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分，一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印，1080P 输出。

立即免费体验 →