Tomato AI LogoTomato AI
Home
Video AI
Pricing-50%
Editor Blog⚽ World CupHOT
←
Tomato AI LogoTomato AI

Tomato AI integrates Jimeng 3.0, Veo 3.1, Sora 2, Kling 3 and other top models. Deliver commercial-grade videos from text, images or video in seconds.

Product

  • Text to Video
  • Image to Video
  • 关于我们

Resources

  • Pricing
  • FAQ
  • Blog

© 2026 • Tomato AI All Rights Reservedsupport@tomato.ai
Terms of ServicePrivacy Policy
Tomato AI is an independent product and is not affiliated with ByteDance, Google, OpenAI, etc.
← 返回博客
图生视频

从图片到视频:图生视频(Image-to-Video)完整工作流

2026-07-018 分钟阅读Tomato AI 编辑部

从图片到视频:图生视频(Image-to-Video)完整工作流

为什么越来越多创作者从"图生视频"开始

如果你用过文生视频,一定遇到过这种崩溃时刻:同样一句提示词,跑十次出十个样子。人物的脸每次都不一样,产品的颜色对不上,构图完全不受控制。你想要的明明只是"让这张图动起来",却被迫在文字里反复描述一个 AI 根本猜不准的画面。

图生视频(Image-to-Video,简称 I2V)就是为了解决这个问题而生的。

它的逻辑很简单:你先给 AI 一张确定的图——可能是你拍的照片、设计的海报、AI 生成的静帧——然后 AI 以这张图为"第一帧",只负责让它动起来。构图、人物、色彩、光线全部锁定,AI 只需要推演"接下来几秒会发生什么"。

结果就是:可控性大幅提升,出片成功率成倍增加,成本也更省。

这篇文章会把图生视频的完整工作流拆开,从选图、写运镜提示词、到导出成片,一步一步讲清楚。无论你用的是 Kling、Veo 3.1、Sora 2 还是 Tomato AI 上的多模型,这套流程都通用。


第一步:选对"起始帧"决定成败一半

图生视频里,那张图不是配角,它是整段视频的地基。地基歪了,后面运镜再花哨也救不回来。

选图或做图时,盯住这四个维度:

1. 主体清晰、边缘干净

AI 需要"看懂"画面里什么是主体、什么是背景。一张主体模糊、和背景糊成一团的图,AI 在推演动作时会把主体的边缘"融化"掉——你会看到人物的手指粘在一起、产品轮廓扭曲。选主体和背景有明确层次的图。

2. 构图要留出"动的空间"

如果你想让镜头往左推、人物往前走,那图里就得预留出运动的方向和余量。一张主体顶满画框、四周没有空间的图,动起来会立刻穿帮或被裁切。给运动留白。

3. 光影方向统一

图里的光从哪来,动起来之后就得从哪来。光影混乱的图(比如多个方向的强光源打架),AI 在生成后续帧时会出现光线跳变、忽明忽暗,非常出戏。

4. 分辨率够高

用低清图当起始帧,成片清晰度不会凭空变高。想要 1080P HD 的成片,起始帧就该是高清的。这也是为什么在 Tomato AI 这类支持 1080P 无水印导出的平台上,起始帧质量和成片质量能真正对齐。

一句话原则:你能接受这张图被放大到全屏定格看吗? 如果能,它就是合格的起始帧。


第二步:想清楚"你要它怎么动"

选好图之后,先别急着写提示词。花 30 秒在脑子里过一遍:这张图动起来,到底是什么在动?

图生视频的运动大致分三类,想清楚你要哪一类:

镜头运动(Camera Motion)——画面本身不变,是"摄像机"在动。

  • 推近(push in / zoom in)、拉远(pull out)
  • 左右平移(pan left / pan right)
  • 环绕(orbit)、跟随(tracking)
  • 升降(crane up / down)

主体运动(Subject Motion)——摄像机不动,画面里的人或物在动。

  • 人物眨眼、转头、走动、微笑
  • 头发、衣物、水面被风吹动
  • 产品旋转、液体流动

环境运动(Ambient Motion)——氛围性的细微动态。

  • 光斑闪烁、烟雾飘散、粒子浮动
  • 背景人群走动、车流经过

大多数出彩的图生视频,都是只挑一到两种运动,而不是全都要。运动越克制,AI 越可控,成片越自然。新手最常犯的错就是"既要镜头环绕、又要人物走动、还要头发飘"——AI 一慌,全乱套。


第三步:写图生视频提示词的公式

图生视频的提示词和文生视频完全不同。文生视频要描述"整个画面",图生视频不用——画面已经在图里了。你只需要描述"变化"。

这是一个好用的四段式公式:

[主体动作] + [镜头运动] + [运动幅度/速度] + [氛围细节]

举个例子。假设你的起始帧是一张"女孩站在海边看夕阳"的照片:

不好的写法(还在描述画面):

A girl standing on the beach, sunset, orange sky, ocean waves, beautiful scenery...

好的写法(只描述变化):

The girl slowly turns her head toward the camera and smiles. Gentle sea breeze moves her hair. Camera slowly pushes in. Soft, natural motion. Waves rolling in the background.

看出区别了吗?好的写法里没有一个字在描述"海边""夕阳"——因为那些图里已经有了。它只说了四件事:她转头微笑(主体动作)、镜头推近(镜头运动)、缓慢自然(运动幅度)、海浪+海风(氛围细节)。

几个提升成功率的关键词

  • 控制幅度:subtle motion(细微运动)、slow and smooth(缓慢平滑)、minimal movement(极小动作)——这几个词能大幅降低画面崩坏率
  • 控制镜头:slow push in、gentle pan、static camera(固定镜头,只让主体动)
  • 保持一致性:maintain character consistency、keep the composition stable

一个反直觉但极其有效的技巧

如果你只想让图"轻微地活过来",就把动作写得越小越好。 与其让人物大幅走动(容易崩脸、崩身材),不如只让她"眨眼 + 头发微动 + 镜头极缓推近"。这种"几乎静止"的动态,反而是社交媒体上最有质感、最像真实拍摄的效果。


第四步:生成、筛选、迭代

提示词写好,就可以生成了。这一步的心法是:别指望一次成功,要批量生成、快速筛选。

1. 一次多跑几条

同一张图 + 同一句提示词,跑 3-4 次。AI 视频有随机性,多跑几条挑最好的一条,比反复改提示词更高效。

2. 用"秒数"控制成本

图生视频通常按秒计费。以 Tomato AI 为例,不同模型的积分消耗不同——像 Kling / 即梦系模型约 10 积分/秒,Seedance 2.0 等高端模型约 20 积分/秒。先用 3-5 秒的短片段测试运镜方向对不对,方向对了再生成完整时长,能省下大量试错成本。

3. 看这三个地方判断成片好坏

  • 主体一致性:从第一帧到最后一帧,人脸/产品有没有"变形"或"变脸"
  • 运动合理性:动作是不是符合物理,有没有"鬼手""穿模""瞬移"
  • 边缘稳定性:主体边缘有没有"融化""闪烁"

如果崩了,优先调运动幅度(改小)而不是换图。九成的崩坏都是因为让 AI 动得太多。


第五步:导出与成片处理

拿到满意的片段后,最后一步是导出和收尾。

1. 认准 1080P + 无水印

很多免费工具会在成片上打水印、或者只给 720P。如果你要发到 TikTok、Reels、YouTube Shorts,或者用于商业用途,水印和低清是硬伤。选择支持 1080P HD 无水印导出的平台(Tomato AI 支持),成片才能直接商用。

2. 拼接与配乐

单段图生视频通常只有几秒。想做完整的短视频,就把多个片段拼接起来,加上转场、配乐、字幕。可以用平台内置的剪辑器,也可以导出后用外部软件处理。

3. 首帧衔接技巧

如果想做一段更长的连续视频,有个进阶玩法:把上一段的最后一帧,当作下一段的起始帧。 这样多段视频能无缝衔接,做出"一镜到底"的长镜头效果。


完整工作流速查表

把上面五步压缩成一张清单,下次直接照着做:

步骤要做的事关键点
① 选起始帧挑/做一张高清、主体清晰、留白够的图光影统一,能全屏定格看
② 定运动想清楚镜头动还是主体动只挑 1-2 种运动
③ 写提示词只描述"变化",不描述画面主体动作+镜头+幅度+氛围
④ 生成筛选同图跑 3-4 条,先短后长崩了先调小运动幅度
⑤ 导出成片1080P 无水印,拼接配乐末帧接下段做长镜头

从今天开始

图生视频不是什么高深技术,它的核心就一句话:用一张确定的图,锁住 AI 的不确定性。

你不需要一开始就追求复杂的多段长视频。找一张你喜欢的照片,让它"轻轻动起来"——一次眨眼、一缕头发飘动、一个缓慢的镜头推近。当你第一次看到静态照片活过来的那一刻,你就理解了图生视频真正的魔力。

Tomato AI 支持多模型图生视频、1080P HD 无水印导出,新用户还有免费积分可以直接上手试。挑一张图,写下你的第一句运镜提示词,让它动起来吧。

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分,一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印,1080P 输出。

立即免费体验 →