AI视频

AI视频Prompt实战：图生视频技巧与模型优势场景全解析

2026-07-048 分钟阅读Tomato AI 编辑部

AI视频Prompt实战：图生视频技巧与模型优势场景全解析

前两篇我们讲了文生视频的基础公式和进阶技巧。但很多时候，你手里已经有一张不错的图片——可能是一张Midjourney生成的插画，也可能是一张实拍照片——你想让它动起来。

这就是图生视频的场景。本文会讲图生视频的Prompt写法，以及海螺AI最擅长的四大优势场景，帮你把Prompt用在刀刃上。

一、图生视频使用教程

图生视频与文生视频的最大区别在于：图片作为视频的首帧出现，已经限定了主体物形象和基本美学风格。因此，图生视频的Prompt可以适当减少信息量——你不需要再描述"长什么样"，只需要描述"接下来发生什么"。

1. 图生视频基础公式

基础公式 = 首帧中的主要表现物 + 运动/变化

由于模型能精确识别图像中的人物、物品等画面信息，你只需要描述"接下来发生什么"。

示例：

"画面中的小狗狗，眼中发出蓝光，小狗狗面前凌乱的衣服也发出蓝光慢慢飘起，然后自动在空中折叠整齐，落在小狗狗面前，之后小狗狗眼中的蓝光消失了。"
"画面中的蓝色毛绒生物不断搅动着面前的汤锅，汤锅冒着热气，之后蓝色怪物对着面前的锅吹起，面前的汤碗结成冰块。"

注意这两个Prompt的写法：都是先点明"画面中的XX"（告诉模型参考图里的主体），然后描述一系列动作变化。用"之后""然后"等词串联时间线，让动作有先后顺序。

2. 图生视频精确公式

在基础公式上补充镜头和氛围信息，可以生成动态更强或风格化更明显的视频：

精确公式 = 首帧中的主要表现物 + 运动/变化 + 镜头运动 + 美感氛围变化

镜头运动：将画面中的信息作为参考物来写作，可以获得更精确的结果。
美感氛围变化：尽管首帧已确定开头氛围，模型仍能对美感进行调整。

示例：

"画面中的猫快速向镜头跑来，眼睛里冒出白色的电光，然后整个身体被电光包围，越跑越快，两边的景物快速向后飞去，两侧场景产生动态模糊形成散发白色光芒的时空隧道。"
"拉镜头拍摄，男人朝镜头奔跑。身后的人影快速追赶上来，并变得巨大。人影凑近后，可见那是一个有着山羊面孔的人形生物，面部被偏黄色的光照亮，画面色调变得诡异，充满恐怖的氛围。"

注意第二个例子中"画面色调变得诡异"——这是对首帧氛围的主动改写，说明图生视频同样支持氛围转换。你可以让一张温馨的图片变成恐怖视频，只要在Prompt里写明氛围变化的方向。

图生视频 vs 文生视频 Prompt对比

维度	文生视频	图生视频
主体描述	需要详细写明	图片已锁定，简写即可
场景描述	需要详细写明	图片已锁定，简写即可
运动变化	必写	必写
镜头运动	选写	选写，可参考图中元素
氛围控制	选写	选写，可主动改写首帧氛围

一句话总结：图生视频的Prompt更轻，因为你不需要重复图片里已有的信息，把精力集中在"动什么"和"怎么动"上。

二、模型优势表现

了解模型擅长什么，才能把Prompt用在刀刃上。海螺AI在以下四个方向表现突出：

1. 生动情绪表现

第一梯队的表情表现能力，能根据情绪类Prompt输出多样且生动的表情，精准控制单一表情的表现程度，并实现多种表情的流畅转换。

示例Prompt：

"在一个咖啡馆里，女孩正在听对面的男孩说话，表情先是开心，突然惊讶，然后又变得难过"——一段Prompt中包含三种情绪的流畅过渡。
"一个女人哭泣着向镜头方向行走，身后是被摧毁的城市废墟"——情绪与环境的结合。
"金发小男孩疑惑地看着考卷，皱起眉头，之后悲伤地闭眼哭泣，周围同学纷纷转头看向他"——个体情绪引发群体反应。

写作要点：用"先是……突然……然后……"等时序词串联情绪变化，让转换有节奏感。这是情绪Prompt的核心——不是只写一种表情，而是写一段情绪的演变过程。

2. 真实人体动态表现

能精准还原轮滑、举重、跳跃等复杂人体动态，也支持机械体等非真实角色的运动。

示例Prompt：

"快速轮滑，后拉跟随"
"举重，举过头顶"
"机械人体在城市空中的悬浮平台间跳跃，镜头跟随他向后拉远，机械人体踩在一个悬浮平台上，随即又向下个平台跳去，不断向画面靠近。"

写作要点：人体动态Prompt要写清楚动作的力学逻辑——起跳、腾空、落地，每个阶段都要有。短Prompt（如"快速轮滑"）适合简单动作，长Prompt适合连续复合动作。

3. 电影级爆破特效

能便捷制作影视级别的爆炸特效，包括车辆穿越爆炸、机械巨龙从废墟中走出、仓库内炸药引爆等场景。

示例Prompt：

"在一座被火光照亮的废弃工厂区，一辆白色轿车在巨大的爆炸中穿梭，燃烧的建筑物和飞溅的碎片在空中划出灿烂的火光轨迹。低角度镜头，跟随轿车穿越爆炸场景，捕捉其惊险的速度和炫目的火光。"
"破败的仓库内，尘土飞扬，空气中弥漫着浓烟和火药味。突然，炸药引爆，猛烈的火光和浓烟瞬间吞没了整个画面，火焰在墙壁上跳动。破碎的木板和金属零件飞溅四处，镜头在爆炸的震动中剧烈晃动，四周的光线随着火光的闪烁变幻莫测。"

写作要点：爆破场景要写多层次——火光、碎片、镜头震动、光线变化，缺一不可。尤其别忘了"镜头震动"，这个细节能让爆破的真实感大幅提升。

4. 概念组合

极强的泛化能力，能将多种不同物质/特征概念进行任意组合，自由创造所需影像。

示例Prompt：

"一只斑马斑纹的猫科动物在广袤的沙漠上行走"——斑马纹 × 猫科 × 沙漠
"一匹豹子斑纹的马在雪地中缓缓行走"——豹纹 × 马 × 雪地
"可爱的小兔子长着蜻蜓翅膀，在蓝天中飞翔"——兔子 × 蜻蜓翅膀 × 天空
"特写镜头拍摄一只由白色水晶构成的蜘蛛在一个小孩的手掌上爬动，蜘蛛背部生长着绚烂的水晶柱，反射着五彩斑斓的光线，周围是黑暗的洞穴"——水晶 × 蜘蛛 × 洞穴

写作要点：概念组合的关键是"材质替换"和"特征嫁接"，用"A的B"结构（如斑马纹的猫）就能触发组合能力。先想两个不相关的概念，再用"长着""由……构成""斑纹的"等连接词组合，就能创造出不存在的生物。

三、实际运用案例

这套Prompt方法论已在多个真实项目中落地验证：

WAIC人工智能大会：会议宣传片制作
海螺AI《万圣节宣传片》：节日主题商业短片
AI短剧《Kill that old man》：完整叙事短剧

这些案例证明，掌握Prompt技巧后，AI视频已能胜任商业级和叙事级内容创作，不再局限于简单的特效演示。

四、总结：Prompt写作速查表

场景	公式	核心要点
文生视频（自由创作）	表现物 + 场景 + 运动变化	信息完整即可，留给模型想象空间
文生视频（精确控制）	表现物 + 场景 + 运动变化 + 镜头 + 氛围	镜头加时序，氛围定色调
图生视频（基础）	首帧表现物 + 运动变化	图片已锁定主体，只写动态
图生视频（精确）	首帧表现物 + 运动变化 + 镜头 + 氛围变化	可主动改写首帧氛围

四条黄金法则：

精确优于冗长——每个词都要有画面指向
时序是镜头的灵魂——用"先……之后……最后……"串联
色调与饱和度是情绪的开关——暖/冷/灰暗决定观感
镜头复杂度控制在5-6秒内——贪多必失

AI视频生成的门槛不在模型，而在Prompt。当你能用文字像导演一样思考——主体在哪、镜头怎么动、氛围是什么调——你就已经掌握了这门新语言的精髓。

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分，一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印，1080P 输出。

立即免费体验 →

← 返回博客

AI视频

AI视频Prompt实战：图生视频技巧与模型优势场景全解析

2026-07-048 分钟阅读Tomato AI 编辑部

AI视频Prompt实战：图生视频技巧与模型优势场景全解析

这就是图生视频的场景。本文会讲图生视频的Prompt写法，以及海螺AI最擅长的四大优势场景，帮你把Prompt用在刀刃上。

一、图生视频使用教程

1. 图生视频基础公式

基础公式 = 首帧中的主要表现物 + 运动/变化

由于模型能精确识别图像中的人物、物品等画面信息，你只需要描述"接下来发生什么"。

示例：

"画面中的小狗狗，眼中发出蓝光，小狗狗面前凌乱的衣服也发出蓝光慢慢飘起，然后自动在空中折叠整齐，落在小狗狗面前，之后小狗狗眼中的蓝光消失了。"
"画面中的蓝色毛绒生物不断搅动着面前的汤锅，汤锅冒着热气，之后蓝色怪物对着面前的锅吹起，面前的汤碗结成冰块。"

2. 图生视频精确公式

在基础公式上补充镜头和氛围信息，可以生成动态更强或风格化更明显的视频：

精确公式 = 首帧中的主要表现物 + 运动/变化 + 镜头运动 + 美感氛围变化

镜头运动：将画面中的信息作为参考物来写作，可以获得更精确的结果。
美感氛围变化：尽管首帧已确定开头氛围，模型仍能对美感进行调整。

示例：

"画面中的猫快速向镜头跑来，眼睛里冒出白色的电光，然后整个身体被电光包围，越跑越快，两边的景物快速向后飞去，两侧场景产生动态模糊形成散发白色光芒的时空隧道。"
"拉镜头拍摄，男人朝镜头奔跑。身后的人影快速追赶上来，并变得巨大。人影凑近后，可见那是一个有着山羊面孔的人形生物，面部被偏黄色的光照亮，画面色调变得诡异，充满恐怖的氛围。"

图生视频 vs 文生视频 Prompt对比

维度	文生视频	图生视频
主体描述	需要详细写明	图片已锁定，简写即可
场景描述	需要详细写明	图片已锁定，简写即可
运动变化	必写	必写
镜头运动	选写	选写，可参考图中元素
氛围控制	选写	选写，可主动改写首帧氛围

一句话总结：图生视频的Prompt更轻，因为你不需要重复图片里已有的信息，把精力集中在"动什么"和"怎么动"上。

二、模型优势表现

了解模型擅长什么，才能把Prompt用在刀刃上。海螺AI在以下四个方向表现突出：

1. 生动情绪表现

第一梯队的表情表现能力，能根据情绪类Prompt输出多样且生动的表情，精准控制单一表情的表现程度，并实现多种表情的流畅转换。

示例Prompt：

"在一个咖啡馆里，女孩正在听对面的男孩说话，表情先是开心，突然惊讶，然后又变得难过"——一段Prompt中包含三种情绪的流畅过渡。
"一个女人哭泣着向镜头方向行走，身后是被摧毁的城市废墟"——情绪与环境的结合。
"金发小男孩疑惑地看着考卷，皱起眉头，之后悲伤地闭眼哭泣，周围同学纷纷转头看向他"——个体情绪引发群体反应。

2. 真实人体动态表现

能精准还原轮滑、举重、跳跃等复杂人体动态，也支持机械体等非真实角色的运动。

示例Prompt：

"快速轮滑，后拉跟随"
"举重，举过头顶"
"机械人体在城市空中的悬浮平台间跳跃，镜头跟随他向后拉远，机械人体踩在一个悬浮平台上，随即又向下个平台跳去，不断向画面靠近。"

3. 电影级爆破特效

能便捷制作影视级别的爆炸特效，包括车辆穿越爆炸、机械巨龙从废墟中走出、仓库内炸药引爆等场景。

示例Prompt：

"在一座被火光照亮的废弃工厂区，一辆白色轿车在巨大的爆炸中穿梭，燃烧的建筑物和飞溅的碎片在空中划出灿烂的火光轨迹。低角度镜头，跟随轿车穿越爆炸场景，捕捉其惊险的速度和炫目的火光。"
"破败的仓库内，尘土飞扬，空气中弥漫着浓烟和火药味。突然，炸药引爆，猛烈的火光和浓烟瞬间吞没了整个画面，火焰在墙壁上跳动。破碎的木板和金属零件飞溅四处，镜头在爆炸的震动中剧烈晃动，四周的光线随着火光的闪烁变幻莫测。"

写作要点：爆破场景要写多层次——火光、碎片、镜头震动、光线变化，缺一不可。尤其别忘了"镜头震动"，这个细节能让爆破的真实感大幅提升。

4. 概念组合

极强的泛化能力，能将多种不同物质/特征概念进行任意组合，自由创造所需影像。

示例Prompt：

"一只斑马斑纹的猫科动物在广袤的沙漠上行走"——斑马纹 × 猫科 × 沙漠
"一匹豹子斑纹的马在雪地中缓缓行走"——豹纹 × 马 × 雪地
"可爱的小兔子长着蜻蜓翅膀，在蓝天中飞翔"——兔子 × 蜻蜓翅膀 × 天空
"特写镜头拍摄一只由白色水晶构成的蜘蛛在一个小孩的手掌上爬动，蜘蛛背部生长着绚烂的水晶柱，反射着五彩斑斓的光线，周围是黑暗的洞穴"——水晶 × 蜘蛛 × 洞穴

三、实际运用案例

这套Prompt方法论已在多个真实项目中落地验证：

WAIC人工智能大会：会议宣传片制作
海螺AI《万圣节宣传片》：节日主题商业短片
AI短剧《Kill that old man》：完整叙事短剧

这些案例证明，掌握Prompt技巧后，AI视频已能胜任商业级和叙事级内容创作，不再局限于简单的特效演示。

四、总结：Prompt写作速查表

场景	公式	核心要点
文生视频（自由创作）	表现物 + 场景 + 运动变化	信息完整即可，留给模型想象空间
文生视频（精确控制）	表现物 + 场景 + 运动变化 + 镜头 + 氛围	镜头加时序，氛围定色调
图生视频（基础）	首帧表现物 + 运动变化	图片已锁定主体，只写动态
图生视频（精确）	首帧表现物 + 运动变化 + 镜头 + 氛围变化	可主动改写首帧氛围

四条黄金法则：

精确优于冗长——每个词都要有画面指向
时序是镜头的灵魂——用"先……之后……最后……"串联
色调与饱和度是情绪的开关——暖/冷/灰暗决定观感
镜头复杂度控制在5-6秒内——贪多必失

🍅 在 Tomato AI 上免费体验 AI 视频生成

注册即送免费积分，一键使用 Seedance 2.0、Sora 2、Kling 3 等顶级模型。无水印，1080P 输出。

立即免费体验 →