مدخل إلى Prompt لفيديو الذكاء الاصطناعي: ثلاثة عناصر لكتابة أول نص توجيهي فعّال
مدخل إلى Prompt لفيديو الذكاء الاصطناعي: ثلاثة عناصر لكتابة أول نص توجيهي فعّال
يقع الكثيرون، عند استخدامهم لأول مرة لأدوات توليد فيديو الذكاء الاصطناعي، في المشكلة نفسها: الصورة واضحة في أذهانهم، لكن الكلمات التي يكتبونها تبدو جافّة، والفيديو الناتج لا يشبه ما تخيّلوه إطلاقًا.
المشكلة ليست في النموذج، بل في الـ Prompt. إنّ النص التوجيهي هو الجسر الذي يربط بين الفكرة والمقطع النهائي — فإذا أُحسنت صياغته، استطاع النموذج إعادة بناء المشهد كما تخيّلته بدقّة؛ وإذا غُمّضت صياغته، جاء المقطع بعيدًا عمّا توقعته.
يستند هذا المقال إلى قدرات توليد الفيديو في 海螺AI (MiniMax)، ويبدأ من الصيغة الأساسية لمساعدتك على البدء بسرعة.
أولًا: الصيغة الأساسية للـ Prompt — ثلاثة عناصر تحمل مقطعًا كاملًا
إذا لم تكن لديك متطلبات صارمة حول زوايا التصوير، وكنت تريد فقط أن يستثير الذكاء الاصطناعي خيالك ويمنحك مشاهد مفعمة بالتصوّر، فالصيغة الأساسية كافية:
الصيغة الأساسية = العنصر الرئيسي + الفضاء المكاني + الحركة / التغيّر
ما هذه العناصر الثلاثة؟
- العنصر الرئيسي: حامل المعلومة الجوهرية في الفيديو، وقد يكون شخصًا أو حيوانًا أو شيئًا، أو حتى كائنًا متخيّلًا لا وجود له.
- الفضاء المكاني: البيئة التي يوجد فيها العنصر الرئيسي، وقد يكون مكانًا محدّدًا كالمكتبة أو المقهى، أو مشهدًا خياليًا مفترضًا.
- الحركة / التغيّر: حالة العنصر الرئيسي في الفيديو — ساكنة، متحرّكة، أو تحوّل في البيئة المحيطة.
إليك بعض الأمثلة:
- جرو صغير يجري في حديقة
- امرأة تمشي في شارع تحت المطر وهي تحمل مظلّة
- جدول مائي صغير يتدفّق بهدوء في وادٍ
تغطّي هذه الـ Prompts الثلاثة الحيوانات والأشخاص والمناظر الطبيعية على الترتيب، وتبنيها بسيطة لكنّ معلوماتها مكتملة، فيستطيع النموذج بناءً عليها توليد مشاهد متماسكة.
ستلاحظ أن كل Prompt يحتوي على ثلاث معلومات: «من، أين، ماذا يفعل». وهذا يطابق منطق وصف المشهد في حياتنا اليومية تمامًا — فالمنطق الأساسي لتوليد فيديو الذكاء الاصطناعي هو ترجمة اللغة الطبيعية إلى صورة بصرية.
ثانيًا: الصيغة الدقيقة للـ Prompt — إضافة الكاميرا والجمالية
حين تكون لديك متطلبات واضحة حول طريقة عرض المشهد وتحتاج إلى مخرجات أكثر احترافية، أضِف بُعدين إلى الصيغة الأساسية:
الصيغة الدقيقة = العنصر الرئيسي + الفضاء المكاني + الحركة / التغيّر + حركة الكاميرا + الأجواء الجمالية
- حركة الكاميرا: تحديد طريقة عرض المشهد بمصطلحات احترافية مثل التقريب (Push-in)، والتبعيد (Pull-out)، والالتفاف (Pan)، والانزياح (Tracking)، والرفع (Crane up)، والخفض (Crane down).
- الأجواء الجمالية: تحديد الأسلوب البصري وأجواء المشهد، ليكون الناتج أقرب إلى ما تتوقّعه.
أمثلة للمقارنة:
- «زوجان يجلسان على مقعد في الحديقة يتحدّثان، الكاميرا ثابتة تصوّر الزوجين، ودرجة ألوان المشهد تميل إلى الدفء، والأجواء حميمية»
- «خروف صغير يخفض رأسه يرعى العشب في مرج، الكاميرا تتقدّم ببطء نحو الخروف، ودرجة الألوان طبيعية واقعية»
- «رجل يرتدي بدلة ووجهه جادّ يتناول المعكرونة في مطعم للمعكرونة، الكاميرا تتباعد تدريجيًا لتُظهر بيئة المطعم الصاخبة، ودرجة الألوان طبيعية»
كما ترى، بعد إضافة وصف الكاميرا والأجواء، صار لكل Prompt «نية إخراجية» مختلفة تمامًا. الشخص نفسه يأكل، فإذا ابتعدت الكاميرا مع ألوان طبيعية، ظهر إحساس وثائقي؛ وإذا اقتربت الكاميرا في لقطة مقربة مع ألوان دافئة، تحوّل المشهد فورًا إلى مقطع دافئ وعاطفي.
ثالثًا: مبدآن أساسيّان
الصيغ السابقة ليست قواعد جامدة — فكل محادثة مع الذكاء الاصطناعي قد تنتج نتائج مختلفة. لكنها تتبع مبدأين عامّين:
- التعبير الأدق ← عرض معلومات فيديو أدقّ
- التعبير الأغنى ← نتائج توليد فيديو أفضل
لا يتناقض الدقّة مع الثراء: حدّد العناصر الأساسية بدقّة أولًا، ثم اكسُها بتفاصيل غنية، وغالبًا ما تحصل على أفضل النتائج.
على سبيل التشبيه، الصيغة الأساسية هي الهيكل العظمي، والصيغة الدقيقة هي اللحم والدم. فإذا صَحَّ الهيكل، لن يخرج الفيديو عن الموضوع؛ وإذا اكتمل اللحم والدم، يجد الفيديو ملمسه وجودته. عند بدء التدرّب، يُنصح بإرساء الصيغة الأساسية أولًا للتأكد من العنصر الرئيسي والمشهد، ثم إضافة وصف الكاميرا والأجواء تدريجيًا.
رابعًا: جرّب بنفسك
الآن وقد أتقنت الصيغ الأساسية، لا بأس أن تجرّب الـ Prompt التالي لتشعر بفارق الصيغة الأساسية عن الدقيقة:
النسخة الأساسية:
قطة تجلس على عتبة النافذة تنظر إلى المطر في الخارج
النسخة الدقيقة:
قطة برتقالية تجلس على عتبة نافذة خشبية، وتمطر في الخارج بخفّة، وقطرات المطر تضرب الزجاج. الكاميرا تتقدّم ببطء نحو وجه القطة البرتقالية، ودرجة الألوان تميل إلى الأزرق البارد، والأجواء هادئة وحنينة.
جرّب إرسال الـ Promptين إلى النموذج كلٍّ على حدة، وقارن الفرق في النتائج. ستكتشف أن الكلمات القليلة الإضافية — «خشبية» و«تتقدّم ببطء» و«أزرق بارد» و«هادئة وحنينة» — لكلٍّ منها تأثيرها المقابل على الصورة. هذا هو قوّة الـ Prompt: كل كلمة تكتبها تُشكّل المشهد النهائي.
في المقال التالي، سننتقل إلى المحتوى المتقدّم، حيث نتناول كيفية استخدام التحكّم الدقيق في الكاميرا، والتحكّم الجمالي، وأساليب إعادة صياغة الـ Prompt التي تجمع بين الاثنين، لتوليد مشاهد فيديو بمستوى سينمائي.
🍅 جرب إنشاء الفيديو بالذكاء الاصطناعي مجاناً على Tomato AI
احصل على أرصدة مجانية للتسجيل. استخدم Seedance 2.0 و Sora 2 و Kling 3 والمزيد. بدون علامة مائية، بدقة 1080P.
ابدأ مجاناً ←