لا تحصل على التأثير الذي تريده؟ لأنك ما زلت تكتب مطالبات الفيديو الذكي كرواية أدبية
لا تحصل على التأثير الذي تريده؟ لأنك ما زلت تكتب مطالبات الفيديو الذكي كرواية أدبية
معظم الناس يكتبون مطالبات الفيديو الذكي كما يكتبون الروايات — يكدسون الصفات لوصف مشهد، ثم يأملون أن يخمن النموذج ما في خيالهم. لكن نموذج الفيديو الذكي ليس رساماً. إنه مخرج. ما تعطيه يجب أن يكون تعليمات إنتاج، لا انطباعات.
هذه المقالة لا تتحدث عن الصيغ أو قوالب الجمل. تلك مغطاة في دليل الأساسيات والدليل المتقدم.
هنا نجيب على سؤال واحد فقط: كيف تتأكد من أن اتجاه مطالبتك صحيح؟
1. أولاً، افهم لمن تتحدث
إليك ما يدور في ذهن معظم الناس عند كتابة مطالبة:
"فتاة تركض في حقل قمح عند الغروب، شعرها الطويل يتطاير في الريح، إحساس سينمائي."
يبدو جميلاً. لكن فكر فيه — لمن تقول هذا؟
لو كنت تقوله لمصور سينمائي بشري، لربما يكمل الصورة بخياله. لكن نموذج الفيديو الذكي ليس بشرياً. ليس لديه تجربة حية مع "الغروب". لا يعرف ما يعنيه "إحساس سينمائي" من حيث تدرج الألوان. ولا يعرف السعة الدقيقة لـ "يتطاير في الريح".
النموذج يفهم العالم بطريقة مختلفة تماماً عنك. داخلياً، يقسم مطالبتك إلى طبقتين:
- الطبقة المكانية: ما في الإطار — العناصر، المشهد، الإضاءة، الألوان
- الطبقة الزمنية: كيف تتغير الأشياء مع الوقت — الحركة، حركة الكاميرا، التحولات العاطفية
"إحساس سينمائي" ليس معلومة مكانية ولا زمانية. إنه تقييم، لا تعليمات. النموذج لا يستطيع سوى التخمين بناءً على ما ظهر قرب هذه العبارة في بيانات التدريب — الإصابة حظ، والخطأ هو القاعدة.
إذن المبدأ الأول: استبدل التقييمات بالتعليمات.
| ما كتبته (تقييم) | ما يجب كتابته (تعليمات) |
| إحساس سينمائي | عمق ميدان ضحل، خلفية ضبابية، درجات صفراء دافئة |
| الفتاة تبدو حزينة | الفتاة تخفض رأسها، كتفاها ترتجفان قليلاً، أصابعها تقبض على طرف ثوبها، احمرار في العينين |
| حركة سلسة | الفتاة تمشي ببطء، خطوات خفيفة، لقطة متوسطة بتتبع ثابت |
| إضاءة جميلة | ضوء الغروب من اليسار بزاوية 45 درجة، درجات كهرمانية دافئة، ضوء حواف على العنصر |
كل كلمة تكتبها يجب أن تكون شيئاً يستطيع النموذج تنفيذه، لا شيئاً يستطيع الشعور به.
2. المستويات الخمسة لجودة المطالبة
ليس الجميع عند نفس نقطة البداية. تحقق من مستواك:
المستوى 1: وصف بجملة واحدة (مبتدئ)
فتاة تمشي في الشارع.
المشكلة: عنصر غامض، حركة واحدة، لا مشهد، لا توجيه كاميرا. النموذج يرتجل بحرية، والنتيجة غير قابلة للتحكم.
المستوى 2: إضافة صفات (تمهيدي)
فتاة بفستان أحمر تمشي بسعادة في شارع مزدحم، غروب جميل.
أفضل من المستوى 1، لكن "مزدحم" و"سعادة" و"جميل" كلها كلمات تقييمية. النتيجة قد تكون بعيدة جداً عن توقعاتك.
المستوى 3: تعليمات منظمة (متقدم)
لقطة 1: شارع مساءً، فتاة بفستان أحمر تمشي ببطء بخطوات خفيفة وابتسامة خفيفة. لقطة متوسطة بتتبع ثابت، ضوء غروب دافئ من اليسار، عمق ميدان ضحل.
هنا يبدأ الشكل الصحيح. هناك تقسيم لقطات، حركات محددة، حركة كاميرا، وإضاءة. معظم من درسوا المطالبات بجد يتوقفون هنا.
المستوى 4: تعليمات متعددة الوسائط (محترف)
الفتاة في @صورة1 كبطلة، @صورة2 كمرجع لمشهد الشارع، مرجع @فيديو1 لحركة الكاميرا.
لقطة 1: الفتاة تمشي ببطء بخطوات خفيفة، ابتسامة خفيفة. لقطة متوسطة بتتبع ثابت، ضوء غروب دافئ من اليسار، عمق ميدان ضحل. (موسيقى جيتار خفيفة في الخلفية)
المفتاح في هذا المستوى ليس مدى جودة النص، بل معرفة ما يُفوَّض للمواد. كيف يبدو الشخصية؟ فوَّضه لصورة مرجعية. أسلوب الكاميرا؟ فوَّضه لفيديو مرجعي. طبقة الصوت؟ فوَّضه للصوت. النص يتولى "التنسيق" فقط.
المستوى 5: تكرار هندسي (خبير)
(بعد التوليد الأول) الوجه يتغير عند الثانية 3.
إصلاح: جهّز لقطة قريبة منفصلة للوجه كـ @صورة3، أضف قيد "الوجه مستقر وغير مشوه"، أعد التوليد.
(بعد التوليد الثاني) قفزة عند الانتقال.
إصلاح: أضف حركة انتقالية بين اللقطة 1 و2: "الفتاة تتوقف، تستدير نحو الكاميرا"، أعد التوليد.
مستخدمو المستوى 5 لا يتوقعون الإصابة من المرة الأولى. يعاملون المطالبة كـ كود قابل للتصحيح: توليد → مراقبة المشاكل → إصلاح مستهدف → إعادة توليد. كل تكرار يقرب النتيجة من الهدف.
مشكلة معظم الناس ليست أنهم "لا يستطيعون الكتابة" — بل أنهم توقفوا عند المستوى 2 وتوقعوا نتائج.
3. الاتجاه أهم من القواعد: ثلاث إدراكات أساسية
الإدراك 1: أنت لا "تصف مشهداً"، أنت "توزع الموارد"
أكبر خطأ للمبتدئين: الاعتقاد أن المطالبة مجرد نص.
في الواقع، توليد الفيديو الذكي يأخذ حزمة موارد متعددة الوسائط:
- مطالبة نصية (منطق التنسيق)
- صور مرجعية (تثبت مظهر العنصر، أسلوب المشهد)
- فيديوهات مرجعية (تثبت حركة الكاميرا، إيقاع الحركة، الأسلوب)
- صوت مرجعي (يثبت طبقة الصوت، الأجواء)
عملك ليس وصف كل شيء بالنص. بل الحكم على الوسيط الأنسب لكل معلومة:
| ما تريد تثبيته | الوسيط الأفضل | لماذا |
| مظهر الشخصية | صورة مرجعية (لقطة وجه) | وصف الوجه بالنص = كارثة |
| أسلوب المشهد | صورة مرجعية/فن مفهومي | "سايبربانك" تعني 100 شيء لـ 100 شخص |
| حركة الكاميرا | فيديو مرجعي | حركة الكاميرا ديناميكية، النص غير كفؤ |
| طبقة الصوت | صوت مرجعي | النص لا يستطيع وصف طبقة الصوت |
| ترتيب الأحداث | مطالبة نصية | النص وحده يعبر عن منطق السرد |
| قيود بصرية | مطالبة نصية | "بدون ترجمة" قاعدة، لا صورة |
المبدأ الأساسي: ما يمكن تكليفه للمواد، لا تضعه في النص. النص يتولى فقط ما لا تستطيع المواد فعله — تنسيق التسلسل، تعريف العلاقات، فرض القيود.
تكوين من 4-5 مواد (1-2 صور شخصيات + صورة مشهد واحدة + فيديو مرجعي للكاميرا + مقطع صوتي) يتفوق على 500 كلمة نص خالص في كل مرة.
الإدراك 2: فكّر مكانياً وزمانياً بشكل منفصل
النموذج داخلياً يقسم مطالبتك إلى "طبقة مكانية" و"طبقة زمنية". لذا عند الكتابة، فكّر في خطوتين:
الخطوة 1: الطبقة المكانية — ما في هذا الإطار؟
أغمض عينيك، جمّد الإطار، واسأل نفسك:
- من هو العنصر؟ ماذا يرتدي؟ ما وضعيته؟
- أين؟ داخل أم خارج؟ ما أسلوب البيئة؟
- من أين الضوء؟ ما درجة اللون؟ ما الأجواء؟
اكتب هذا — إنه طبقتك الأساسية الثابتة.
الخطوة 2: الطبقة الزمنية — كيف تتغير هذه الأشياء؟
عندما يتحرك الإطار:
- ما الحركة التي يؤديها العنصر؟ ما السعة؟ ما السرعة؟
- كيف تتحرك الكاميرا؟ دفع، سحب، بان، إمالة؟
- هل هناك تحول عاطفي؟ من ماذا إلى ماذا؟
- هل يتغير المشهد؟
رتّب هذه زمنياً — إنه تنسيقك الديناميكي.
مشكلة الكثيرين أن المكاني والزماني مختلطان. فصلهما يجعل المطالبة أوضح بكثير.
قالب عملي:
[مكاني]
العنصر: الفتاة من @صورة1، فستان أحمر
المشهد: شارع مساءً من @صورة2
الإضاءة: ضوء غروب دافئ من اليسار 45 درجة، عمق ميدان ضحل
الأسلوب: أسلوب وثائقي سينمائي
[زماني]
لقطة 1: الفتاة تمشي ببطء، خطوات خفيفة، ابتسامة خفيفة. لقطة متوسطة بتتبع ثابت.
لقطة 2: الفتاة تتوقف، تستدير للكاميرا، تبتسم. الكاميرا تدفع ببطء نحو لقطة قريبة.
لقطة 3: الفتاة تواصل المشي للأمام، الكاميرا تتراجع ببطء، تتجمد على لقطة واسعة للشارع.
[قيود]
الوجه مستقر وغير مشوه، بدون ترجمة، بدون علامة مائية.
بعد الكتابة، يمكنك دمج [مكاني] و[قيود] في المقدمة كـ "إعدادات عامة" والاحتفاظ بـ [زماني] فقط كتقسيم لقطات — هذه مطالبة احترافية واضحة البنية.
الإدراك 3: الأقل هو الأفضل، لكن في الأماكن الصحيحة
خطأ مبتدئين شائع آخر: محاولة كتابة كل شيء، فلا ينجح في شيء.
في فيديو 15 ثانية، تكتب 8 لقطات، 5 تغييرات مشهد، 3 تحولات عاطفية — النموذج لا يستطيع المعالجة. كل لقطة متسرعة، الحركات غير مكتملة، الانتقالات متقطعة.
للمطالبات سعة محدودة. انتباه النموذج محدود. كل جملة تكتبها تستهل هذا الميزانية.
النهج الصحيح:
- لقطة واحدة تفعل شيئاً واحداً: حركة واحدة + حركة كاميرا واحدة + نقطة عاطفية واحدة. لا تطمع.
- لقطات أقل، تفاصيل أكثر: 3 لقطات مفصلة تتفوق على 8 لقطات سطحية.
- القيود يجب أن تكونminimalية: اكتب الضروري فقط (بدون ترجمة، وجه مستقر). كل قيد إضافي يقلل حرية النموذج وقد يخفض الجودة.
- لا تذكر ما يعرفه النموذج بالفعل: "جودة عالية الدقة" افتراضية — لا تؤكدها.
اختبار: بعد قراءة مطالبتك، هل يمكنك إغماض عينيك وتشغيل الفيديو في رأسك؟ إن لم تستطع — أنت لا تعرف ما تريد، والنموذج بالتأكيد لا يعرف. إن استطعت لكن شعرت أن "المعلومات كثيرة جداً" — ربما كتبت أكثر مما ينبغي. اختصر النصف الأقل أهمية.
4. عقلية التكرار: المطالبة مسودة، لا نسخة نهائية
التحول الأهم في الاتجاه: اقبل أن التوليد الأول لن يكون مثالياً.
أكبر فرق بين المحترفين والهواة ليس مدى جودة الكتابة — بل عدد التكرارات. الهاوي يولّد مرة، لا يعجبه، فيستسلم أو يعيد الكتابة كلياً. المحترف يولّد، ثم يفعل شيئاً واحداً — يشخّص.
قائمة التشخيص
بعد كل توليد، استخدم هذه القائمة لإيجاد المشاكل:
| العَرَض | السبب الجذري | الإصلاح |
| الوجه تغير/لا يطابق | الوجه المرجعي صغير أو مختلط بالجسم | استخدم لقطة وجه قريبة منفصلة، الوجه يملأ الإطار |
| الحركة متقطعة/غير سلسة | حركات كبيرة أو انتقالات مفقودة | بدّل إلى حركات صغيرة بطيئة، أضف انتقالات |
| اهتزاز الكاميرا | حركات كاميرا متعددة في لقطة واحدة | حركة كاميرا واحدة فقط لكل لقطة |
| أسلوب خاطئ | لا قيد أسلوب واضح | أضف "أسلوب أنمي ثنائي الأبعاد" أو "فانتازيا صينية ثلاثية الأبعاد" |
| ترجمة/شعار غير مرغوب | نص في المادة المرجعية أو لا قيد | نظّف نص المواد، أضف "بدون ترجمة" |
| قفزة عند الانتقال | انتقال مفقود بين اللقطات | أضف حركة انتقالية أو لقطة انتقالية بين اللقطات |
| تداخل المشهد/الشخصية | مواد مرجعية كثيرة، ارتباك الأولوية | اختصر إلى 4-5 مواد، ضع المهمة أولاً |
| تدهور الجودة (بعد التمديد) | تدهور تراكمي من تمديدات متعددة | تحكم في عدد التمديدات، أو استخدم طريقة النموذج الأبيض |
تدفق التكرار
اكتب النسخة 1 → ولّد → شخّص → إصلاح مستهدف → أعد التوليد → شخّص → ...
أصلح مشكلة واحدة في كل تكرار. تغيير أشياء كثيرة دفعة واحدة يعني أنك لا تعرف أي تغيير ساعد (أو ضر).
عادة 2-3 تكرارات تصل لنتيجة مرضية. لا تتوقع الإصابة من المرة الأولى — هذه ليست مسألة مهارة، بل طبيعة توليد الفيديو الذكي. النموذج له عشوائية؛ نفس المطالبة قد تنتج نتائج مختلفة مرتين. هدفك هو تقارب العشوائية إلى نطاق مقبول، لا القضاء عليها.
5. الاتجاه المتقدم: من "كتابة المطالبات" إلى "تصميم المطالبات"
عندما تستطيع كتابة مطالبات بمستوى 3+ باستمرار، الخطوة التالية ليست الكتابة بشكل أطول وأكثر تفصيلاً — بل تغيير النهج.
نهج 1: لوحة القص أولاً، ثم الكتابة
لا تحلق في صندوق إدخال فارغ. ارسم أولاً جدول لقطات بسيط (على ورق أو في ذهنك):
لقطة 1 | متوسطة بتتبع | الفتاة تدخل الشارع | غروب دافئ
لقطة 2 | لقطة قريبة | الفتاة تتوقف، تبتسم | عمق ميدان ضحل
لقطة 3 | واسطة تراجع | الفتاة تبتعد | درجات دافئة
بهذا الهيكل، ملء المطالبة مجرد "ترجمة" — تحويل كل خانة إلى تعليمات يفهمها النموذج. هذا أكثر كفاءة بـ 10 مرات من البدء من الصفر.
نهج 2: ابنِ وحدات قابلة لإعادة الاستخدام
ستلاحظ أن عناصر كثيرة تتكرر — حركات الكاميرا، قيود الأسلوب، متطلبات الجودة. حوّلها إلى وحدات:
- وحدة الكاميرا:
لقطة متوسطة بتتبع ثابت/دفع بطيء نحو لقطة قريبة/تراجع بطيء نحو لقطة واسعة - وحدة القيود:
الوجه مستقر وغير مشوه، حركة طبيعية سلسة، بدون تقطيع أو وميض، بدون ترجمة، بدون شعار - وحدة الأسلوب:
أسلوب وثائقي سينمائي، درجات دافئة، إضاءة ناعمة/سايبربانك درجات باردة أزرق-بنفسجي/أسلوب أنمي ثنائي الأبعاد
في المرة القادمة، اجمع الوحدات مثل لبنات بناء، واكتب فقط حركات العنصر وتفاصيل المشهد للحالة المحددة. هذا ليس كسلاً — إنه هندسة.
نهج 3: استخدم الفيديو المرجعي "للتعليم"، لا النص "للقول"
وصف حركة الكاميرا بالنص غير فعال للغاية. "دفع بطيء" — فهم النموذج قد يكون مختلف جداً عنك. لكن إن قدمت فيديو مرجعي بلقطة دفع بطيء، النموذج يفهم فوراً.
لكل المعلومات الديناميكية (حركة الكاميرا، إيقاع الحركة، الانتقالات)، أعطِ الأولوية للفيديو المرجعي. ارجع للنص فقط عند عدم وجود مرجع مناسب.
نهج 4: افهم حدود قدرة النموذج
ليس كل تأثير يمكن تحقيقه عبر المطالبات. لا تصر على المطالبة في هذه الحالات:
- تحكم دقيق بالمدة ("اقطع عند الثانية 3") — دعم الطوابع الزمنية غير مستقر
- تفاعلات فيزيائية معقدة (صب الماء، الكتابة، ربط الأحذية) — النماذج الحالية تعاني عموماً
- اتساق متعدد الشخصيات (5 شخصيات جميعها ثابتة) — بعد 2-3 شخصيات، الانجراف محتمل
- رسم نص دقيق (ترجمات طويلة، تخطيطات معقدة) — عرضة للأخطاء
لهذه الاحتياجات، الاتجاه الصحيح هو التوليد المقسم + التحرير اللاحق، لا حشو كل شيء في مطالبة واحدة.
6. الخلاصة: مسار تفكير مطالبة الفيديو الذكي
ابدأ
│
├─ 1. ما التأثير الذي أريده؟ (معاينة ذهنية للفيديو كاملاً)
│
├─ 2. ماذا للمواد؟ وماذا للنص؟
│ ├─ مظهر الشخصية → صورة مرجعية
│ ├─ أسلوب المشهد → صورة مرجعية
│ ├─ إيقاع الكاميرا → فيديو مرجعي
│ ├─ الصوت/الأجواء → صوت مرجعي
│ └─ منطق السرد → مطالبة نصية
│
├─ 3. لوحة القص (من + أين + ما الحركة + كيف تتحرك الكاميرا)
│ ├─ شيء واحد لكل لقطة
│ └─ فضّل الحركات الصغيرة البطيئة
│
├─ 4. أضف القيود (وجه مستقر، بدون ترجمة، إلخ)
│
├─ 5. ولّد → شخّص → أصلح → أعد التوليد (2-3 جولات)
│
└─ تم
خاتمة
جوهر مطالبات الفيديو الذكي ليس "الوصف" — بل الإخراج.
أنت تخرج فريقاً يتكون من نص وصور وفيديو وصوت لإنتاج فيديو معاً. مطالبتك ليست نسخة للجمهور؛ إنها أمر عمل لهذا الفريق. كلما كانت أدق وأكثر تنظيماً وأفضل تقسيماً، كانت النتيجة أفضل.
تذكر ثلاثة أشياء:
- ما يمكن تكليفه للمواد، لا تضعه في النص.
- كل تعليمات يجب أن تكون قابلة للتنفيذ، لا قابلة للشعور فقط.
- عدم الكمال في المرة الأولى طبيعي — التكرار هو ما يجعلك محترفاً.
عندما يكون الاتجاه صحيحاً، الباقي مجرد ممارسة.
هذه المقالة هي نظرة عامة على منهجية مطالبات الفيديو الذكي. للصيغ المحددة، أنماط الجمل، مصطلحات الكاميرا، واستكشاف الأخطاء، راجع بقية سلسلة المقالات.
🍅 جرب إنشاء الفيديو بالذكاء الاصطناعي مجاناً على Tomato AI
احصل على أرصدة مجانية للتسجيل. استخدم Seedance 2.0 و Sora 2 و Kling 3 والمزيد. بدون علامة مائية، بدقة 1080P.
ابدأ مجاناً ←