إلى أين تتجه تقنية تحويل النص إلى صورة بالذكاء الاصطناعي؟

سبتمبر 27, 2022

3 دقائق

إلى أين تتجه تقنية تحويل النص إلى صورة بالذكاء الاصطناعي؟ في الأشهر الأخيرة، استحوذت قدرة جديدة وقوية للذكاء الاصطناعي على اهتمام الكثيرين وأطلقت العنان لمخيلتهم بشكل كبير وهي تحويل النص إلى صورة (Text-to-image AI)، للتوضيح هذا نموذج من الذكاء الاصطناعي قادر على توليد صور أصلية تحاكي معنى النص البسيط الذي يُدخل عليه.

تنتج هذه النماذج من الذكاء الاصطناعي صوراً فريدة لم تتواجد سابقاً في العالم، وهي ليست صور مركبة باستخدام الصور الموجودة على الإنترنت، بل هي صور جديدة وأصلية بالكامل. على سبيل المثال، إن أدخلت جملة “دمية دب تشارك في سباق سباحة الفراشة الأولومبي” على نموذج تحويل نص إلى صورة فهذه هي النتيجة.

يعد Dall-E من OpenAI نموذج الذكاء الاصطناعي الأكثر شهرة لتحويل النص إلى صور، حيث أطلق إصداره الأول في شهر يناير عام 2021، ثم جذب إصداره الثاني المُطلق في أبريل عام 2022 اهتماماً كبيراً من عامة الناس. لذلك لم تمر مدة طويلة قبل ظهور المنافسين لـ Dall-E وأبرزهم نموذج Google Imagen الذي أطلق في مايو عام 2022.

من أهم التقنيات المبتكرة والشعبية التي تعتمد عليها Dall-E وImagen وغيرها خلال تعلمها الآلي هي نماذج الانتشار (Diffusion Models). وهي تقنية مستوحاة من مفاهيم من الديناميكا الحرارية أتت لتحل مكان الشبكات التوليدية الخصومية (Generative Artificial Networks – GANs). باختصار، تتعلم نماذج الانتشار آلياً عن طريق إفساد الصور التي تستخدمها للتعلم بضوضاء مضافة تدريجياً، ثم تتعلم كيفية عكس هذا الإفساد لاستعادة الصورة الأصلية، وهكذا يتدرب الذكاء الاصطناعي على تطبيق أساليب عكس الإفساد لتصنيع صور كاملة جديدة من مدخلات نصية عشوائية.

فإذا أردنا استغلال نماذج الذكاء الاصطناعي لتحويل النص إلى صور إلى أقصى حد، إلى أين سنصل؟ قد تكون بعض الأمور مبهمة، ولكن النقاط الأربع التالية شبه أكيدة.

1. لم تتضح أكبر فرص وتطبيقات تحويل النص إلى صور بعد

في البداية، كانت حالة الاستخدام الأساسية لتحويل النص إلى صور بالذكاء الاصطناعي هي تجربتها المجردة، فتجربة تحويل النص إلى الصور وحدها قد تمتع أي مستخدم لساعات طويلة. ولكن الآن حان الوقت للاستفادة من هذه التقنية على شكل أوسع بكثير، وهنا يأتي دور المستثمرين ورواد المجال لتطوير التقنية وتطبيقاتها واعتمادها لإنشاء أعمال ناجحة.

يمكن لتوليد الصور الفنية بالذكاء الاصطناعي أن يكون تطبيقاً مربحاً لوحده، حيث يبلغ حجم سوق الفن الجميل 65 مليار دولار عالمياً. وعندما يسهل الذكاء الاصطناعي توليد الصور لأغراض مثل أغلفة الكتب والمجلات وألبومات الموسيقى، قد يواجه مزودو الصور الجاهزة (stock photos) مثل Getty Images وShutterstock منافساً قوياً.

من أول التطبيقات الأخرى التي تخطر على البال هو التسويق، فطبيعة هذه التقنية تغذي خيال المسوقين وتحثهم على ابتكار إعلانات فريدة من نوعها تخطف أنظار العملاء، كما يوفر تحويل النص على صور تكاليف تصميم الصور لشركات التسويق. فقد بدأت شركات مثل Kraft Heinz للمنتجات الغذائية منذ الآن باستخدام Dall-E في تسويقها.

هذا ويمكن لمصممي المنتجات مثل الملابس والسيارات والأثاث استخدام هذه التقنية لتوليد تخيلات لتصميمات محتملة بشكل سريع وغير مكلف، ويمكن أن يستخدمها المهندسون المعماريون لاستلهام تصاميم مبتكرة للمباني والطرق وغيرها.

2. سيشهد المجال تدفقاً كبيراً من رأس المال المخاطر

لقد بدأت الأخبار عن إمكانات تحويل النص إلى صور الكبيرة بالتخلل في عالم رأس المال المخاطر بالفعل. فهناك احتمال كبير أن تكون هذه التقنية قادرة على إنشاء أعمال ناجحة وضخمة ودائمة، لذلك من المتوقع قدوم موجة كبيرة من الاستثمار المخاطر على المجال خلال السنة القادمة.

ونشهد هذا منذ الآن، حيث أفاد تقرير الأسبوع الماضي أن شركة Stability.ai (إحدى الشركات المصنعة لنماذج تحويل النص إلى صورة) تجمع استثمارات بمقدار 100 مليون دولار من كبار المستثمرين مثل Lightspeed وCoatue مع قيمة مُخمنة وصلت إلى مليار دولار.

3. سيثير المجال العديد من قضايا الملكية الفكرية والقانونية والأخلاقية

مثل باقي نماذج وتطبيقات الذكاء الاصطناعي، سيثير تحويل النص إلى صور الكثير من القضايا أهمها القلق المتزايد من سلب الآلة وظائف البشر، فقد تستغني الكثير من الشركات من خدمات التصميم ومصممي الصور وتستبدلهم بنموذج تحويل نص إلى صور.

كما ستثير التقنية تساؤلات صعبة مثل: هل يمكن للصور التي يولدها الذكاء الاصطناعي أن تعتبر بمثابة الأعمال الفنية الناتجة عن جهد بشري؟ وإلى من تنسب الملكية الفكرية والإعلامية للصور التي يولدها هذا النموذج من الذكاء الاصطناعي؟ وهل هي نوع من الزيف العميق (Deepfake)؟

4. ستفتح تقنية تحويل النص إلى صور آفاقاً مذهلة

لا تزال تقنية تحويل النص إلى صور بالذكاء الاصطناعي هي الخطوة الأولى في مجالها، ومستقبلها سيكون حافلاً. الخطوة التالية الواضحة هي التوصل إلى تقنية تحويل النص إلى فيديو بالذكاء الاصطناعي، والتي ستكون أكثر تعقيداً بالتأكيد، لكنها ليست مستحيلة بالكامل.

والإمكانات هنا مذهلة؛ فالفيديو أصبح الحاكم المسيطر على حياتنا الرقمية. والوصول إلى طريقة سهلة وغير مكلفة لتوليد مقاطع الفيديو ستحول مجالات عدة ابتداءً من الترفيه حتى وسائل التواصل الاجتماعي والتسويق.

وقد تكون هذه التقنية صعبة المنال في الوقت الحالي، لكن أصبح بين أيدينا الآن التقنية الأساسية لبنائها، وقد نتوصل إليها بسرعة قياسية لا نقدر على تخيلها الآن.

التعليق بواسطة حساب الفيسبوك