كل فيديو قد يكون كاذباً: تعرف على تقنية “ديب فيك” أو ما يعرف بالزيف العميق

يوليو 3, 2021

4 دقائق

كل فيديو قد يكون كاذباً: تعرف على تقنية “ديب فيك” أو ما يعرف بالزيف العميق ما هو رد فعلك الأولي عندما تشاهد صورة تتضمن أمراً غير مألوف أو حتى مستحيل أمامك؟ معظم الأشخاص سيقومون بالتشكيك بمصداقية الصورة بطبيعة الحال، وسيكون احتمال أن الصورة معدلة عبر فوتوشوب محتملاً. حيث أن تعديل الصور قد بات متاحاً بشكل كبير وعلى نطاق واسع جداً لتفقد الصور الموثوقية التلقائية. لكن الأمور لطالما كانت مختلفة للفيديو، ومن هنا تأتي الخطورة الكبيرة الممكنة لتقنية الزيف العميق (ديب فيك أو Deepfake).

من المعروف أن التلاعب بالفيديو أصعب بمراحل من التلاعب بالصور، وحتى عندما يكون ممكناً فهو مجهد ويحتاج لوقت طويل. فمعظم الفيديوهات تتضمن 30 إطاراً كل ثانية، ودقيقة فقط من المحتوى قد تتضمن 1800 صورة ثابتة أو أكثر حتى. لذا وباستثناء خبراء المونتاج، فتعديل الفيديو ليس سهلاً حقاً ومحاولة تركيب وجه مثلاً سيحتاج لوقت طويل جداً. بالنتيجة هناك ثقة أعلى من معظم الأشخاص بالفيديو. وعادة ما يكون رد الفعل تجاه الفيديوهات المشكوك بأمرها هو الميل للتصديق لا التشكيك.

المشكلة هي أن النظر إلى استبدال الوجوه أو حتى الأصوات في الفيديو كأمر متعذر هي أمر قديم الآن. ونتيجة تطور التكنولوجيا الكبير باتت تقنيات الزيف العميق (ديب فيك) تتيح الأمر بسهولة نسبية وسرعة كبيرة حتى. لذا سنتناول هذه التقنية في هذا الموضوع ونوضح نقاط الالتباس حولها.

ما هي تقنية ديب فيك؟ وكيف تعمل؟

يشير الاسم إلى أساليب تقنية جديدة لتعديل الفيديو والمحتوى الرقمي عموماً بشكل آلي للوصول إلى غاية محددة مسبقاً. حيث يمكن وضع وجه شخص عادي مكان ممثل هوليوودي في مقطع من فيلم مثلاً. أو ربما جعل سياسي شهير يقول أمراً مقولة مثيرة للجدل بصوت يبدو حقيقياً وحركة وجه مقنعة جداً.

عادة ما يتم اعتماد الذكاء الاصطناعي كأساس لإنتاج فيديوهات ديب فيك في الواقع، حيث يعتمد الأمر على ما يعرف باسم التعلم العميق (Deep Learning) والذي يعد أحد أنواع الذكاء الاصطناعي في الأمر.

للوصول إلى النتيجة المطلوبة، عادة ما يكون هناك حاجة لعينتين مختلفتين على الأقل للوصول إلى النتيجة. وفي حال أردنا فيديو يتضمن استبدال وجه شخص ما بوجه آخر، سيلزمنا على الأقل أمران:

فيديو يتضمن الشخص الأصلي الذي سيتم استبدال وجهه لاحقاً. ومن المفضل توافر فيديوهات وصور أخرى له أيضاً.
فيديو على الأقل (ومعظم الحالات تحتاج أكثر) للشخصية التي سيتم أخذ وجهها. وكلما كان المحتوى المتاح عن الشخصية التي سيتم أخذ وجهها أكثر كانت النتائج أفضل.

بالاعتماد على الذكاء الاصطناعي يتم تحليل وجه الشخص الثاني قدر الإمكان لتمييز عناصره الأساسية. لذا وكلما كانت الصور والفيديوهات أكثر كان تشكيل الوجه أفضل وذا دقة أعلى مع مشاكل وأخطاء أقل. وبعدها يتم تركيب الوجه كما هو مكان الوجه الأصلي ومنحه نفس الحركات العامة والجزئية أيضاً.

بالطبع ومع كون الأمر يعتمد على تقنيات الذكاء الاصطناعي وتعلم الآلة، فتحليل الطريقة المحددة لعمل ديب فيك غير ممكن. حيث أننا نعرف النتيجة فحسب فيما أن الطريقة قد تم الوصول إليها بشكل معقد وليس عبر خطوات منطقية متتالية كما يميل البشر لتطوير التقنيات.

هناك اليوم أنواع عديدة ومختلفة من استخدام تقنية ديب فيك على الفيديو والصوت وسواه، لكن ما تناولناه هو الأسلوب الأكثر استخداماً. وعادة ما يضاف لما سبق خوارزميات ذكاء اصطناعي تبحث عن الأخطاء المحتملة ومشاكل الاستمرارية، ويستخدم خرج هذه الخوارزميات لتحسين خوارزمية صنع الزيف العميق الأصلية.

لماذا تستخدم مقاطع الزيف العميق أصلاً؟

هناك مجالان أساسيان لاستخدام مقاطع ديب فيك في الواقع، والسببان منفصلان عن بعضهما حسب النية في الواقع:

لغايات التسلية

تشمل هذه المقاطع الفيديوهات التي يصنعها الأشخاص لنفسهم بغرض المزاح والتسلية مثلاً. كما تتضمن تركيب الوجوه في مشاهد الأفلام والمسلسلات أو حتى تجربة الغناء بطبقة صوت مغنٍّ شهير. كما من الممكن أن تتضمن هذه الفيديوهات استخدام فيديو لشخصية شهيرة وجعلها تقول أموراً ساخرة من الواضح أنها غير حقيقية لكنها مبالغة كبيرة لصفات الشخصية الأصلية مثلاً.

لغايات خبيثة

هذه الناحية هي أكثر ما يقلق فيما يخص تقنية ديب فيك في الواقع، حيث أنه مصمم ليكون قادراً على خداع الأشخاص. ومع أن حالات التضليل الكبير المكشوفة غير موجودة بعد، فالتقنية قابلة لإساءة الاستخدام بشدة وفي العديد من السيناريوهات. فعلى سبيل المثال يمكن أن تستخدم التقنية لأمور مثل:

تركيب وجه شخصية شهيرة على فيديو يتضمن فعلاً أو قولاً فاضحاً أو بشكل يضر بسمعة الضحية أو يسيء لمظهرها العام.
جعل شخصية مؤثرة مثل قائد سياسي يقول أمراً ما لتضليل أتباعه ومرؤوسيه مثلاً تجاه سلوك معين.
استخدام التقنية لتركيب فيديوهات لأشخاص عاديين ومن ثم ابتزازهم مالياً مع التهديد بالكشف عن الفيديوهات.

بالإضافة لما سبق هناك عدد هائل من الحالات التي يمكن أن تتضمن استخداماً غير مناسب ولا أخلاقي للتقنية. وبالنتيجة فقد كان هناك محاولات (فاشلة بشدة) لحظرها ومنعها في الماضي. كما أن هناك الكثير من النداءات الحالية لتحسين تقنيات كشفها ورصدها مبكراً.

كيف يمكن رصد فيديوهات الزيف العميق (ديب فيك) أو كشفها؟

للأسف لا توجد طريقة موحدة أو أسلوب مضمون للقيام بالأمر لسبب بسيط: كلما تم اكتشاف مشكلة أو ثغرة أو خطأ ما عادة ما يتم تطوير خوارزميات جديدة تتجنبه وتحسن على السابق. لكن وفي الكثير من الحالات يمكن ملاحظة بعض الأخطاء التي تنتج عن صنع فيديو من مواد أولية غير كافية. وتتضمن بعض مؤشرات كون الفيديو هو ديب فيك أموراً مثل:

العيون المفتوحة بشكل غير طبيعي نتيجة قلة أو انعدام الصور التي تتضمن عيوناً مغمضة أو ترف.
التشوهات الحاصلة للوجه أثناء الحركة مثل ظهور أجزاء غير منطقية تشريحياً.
أخطاء في التجاعيد المحيطة بالفم أو حتى ضمنه وشمن تجاويف الوجه الأخرى مثل فتحتي الأنف.

عموماً من النادر أن يتم تقييم كون الفيديوهات نتيجة ديب فيك أم لا بمجرد النظر إليها. بل أن معظم عمليات التقييم تتم عبر خوارزميات ذكاء اصطناعي مصممة لهذه الغاية. وبالنتيجة هناك ما يشبه سباق تسلح مستمر بين صانعي فيديوهات الزيف العميق ومطوري خوارزميات كشفها. والواقع هو أن صانعي هذا المحتوى هم المتقدمون ويمتلكون أفضلية مستمرة لا يمكن إنكارها.

في المستقبل من غير المستبعد أن تصبح فيديوهات الزيف العميق أمراً غير قابل للتمييز أبداً. وفي حينها سنصبح أمام الكثير من المشاكل في الواقع، ولعل أهمها موضوع المصداقية وبالأخص للتسريبات. حيث سيكون من الممكن أن تقوم وسائل الإعلام نفسها باستخدام التقنية للتضليل مثلاً، أو يمكن صنع تسريبات وفيديوهات يدعى أنها مسجلة بسرية بشكل مزيف تماماً. كما أن الأنظمة العدلية حول العالم ستحتاج للتأقلم مع واقع صعوبة استخدام الفيديو كدليل بالضرورة وبالأخص عند الوصول إليه بشكل غير مباشر.

التعليق بواسطة حساب الفيسبوك