Real-Time Inappropriate Content Detection on YouTube Using CLIP: A Zero-Shot Vision-Language Approach

Abdulghani Abied; Osayla Alzawawi

doi:10.64489/fp041h64

المؤلفون

عبدالغني عبدالسلام عبيد قسم علوم الحاسوب، جامعة الزيتونة، ترهونة، ليبيا, ليبيا
عسيلة علي الزواوي قسم علوم الحاسوب، جامعة الرفاق، طرابلس، ليبيا, ليبيا

مجلد 12 عدد 12 (2026): العدد الثاني عشر

علوم تطبيقية

مُقَدَّم 25 أبريل 2026

منشور 25 أبريل 2026

التنزيلات

Download PDF file (الإنجليزية)

الملخص
كيفية الاقتباس
المقاييس

شهدت منصات الفيديو عبر الإنترنت نموا سريعا، مما زاد من احتمالية تعرض الأطفال المحتوى ضار مثل العنف أو المواد غير اللائقة. تعتمد أساليب التصفية التقليدية، مثل البحث بالكلمات المفتاحية والقوائم الثابتة، على آليات محدودة لا تستطيع مواكبة الطبيعة الديناميكية والمتعددة الوسائط للمحتوى الرقمي الحديث. تقدم هذه الدراسة نظاماً ذكيا لمراقبة المحتوى في الزمن الحقيقي، يجمع بين إضافة متصفح (Browser Extension) ومنصة إشراف مخصصة للأهل، بهدف متابعة استخدام الأطفال لموقع يوتيوب بشكل مستمر. يعتمد النظام على نموذج CLIP

من )Zero-Shot Classification( لتنفيذ تصنيف صفري )Contrastive Language Image Pretraining( خلال ربط التمثيلات البصرية والنصية في فضاء دلالي مشترك تشمل المنهجية استخراج لقطات من الفيديو بشكل دوري، ومعالجتها، ثم تصنيفها اعتماداً على مقياس التشابه بين الصور وتسميات نصية محددة تمثل محتوى ضار أو أمن. كما يعتمد النظام على آلية تصنيف مزدوجة مدعومة بتتبع زمني للإطارات لتحسين دقة النتائج وتقليل الأخطاء. أظهرت نتائج التقييم أن النظام يحقق دقة إجمالية تبلغ 79% مع قدرة عالية على اكتشاف المحتوى الضار، مما يقلل من احتمال تعرض الأطفال المحتوى غير مناسب. وتؤكد النتائج فعالية استخدام التعلم الصفري في تطبيقات الزمن الحقيقي، مع توفير حل قابل للتوسع ويحافظ على خصوصية المستخدم.

كيفية الاقتباس

"الكشف الفوري عن المحتوى غير اللائق على منصة YouTube باستخدام نموذج CLIP: نهج الرؤية واللغة بدون تدريب مسبق (Zero-Shot)". 2026. مجلة الرفاق للمعرفة 12 (12): 1-13. https://doi.org/10.64489/fp041h64.