يشتمل مجال التعلم الآلي على مجموعة متنوعة من المنهجيات والنماذج، كل منها مناسب لأنواع مختلفة من البيانات والمشكلات. ومن بين هذه النماذج، يعد التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف اثنين من أكثر النماذج الأساسية.
يتضمن التعلم الخاضع للإشراف تدريب نموذج على مجموعة بيانات مُسمَّاة، حيث يتم إقران بيانات الإدخال بالمخرجات الصحيحة. يتعلم النموذج كيفية ربط المدخلات بالمخرجات من خلال تقليل الخطأ بين تنبؤاته والمخرجات الفعلية. من ناحية أخرى، يتعامل التعلم غير الخاضع للإشراف مع البيانات غير المُسمَّاة، حيث يكون الهدف هو استنتاج البنية الطبيعية الموجودة داخل مجموعة من نقاط البيانات.
يوجد نوع من التعلم يدمج تقنيات التعلم الخاضع للإشراف وغير الخاضع للإشراف، وغالبًا ما يشار إليه باسم التعلم شبه الخاضع للإشراف. يستفيد هذا النهج من البيانات المصنفة وغير المصنفة أثناء عملية التدريب. والأساس المنطقي وراء التعلم شبه الخاضع للإشراف هو أن البيانات غير المصنفة، عند استخدامها جنبًا إلى جنب مع كمية صغيرة من البيانات المصنفة، يمكن أن تنتج تحسنًا كبيرًا في دقة التعلم. وهذا مفيد بشكل خاص في السيناريوهات حيث تكون البيانات المصنفة نادرة أو باهظة الثمن للحصول عليها، ولكن البيانات غير المصنفة وفيرة وسهلة التجميع.
يعتمد التعلم شبه الخاضع للإشراف على افتراض أن البنية الأساسية للبيانات غير المصنفة يمكن أن توفر معلومات قيمة تكمل البيانات المصنفة. يمكن أن يتخذ هذا الافتراض عدة أشكال، مثل افتراض المجموعة، أو افتراض متعدد الشعب، أو افتراض الفصل منخفض الكثافة. يفترض افتراض المجموعة أن نقاط البيانات في نفس المجموعة من المرجح أن يكون لها نفس التسمية. يقترح افتراض متعدد الشعب أن البيانات عالية الأبعاد تقع على متعدد شعب ذي أبعاد أقل بكثير، والمهمة هي تعلم هذا المتعدد الشعب. يعتمد افتراض الفصل منخفض الكثافة على فكرة أن حدود القرار يجب أن تقع في منطقة ذات كثافة بيانات منخفضة.
أحد التقنيات الشائعة المستخدمة في التعلم شبه الخاضع للإشراف هو التدريب الذاتي. في التدريب الذاتي، يتم تدريب النموذج في البداية على البيانات المصنفة. ثم يستخدم النموذج تنبؤاته الخاصة على البيانات غير المصنفة كعلامات وهمية. يتم تدريب النموذج بشكل أكبر على مجموعة البيانات المعززة هذه، مما يؤدي إلى تحسين تنبؤاته بشكل متكرر. هناك تقنية أخرى وهي التدريب المشترك، حيث يتم تدريب نموذجين أو أكثر في وقت واحد على وجهات نظر مختلفة للبيانات. كل نموذج مسؤول عن تسمية جزء من البيانات غير المصنفة، والتي يتم استخدامها بعد ذلك لتدريب النماذج الأخرى. تستغل هذه الطريقة التكرار في وجهات نظر متعددة للبيانات لتحسين أداء التعلم.
كما تنتشر الأساليب القائمة على الرسوم البيانية في التعلم شبه الخاضع للإشراف. حيث تقوم هذه الأساليب بإنشاء رسم بياني حيث تمثل العقد نقاط البيانات، وتمثل الحواف أوجه التشابه بينها. ثم تتم إعادة صياغة مهمة التعلم كمشكلة تحسين قائمة على الرسم البياني، حيث يكون الهدف هو نشر العلامات من العقد المصنفة إلى العقد غير المصنفة مع الحفاظ على بنية الرسم البياني. هذه التقنيات فعالة بشكل خاص في المجالات حيث تشكل البيانات بشكل طبيعي شبكة، مثل الشبكات الاجتماعية أو الشبكات البيولوجية.
هناك نهج آخر للجمع بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف من خلال التعلم متعدد المهام. في التعلم متعدد المهام، يتم حل مهام تعلم متعددة في وقت واحد، مع استغلال القواسم المشتركة والاختلافات بين المهام. يمكن اعتبار هذا شكلاً من أشكال النقل الاستقرائي، حيث تساعد المعرفة المكتسبة من مهمة واحدة في تحسين تعلم مهمة أخرى. يمكن أن يكون التعلم متعدد المهام مفيدًا بشكل خاص عندما يكون هناك تمثيل مشترك أو مساحة مميزة بين المهام، مما يسمح بنقل المعلومات.
من الأمثلة العملية على التعلم شبه الخاضع للإشراف مجال معالجة اللغة الطبيعية. ولنتأمل هنا مهمة تحليل المشاعر، حيث يكون الهدف تصنيف نص معين باعتباره إيجابيًا أو سلبيًا. وقد تكون البيانات المصنفة، مثل المراجعات التي تحمل تسميات المشاعر، محدودة. ومع ذلك، هناك قدر هائل من النصوص غير المصنفة المتاحة. وقد يتضمن نهج التعلم شبه الخاضع للإشراف تدريب مصنف المشاعر على البيانات المصنفة واستخدامها للتنبؤ بمشاعر البيانات غير المصنفة. ومن الممكن بعد ذلك استخدام هذه التنبؤات كبيانات تدريب إضافية، مما يؤدي إلى تحسين أداء المصنف.
يمكن إيجاد مثال آخر في تصنيف الصور. في كثير من الحالات، يتطلب الحصول على صور مُصنَّفة جهدًا مكثفًا ومكلفًا، في حين أن الصور غير المُصنَّفة متوفرة بكثرة. قد يتضمن النهج شبه الخاضع للإشراف استخدام مجموعة صغيرة من الصور المُصنَّفة لتدريب نموذج أولي. يمكن بعد ذلك تطبيق هذا النموذج على الصور غير المُصنَّفة لتوليد تسميات زائفة، والتي تُستخدم لاحقًا لإعادة تدريب النموذج.
يمثل دمج التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف من خلال التعلم شبه الخاضع للإشراف والمنهجيات ذات الصلة نهجًا قويًا في التعلم الآلي. من خلال الاستفادة من نقاط القوة في كلا النموذجين، من الممكن تحقيق تحسينات كبيرة في أداء النموذج، وخاصة في المجالات حيث تكون البيانات المصنفة محدودة ولكن البيانات غير المصنفة وفيرة. لا يعزز هذا النهج قدرة النماذج على التعميم من البيانات المحدودة فحسب، بل يوفر أيضًا إطارًا أكثر قوة لفهم البنية الأساسية لمجموعات البيانات المعقدة.
أسئلة وأجوبة أخرى حديثة بخصوص EITC/AI/GCML تعلم الآلة على Google Cloud:
- ما هي معايير اختيار الخوارزمية الصحيحة لمشكلة معينة؟
- إذا كان أحد يستخدم نموذج Google ويقوم بتدريبه على مثيله الخاص، فهل يحتفظ Google بالتحسينات التي تم إجراؤها من بيانات التدريب؟
- كيف يمكن للمرء أن يعرف نموذج التعلم الآلي الذي يجب استخدامه، قبل تدريبه؟
- ما هي مهمة الانحدار؟
- كيف يمكن الانتقال بين جداول Vertex AI و AutoML؟
- هل من الممكن استخدام Kaggle لتحميل البيانات المالية وإجراء التحليل الإحصائي والتنبؤ باستخدام النماذج القياسية الاقتصادية مثل R-squared أو ARIMA أو GARCH؟
- هل يمكن استخدام التعلم الآلي للتنبؤ بخطر الإصابة بأمراض القلب التاجية؟
- ما هي التغييرات الفعلية بسبب إعادة تسمية Google Cloud Machine Learning إلى Vertex AI؟
- ما هي مقاييس تقييم أداء النموذج؟
- ما هو الانحدار الخطي؟
عرض المزيد من الأسئلة والأجوبة في EITC/AI/GCML Google Cloud Machine Learning