إن التنظيم في سياق التعلم الآلي هو تقنية مهمة تستخدم لتحسين أداء التعميم للنماذج، وخاصة عند التعامل مع البيانات عالية الأبعاد أو النماذج المعقدة المعرضة للإفراط في التجهيز. يحدث الإفراط في التجهيز عندما يتعلم النموذج ليس فقط الأنماط الأساسية في بيانات التدريب ولكن أيضًا الضوضاء، مما يؤدي إلى ضعف الأداء على البيانات غير المرئية. يقدم التنظيم معلومات أو قيودًا إضافية للنموذج لمنع الإفراط في التجهيز من خلال معاقبة النماذج المعقدة للغاية.
الفكرة الأساسية وراء التنظيم هي دمج حد جزائي في دالة الخسارة التي يحاول النموذج تقليلها. يعمل حد الجزائي هذا على تثبيط النموذج عن ملاءمة الضوضاء في بيانات التدريب من خلال فرض تكلفة على التعقيد، والتي يتم قياسها عادةً بحجم معلمات النموذج. من خلال القيام بذلك، يساعد التنظيم في تحقيق التوازن بين ملاءمة بيانات التدريب بشكل جيد والحفاظ على قدرة النموذج على التعميم على البيانات الجديدة.
هناك عدة أنواع من تقنيات التنظيم المستخدمة بشكل شائع في التعلم الآلي، وأكثرها شيوعًا هي تنظيم L1 وتنظيم L2 والتسرب. كل من هذه التقنيات لها خصائصها وتطبيقاتها الخاصة.
1. تسوية L1 (انحدار لاسو): يضيف التنظيم L1 عقوبة تساوي القيمة المطلقة لحجم المعاملات إلى دالة الخسارة. ويمكن تمثيلها رياضيًا على النحو التالي:
أين هي دالة الخسارة الأصلية،
هو معامل التنظيم، و
هي معلمات النموذج. إن تأثير التنظيم L1 هو أنه يميل إلى إنتاج نماذج متفرقة، مما يعني أنه يدفع بعض المعاملات إلى الصفر، مما يؤدي إلى اختيار الميزات بشكل فعال. يمكن أن يكون هذا مفيدًا بشكل خاص عند التعامل مع البيانات عالية الأبعاد حيث قد تكون العديد من الميزات غير ذات صلة.
2. تسوية L2 (الانحدار التلالي): يضيف التنظيم L2 عقوبة تساوي مربع حجم المعاملات إلى دالة الخسارة. ويتم التعبير عنها رياضيًا على النحو التالي:
تعمل عملية التنظيم L2 على تثبيط المعاملات الكبيرة من خلال معاقبة قيمها التربيعية، مما يؤدي إلى مجموعة من الأوزان موزعة بشكل أكثر توازناً. وعلى عكس L1، لا تنتج عملية التنظيم L2 نماذج متفرقة، حيث لا تجبر المعاملات على أن تكون صفرًا تمامًا، بل تحافظ عليها صغيرة. وهذا مفيد بشكل خاص لتجنب الإفراط في التجهيز عندما تكون جميع الميزات ذات صلة.
3. تنظيم صافي مرن: تجمع الشبكة المرنة بين التنظيمين L1 وL2. وهي مفيدة بشكل خاص في المواقف التي توجد فيها ميزات مترابطة متعددة. عقوبة الشبكة المرنة عبارة عن مزيج خطي من عقوبات L1 وL2:
عن طريق ضبط المعلمات
يمكن للشبكة المرنة تحقيق التوازن بين فوائد التنظيم L1 و L2.
4. أوقع: Dropout هي تقنية تنظيم مصممة خصيصًا للشبكات العصبية. أثناء التدريب، تقوم Dropout بتعيين جزء عشوائي من العقد (الخلايا العصبية) في طبقة إلى الصفر في كل تكرار. يمنع هذا الشبكة من الاعتماد بشكل كبير على أي عقدة واحدة ويشجع الشبكة على تعلم ميزات أكثر قوة. Dropout فعالة بشكل خاص في نماذج التعلم العميق حيث يكون الإفراط في التجهيز مشكلة شائعة بسبب العدد الكبير من المعلمات.
5. التوقف المبكر: على الرغم من أنها ليست تقنية تنظيم بالمعنى التقليدي، فإن التوقف المبكر هو استراتيجية لمنع الإفراط في التجهيز من خلال إيقاف عملية التدريب بمجرد أن يبدأ الأداء في مجموعة التحقق في التدهور. وهذا مفيد بشكل خاص في الأساليب التكرارية مثل الانحدار التدريجي حيث يتم تحديث النموذج باستمرار.
يعد التنظيم أمرًا ضروريًا في التعلم الآلي لأنه يسمح للنماذج بأداء جيد على البيانات غير المرئية من خلال التحكم في تعقيدها. اختيار تقنية التنظيم وضبط معلماتها ( بالنسبة للمستوى الأول والمستوى الثاني، فإن معدل التسرب بالنسبة للمستوى الثالث مهم ويتطلب غالبًا إجراء التجارب والتحقق المتبادل لتحقيق النتائج المثلى.
على سبيل المثال، ضع في اعتبارك نموذج انحدار خطي تم تدريبه على مجموعة بيانات تحتوي على العديد من الميزات. بدون التنظيم، قد يعين النموذج أوزانًا كبيرة لبعض الميزات، مما يلائم بيانات التدريب بشكل وثيق للغاية ولكنه يؤدي بشكل سيئ على بيانات الاختبار بسبب الإفراط في التجهيز. من خلال تطبيق التنظيم L2، يتم تشجيع النموذج على توزيع الأوزان بشكل أكثر توازناً، مما قد يؤدي إلى تعميم أفضل على البيانات الجديدة.
في سيناريو آخر، قد تفرط الشبكة العصبية المدربة على بيانات الصور في التكيف عن طريق حفظ أنماط معينة في صور التدريب. ومن خلال تطبيق التسرب، تُجبَر الشبكة على تعلم المزيد من الميزات العامة المفيدة عبر صور مختلفة، مما يحسن من أدائها على البيانات غير المرئية.
التنظيم هو مفهوم أساسي في التعلم الآلي يساعد في منع الإفراط في التجهيز من خلال إضافة عقوبة التعقيد إلى دالة الخسارة في النموذج. من خلال التحكم في تعقيد النموذج، تعمل تقنيات التنظيم مثل L1 وL2 وElastic Net وDropout وEarly Stop على تمكين التعميم بشكل أفضل للبيانات الجديدة، مما يجعلها أدوات لا غنى عنها في مجموعة أدوات ممارس التعلم الآلي.
أسئلة وأجوبة أخرى حديثة بخصوص EITC/AI/GCML تعلم الآلة على Google Cloud:
- عندما تتحدث المواد القرائية عن "اختيار الخوارزمية الصحيحة"، فهل يعني هذا أن كل الخوارزميات الممكنة موجودة بالفعل؟ كيف نعرف أن الخوارزمية هي الخوارزمية "الصحيحة" لمشكلة معينة؟
- ما هي المعلمات الفائقة المستخدمة في التعلم الآلي؟
- Whawt هي لغة البرمجة للتعلم الآلي وهي مجرد Python
- كيف يتم تطبيق التعلم الآلي في عالم العلوم؟
- كيف تقرر خوارزمية التعلم الآلي التي يجب استخدامها وكيف تجدها؟
- ما هي الاختلافات بين التعلم الفيدرالي والحوسبة الحافة والتعلم الآلي على الجهاز؟
- كيفية تحضير وتنظيف البيانات قبل التدريب؟
- ما هي المهام والأنشطة الأولية المحددة في مشروع التعلم الآلي؟
- ما هي القواعد الأساسية لاعتماد استراتيجية ونموذج التعلم الآلي المحدد؟
- ما هي المعلمات التي تشير إلى أنه حان الوقت للتحول من النموذج الخطي إلى التعلم العميق؟
عرض المزيد من الأسئلة والأجوبة في EITC/AI/GCML Google Cloud Machine Learning