تمثل مراحل التعلم الآلي نهجًا منظمًا لتطوير نماذج التعلم الآلي ونشرها وصيانتها. وتضمن هذه المراحل أن تكون عملية التعلم الآلي منهجية وقابلة للتكرار وقابلة للتطوير. توفر الأقسام التالية نظرة عامة شاملة لكل مرحلة، مع تفصيل الأنشطة والاعتبارات الرئيسية المعنية.
1. تحديد المشكلة وجمع البيانات
تعريف المشكلة
تتضمن المرحلة الأولية تحديد المشكلة التي يهدف نموذج التعلم الآلي إلى حلها بوضوح. ويشمل ذلك فهم الأهداف التجارية وترجمتها إلى مشكلة التعلم الآلي. على سبيل المثال، قد يكون أحد الأهداف التجارية هو تقليل معدل فقدان العملاء. وقد تكون مشكلة التعلم الآلي المقابلة هي التنبؤ بالعملاء الذين من المرجح أن يفقدوا العملاء استنادًا إلى البيانات التاريخية.
جمع البيانات
بمجرد تحديد المشكلة، تكون الخطوة التالية هي جمع البيانات المطلوبة لتدريب النموذج. يمكن أن يشمل جمع البيانات مصادر مختلفة مثل قواعد البيانات وواجهات برمجة التطبيقات وكشط الويب ومجموعات البيانات التابعة لجهات خارجية. تعد جودة وكمية البيانات المجمعة عوامل حاسمة تؤثر على أداء نموذج التعلم الآلي.
2. تحضير البيانات
تنظيف البيانات
غالبًا ما تكون البيانات الخام مشوشة وتحتوي على قيم مفقودة أو غير متسقة. تتضمن عملية تنظيف البيانات التعامل مع القيم المفقودة وإزالة التكرارات وتصحيح التناقضات. تُستخدم عادةً تقنيات مثل الاستنباط والاستيفاء واكتشاف القيم الشاذة في هذه المرحلة.
تحويل البيانات
تتضمن تحويلات البيانات عمليات مثل التطبيع والقياس وترميز المتغيرات التصنيفية. تضمن هذه التحويلات أن تكون البيانات في تنسيق مناسب لخوارزميات التعلم الآلي. على سبيل المثال، يمكن أن يساعد تطبيع الميزات العددية في تحسين معدل التقارب للخوارزميات القائمة على التدرج.
تقسيم البيانات
تنقسم مجموعة البيانات عادةً إلى مجموعات تدريب وتحقق واختبار. تُستخدم مجموعة التدريب لتدريب النموذج، وتُستخدم مجموعة التحقق لضبط المعلمات الفائقة، وتُستخدم مجموعة الاختبار لتقييم أداء النموذج. النسبة الشائعة للتقسيم هي 70% للتدريب، و15% للتحقق، و15% للاختبار.
3. هندسة الميزات
اختيار ميزة
يتضمن اختيار الميزات تحديد الميزات الأكثر أهمية والتي تساهم في القوة التنبؤية للنموذج. يتم استخدام تقنيات مثل تحليل الارتباط والمعلومات المتبادلة ودرجات أهمية الميزات من النماذج القائمة على الشجرة لاختيار الميزات.
ميزة استخراج
يتضمن استخراج السمات إنشاء سمات جديدة من السمات الموجودة. ويمكن أن يشمل ذلك تجميع البيانات أو إنشاء سمات متعددة الحدود أو استخدام المعرفة الخاصة بالمجال لإنشاء سمات ذات مغزى. على سبيل المثال، في مجموعة بيانات سلسلة زمنية، يمكن استخراج سمات مثل المتوسطات المتحركة أو القيم المتأخرة.
4. اختيار النموذج والتدريب
اختيار الموديل
يعد اختيار الخوارزمية الصحيحة أمرًا مهمًا لنجاح مشروع التعلم الآلي. يعتمد اختيار الخوارزمية على طبيعة المشكلة وحجم ونوع مجموعة البيانات والموارد الحسابية المتاحة. تشمل الخوارزميات الشائعة الانحدار الخطي وأشجار القرار وآلات المتجهات الداعمة والشبكات العصبية.
تدريب نموذجي
يتضمن تدريب النموذج إدخال بيانات التدريب في الخوارزمية المختارة لتعلم الأنماط الأساسية. خلال هذه المرحلة، يتم تعديل معلمات النموذج لتقليل دالة الخسارة، والتي تقيس الفرق بين القيم المتوقعة والقيم الفعلية. تُستخدم تقنيات مثل الانحدار التدريجي بشكل شائع لتحسين الأداء.
5. ضبط Hyperparameter
شبكة البحث
يتضمن البحث الشبكي البحث الشامل عبر مجموعة محددة مسبقًا من المعلمات الفائقة للعثور على المجموعة التي تحقق أفضل أداء لمجموعة التحقق. قد تكون هذه الطريقة مكلفة من الناحية الحسابية ولكنها فعالة لمجموعات البيانات الصغيرة والمتوسطة الحجم.
بحث عشوائي
يتضمن البحث العشوائي أخذ عينات عشوائية من المعلمات الفائقة من توزيع محدد مسبقًا. غالبًا ما تكون هذه الطريقة أكثر كفاءة من البحث الشبكي لأنها تستكشف نطاقًا أوسع من المعلمات الفائقة في فترة زمنية أقصر.
النظرية الافتراضية
يستخدم التحسين البايزي نماذج احتمالية لاختيار المعلمات الفائقة. فهو يبني نموذجًا بديلًا لتقريب الدالة الهدف ويستخدم هذا النموذج لاتخاذ القرارات بشأن المعلمات الفائقة التي يجب تقييمها بعد ذلك. هذه الطريقة أكثر كفاءة من البحث الشبكي والعشوائي، وخاصة بالنسبة للنماذج المعقدة.
6. نموذج التقييم
مقاييس الأداء
يتضمن تقييم أداء النموذج استخدام مقاييس مختلفة لقياس دقته ودقته واستدعائه ودرجة F1 وغيرها من المقاييس ذات الصلة. يعتمد اختيار المقاييس على المشكلة المحددة. على سبيل المثال، في مشكلة التصنيف، تُستخدم الدقة ودرجة F1 بشكل شائع، بينما في مشكلة الانحدار، يكون متوسط الخطأ التربيعي (MSE) وR-squared أكثر ملاءمة.
عبر المصادقة
تتضمن عملية التحقق المتبادل تقسيم مجموعة البيانات إلى عدة أجزاء وتدريب النموذج على مجموعات فرعية مختلفة من البيانات. توفر هذه التقنية تقديرًا أكثر قوة لأداء النموذج من خلال تقليل التباين المرتبط بتقسيم واحد للتدريب والاختبار. تتضمن الطرق الشائعة التحقق المتبادل باستخدام k-fold والتحقق المتبادل الطبقي.
7. نشر النموذج
نموذج التسلسل
تتضمن عملية التسلسل النموذجي حفظ النموذج المدرب في ملف حتى يمكن تحميله واستخدامه للتنبؤات لاحقًا. تتضمن تنسيقات التسلسل الشائعة pickle لنماذج Python وONNX للنماذج التي تحتاج إلى النشر عبر منصات مختلفة.
خدمة النموذج
تتضمن خدمة النموذج نشره في بيئة إنتاج حيث يمكنه تلقي بيانات الإدخال وإرجاع التوقعات. ويمكن القيام بذلك باستخدام واجهات برمجة تطبيقات REST أو الخدمات المصغرة أو المنصات المستندة إلى السحابة مثل Google Cloud AI Platform وAWS SageMaker وAzure Machine Learning.
8. المراقبة والصيانة
مراقبة الاداء
بمجرد نشر النموذج، من الضروري مراقبة أدائه في الوقت الفعلي. ويتضمن ذلك تتبع مقاييس مثل زمن الوصول والإنتاجية ومعدلات الخطأ. ويمكن استخدام أدوات المراقبة مثل Prometheus وGrafana والحلول السحابية الأصلية لهذا الغرض.
إعادة تدريب النموذج
بمرور الوقت، قد يتدهور أداء النموذج بسبب التغييرات في توزيع البيانات الأساسية، وهي الظاهرة المعروفة باسم انحراف المفهوم. تساعد إعادة تدريب النموذج بانتظام باستخدام بيانات جديدة في الحفاظ على دقته وأهميته. يمكن إعداد خطوط أنابيب آلية لتبسيط هذه العملية.
A اختبار/B
يتضمن اختبار A/B نشر إصدارات متعددة من النموذج ومقارنة أدائها لتحديد الأفضل. تساعد هذه التقنية في اتخاذ قرارات تعتمد على البيانات حول تحديثات النموذج وتحسيناته.
9. التوثيق وإعداد التقارير
توثيق النموذج
يعد التوثيق الشامل للنموذج، بما في ذلك بنيته، والمعلمات الفائقة، وعملية التدريب، ومقاييس الأداء، أمرًا مهمًا لإمكانية إعادة الإنتاج والتعاون. يمكن استخدام أدوات مثل Jupyter Notebooks وSphinx وMkDocs لإنشاء وثائق مفصلة.
التقارير
ينبغي إرسال تقارير منتظمة عن أداء النموذج والتحديثات وأي مشكلات تواجهه إلى أصحاب المصلحة. وهذا يضمن الشفافية ويسهل اتخاذ القرارات المستنيرة.
مثال: التنبؤ بانخفاض عدد العملاء
ولتوضيح مراحل التعلم الآلي، لنأخذ مثال التنبؤ بانخفاض عدد العملاء لشركة اتصالات.
1. تعريف المشكلة:الهدف التجاري هو تقليل معدل فقدان العملاء. تتمثل مشكلة التعلم الآلي في التنبؤ بالعملاء المحتملين لفقدانهم استنادًا إلى أنماط الاستخدام والتركيبة السكانية وسجل الخدمة.
2. جمع البيانات:يتم جمع البيانات من مصادر مختلفة، بما في ذلك قواعد بيانات العملاء، وسجلات الاستخدام، وسجلات خدمة العملاء.
3. تحضير البيانات:يتم تنظيف البيانات للتعامل مع القيم المفقودة والتناقضات. يتم توحيد وتشفير الميزات مثل الاستخدام الشهري ومدة خدمة العملاء وشكاوى الخدمة.
4. هندسة الميزات:يتم اختيار الميزات ذات الصلة بناءً على ارتباطها بمعدلات فقدان العملاء. يتم استخراج ميزات جديدة، مثل متوسط مدة المكالمة وتكرار شكاوى الخدمة.
5. اختيار النموذج والتدريب:يتم اختيار مصنف شجرة القرار لسهولة تفسيره. يتم تدريب النموذج على مجموعة البيانات التدريبية لتعلم الأنماط المرتبطة بالانقطاع.
6. ضبط Hyperparameter:يتم استخدام البحث الشبكي للعثور على المعلمات الفائقة المثلى لشجرة القرار، مثل الحد الأقصى للعمق والحد الأدنى للعينات لكل ورقة.
7. تقييم النموذج:يتم تقييم أداء النموذج باستخدام الدقة والدقة والتذكير ودرجة F1. يتم إجراء التحقق المتبادل لضمان المتانة.
8. نشر النموذج:يتم تسلسل النموذج المدرب ونشره على منصة قائمة على السحابة حيث يمكنه تلقي بيانات الإدخال وإرجاع التوقعات.
9. المراقبة والصيانة:يتم مراقبة أداء النموذج في الوقت الفعلي. ويتم جدولة إعادة التدريب بشكل منتظم لدمج البيانات الجديدة والحفاظ على الدقة. ويتم إجراء اختبار A/B لمقارنة إصدارات النموذج المختلفة.
10 التوثيق والتقرير:يتم إنشاء توثيق تفصيلي للنموذج، بما في ذلك بنيته وعملية التدريب ومقاييس الأداء. يتم إنشاء التقارير بشكل منتظم ومشاركتها مع أصحاب المصلحة.
يضمن النهج المنظم الموضح في هذه المراحل تطوير نموذج التعلم الآلي بشكل منهجي، ونشره بكفاءة، وصيانته بشكل فعال، مما يؤدي في النهاية إلى نتائج أعمال أفضل.
أسئلة وأجوبة أخرى حديثة بخصوص EITC/AI/GCML تعلم الآلة على Google Cloud:
- عندما تتحدث المواد القرائية عن "اختيار الخوارزمية الصحيحة"، فهل يعني هذا أن كل الخوارزميات الممكنة موجودة بالفعل؟ كيف نعرف أن الخوارزمية هي الخوارزمية "الصحيحة" لمشكلة معينة؟
- ما هي المعلمات الفائقة المستخدمة في التعلم الآلي؟
- Whawt هي لغة البرمجة للتعلم الآلي وهي مجرد Python
- كيف يتم تطبيق التعلم الآلي في عالم العلوم؟
- كيف تقرر خوارزمية التعلم الآلي التي يجب استخدامها وكيف تجدها؟
- ما هي الاختلافات بين التعلم الفيدرالي والحوسبة الحافة والتعلم الآلي على الجهاز؟
- كيفية تحضير وتنظيف البيانات قبل التدريب؟
- ما هي المهام والأنشطة الأولية المحددة في مشروع التعلم الآلي؟
- ما هي القواعد الأساسية لاعتماد استراتيجية ونموذج التعلم الآلي المحدد؟
- ما هي المعلمات التي تشير إلى أنه حان الوقت للتحول من النموذج الخطي إلى التعلم العميق؟
عرض المزيد من الأسئلة والأجوبة في EITC/AI/GCML Google Cloud Machine Learning