إن تطبيق الخطوات السبع للتعلم الآلي يوفر نهجًا منظمًا لتطوير نماذج التعلم الآلي، مما يضمن عملية منهجية يمكن اتباعها من تعريف المشكلة إلى النشر. هذا الإطار مفيد للمبتدئين والممارسين ذوي الخبرة، لأنه يساعد في تنظيم سير العمل وضمان عدم إغفال أي خطوة مهمة. هنا، سأوضح هذه الخطوات في سياق مثال عملي: التنبؤ بأسعار المساكن باستخدام أدوات التعلم الآلي من Google Cloud.
الخطوة الأولى: تحديد المشكلة
تتمثل الخطوة الأولى في أي مشروع تعلُّم آلي في تحديد المشكلة التي تحاول حلها بوضوح. ويتضمن هذا فهم المشكلة التجارية أو العملية المطروحة وترجمتها إلى مشكلة تعلُّم آلي. في مثالنا، تتمثل المشكلة التجارية في التنبؤ بأسعار المنازل في منطقة معينة لمساعدة وكلاء العقارات والمشترين المحتملين في اتخاذ قرارات مستنيرة. يمكن صياغة مشكلة التعلُّم الآلي كمشكلة انحدار مُشرف حيث يكون الهدف هو التنبؤ بمتغير هدف مستمر، سعر المنزل، بناءً على ميزات مختلفة مثل الموقع والحجم وعدد غرف النوم والسمات الأخرى ذات الصلة.
الخطوة 2: جمع البيانات وإعدادها
إن جمع البيانات وإعدادها مرحلة بالغة الأهمية تتضمن جمع البيانات ذات الصلة التي يمكن استخدامها لتدريب النموذج. في مثالنا الخاص بتوقع أسعار المساكن، يمكن جمع البيانات من قوائم العقارات أو السجلات العامة أو قواعد بيانات المساكن. يجب أن تتضمن مجموعة البيانات مجموعة من الميزات التي يُعتقد أنها تؤثر على أسعار المساكن، مثل المساحة المربعة، وعدد غرف النوم والحمامات، وتقييمات الحي، والقرب من وسائل الراحة، وبيانات المبيعات التاريخية.
بمجرد جمع البيانات، يجب معالجتها مسبقًا. يتضمن ذلك تنظيف البيانات من خلال التعامل مع القيم المفقودة وإزالة التكرارات وتصحيح أي تناقضات. على سبيل المثال، يمكن حساب القيم المفقودة في مجموعة البيانات باستخدام الأساليب الإحصائية أو المعرفة بالمجال. بالإضافة إلى ذلك، قد يلزم ترميز المتغيرات التصنيفية مثل أسماء الأحياء في تنسيقات رقمية باستخدام تقنيات مثل الترميز الساخن.
الخطوة 3: اختر نموذجًا
يتأثر اختيار النموذج بنوع المشكلة وطبيعة البيانات. بالنسبة لمشكلة الانحدار مثل التنبؤ بأسعار المساكن، يمكن النظر في نماذج مثل الانحدار الخطي أو أشجار القرار أو الخوارزميات الأكثر تعقيدًا مثل الغابات العشوائية وآلات تعزيز التدرج. في Google Cloud Machine Learning، يمكنك الوصول إلى TensorFlow والمكتبات الأخرى التي تسهل تنفيذ هذه النماذج.
يمكن أن يكون نموذج الانحدار الخطي البسيط بمثابة خط أساس. ومع ذلك، نظرًا للتعقيد وعدم الخطية الموجودين غالبًا في البيانات في العالم الحقيقي، فقد تكون النماذج الأكثر تطورًا مثل XGBoost أو TensorFlow's DNNRegressor أكثر ملاءمة. يجب أن يسترشد اختيار النموذج بالأداء في مجموعات بيانات التحقق والقدرة على التعميم بشكل جيد على البيانات غير المرئية.
الخطوة 4: تدريب النموذج
يتضمن تدريب النموذج إدخال البيانات المعدة في الخوارزمية المختارة لتعلم الأنماط الأساسية. تتطلب هذه الخطوة تقسيم البيانات إلى مجموعات تدريب وتحقق، مما يسمح للنموذج بالتعلم من مجموعة فرعية واحدة وتقييمها على مجموعة أخرى. في Google Cloud، يمكن إدارة ذلك بكفاءة باستخدام خدمات مثل Google Cloud AI Platform، التي توفر موارد قابلة للتطوير لتدريب النموذج.
أثناء التدريب، قد يلزم ضبط المعلمات الفائقة للنموذج لتحسين الأداء. على سبيل المثال، في نموذج شجرة القرار، يمكن لمعلمات مثل عمق الشجرة والحد الأدنى لعدد العينات المطلوبة لتقسيم عقدة أن تؤثر بشكل كبير على دقة النموذج وقدرته على التعميم. يمكن استخدام تقنيات مثل البحث الشبكي أو البحث العشوائي للعثور على إعدادات المعلمات الفائقة المثلى.
الخطوة 5: تقييم النموذج
التقييم هو خطوة مهمة لتقييم أداء النموذج المدرب. وهذا يتضمن استخدام مقاييس مناسبة لنوع المشكلة. بالنسبة لمشاكل الانحدار، تتضمن المقاييس الشائعة متوسط الخطأ المطلق (MAE) ومتوسط الخطأ التربيعي (MSE) ومتوسط الخطأ التربيعي الجذري (RMSE). توفر هذه المقاييس رؤى حول دقة النموذج ومدى الأخطاء في التنبؤات.
في مثالنا للتنبؤ بأسعار المساكن، بعد تدريب النموذج، سيتم تقييمه على مجموعة التحقق للتأكد من أدائه الجيد على البيانات غير المرئية. توفر منصة الذكاء الاصطناعي من Google Cloud أدوات لتتبع هذه المقاييس وتصور أداء النموذج، مما يساعد في فهم مدى احتمالية أداء النموذج الجيد في السيناريوهات الواقعية.
الخطوة 6: ضبط النموذج
يعد ضبط النموذج عملية تكرارية تهدف إلى تحسين أداء النموذج. قد تتضمن هذه الخطوة ضبط المعلمات الفائقة، أو تجربة خوارزميات مختلفة، أو تعديل مجموعة الميزات. على سبيل المثال، إذا لم يعمل النموذج الأولي بشكل مرضٍ، فقد تتم إعادة النظر في هندسة الميزات لتشمل مصطلحات التفاعل أو الميزات متعددة الحدود التي تلتقط العلاقات غير الخطية.
في Google Cloud، يمكن أتمتة ضبط المعلمات الفائقة باستخدام ميزة ضبط المعلمات الفائقة في Cloud AI Platform، والتي تبحث بكفاءة في مساحة المعلمات الفائقة للعثور على أفضل مجموعة للنموذج. يمكن أن يؤدي هذا إلى تحسين أداء النموذج بشكل كبير دون تدخل يدوي.
الخطوة 7: نشر النموذج
يجعل النشر النموذج المدرب متاحًا للاستخدام في التطبيقات في العالم الحقيقي. تتضمن هذه الخطوة إعداد بيئة حيث يمكن للنموذج تلقي بيانات الإدخال وإجراء التنبؤات وإرجاع النتائج للمستخدمين أو الأنظمة. تقدم Google Cloud العديد من خيارات النشر، بما في ذلك AI Platform Prediction، والتي تسمح بنشر النماذج كواجهات برمجة تطبيقات RESTful.
في مثال التنبؤ بأسعار المساكن، يمكن دمج النموذج المطبق في تطبيق عقاري حيث يقوم المستخدمون بإدخال خصائص المسكن وتلقي توقعات الأسعار. يتضمن النشر أيضًا مراقبة أداء النموذج في الإنتاج لضمان استمراره في تقديم تنبؤات دقيقة وتحديث النموذج حسب الضرورة عندما تتوفر بيانات جديدة.
سياق المثال
لنفترض أن شركة عقارية تهدف إلى تحسين عملية تقييم ممتلكاتها باستخدام التعلم الآلي. باتباع الخطوات السبع الموضحة، تستطيع الشركة تطوير نموذج تعلم آلي قوي بشكل منهجي للتنبؤ بأسعار المساكن. في البداية، تحدد الشركة المشكلة من خلال تحديد الحاجة إلى تقييمات دقيقة للممتلكات. ثم تجمع البيانات من مصادر متعددة، بما في ذلك سجلات المبيعات التاريخية وقوائم الممتلكات، مما يضمن مجموعة بيانات شاملة تعكس اتجاهات السوق.
بعد معالجة البيانات مسبقًا للتعامل مع القيم المفقودة وترميز المتغيرات التصنيفية، تختار الشركة نموذج تعزيز التدرج نظرًا لقدرته على التعامل مع العلاقات المعقدة والتفاعلات بين الميزات. يقومون بتدريب النموذج باستخدام منصة الذكاء الاصطناعي من Google Cloud، والاستفادة من بنيتها التحتية القابلة للتطوير للتعامل مع مجموعات البيانات الكبيرة بكفاءة.
يتم تقييم النموذج باستخدام RMSE، مما يكشف عن مجالات التحسين. من خلال إجراء ضبط المعلمات الفائقة والتجريب باستخدام ميزات إضافية مستمدة من المعرفة بالمجال، تعمل الشركة على تعزيز دقة التنبؤ بالنموذج. أخيرًا، يتم نشر النموذج كواجهة برمجة تطبيقات، مما يسمح بالتكامل مع أنظمة الشركة الحالية، حيث يوفر تقديرات الأسعار في الوقت الفعلي للمستخدمين، وبالتالي تحسين عمليات اتخاذ القرار ورضا العملاء.
أسئلة وأجوبة أخرى حديثة بخصوص EITC/AI/GCML تعلم الآلة على Google Cloud:
- لماذا يتم استخدام أداة الانحدار كأداة للتنبؤ؟
- هل أحتاج إلى تعلم مضاعفات لاغرانج وتقنيات البرمجة التربيعية لتحقيق النجاح في التعلم الآلي؟
- هل يمكن تطبيق أكثر من نموذج واحد أثناء عملية التعلم الآلي؟
- هل يمكن للتعلم الآلي أن يتكيف مع الخوارزمية التي يجب استخدامها اعتمادًا على السيناريو؟
- ما هو أبسط طريق لتدريب ونشر نموذج الذكاء الاصطناعي التعليمي الأساسي على منصة Google AI باستخدام طبقة/نسخة تجريبية مجانية باستخدام وحدة تحكم واجهة المستخدم الرسومية بطريقة خطوة بخطوة للمبتدئين المطلقين بدون خلفية برمجية؟
- كيفية تدريب ونشر نموذج الذكاء الاصطناعي البسيط عمليًا في Google Cloud AI Platform عبر واجهة المستخدم الرسومية لوحدة التحكم GCP في برنامج تعليمي خطوة بخطوة؟
- ما هي أبسط الإجراءات خطوة بخطوة لممارسة تدريب نموذج الذكاء الاصطناعي الموزع في Google Cloud؟
- ما هو النموذج الأول الذي يمكن العمل عليه مع بعض الاقتراحات العملية للبداية؟
- هل تعتمد الخوارزميات والتوقعات على المدخلات من الجانب البشري؟
- ما هي المتطلبات الرئيسية وأبسط الطرق لإنشاء نموذج معالجة لغة طبيعية؟ كيف يُمكن إنشاء هذا النموذج باستخدام الأدوات المُتاحة؟
عرض المزيد من الأسئلة والأجوبة في EITC/AI/GCML Google Cloud Machine Learning