في سياق التعلم الآلي، وخاصة عند مناقشة الخطوات الأولية التي ينطوي عليها مشروع التعلم الآلي، من المهم فهم مجموعة متنوعة من الأنشطة التي قد يشارك فيها المرء. تشكل هذه الأنشطة العمود الفقري لتطوير نماذج التعلم الآلي وتدريبها ونشرها، وكل منها يخدم غرضًا فريدًا في عملية تحويل البيانات الخام إلى رؤى قابلة للتنفيذ. فيما يلي قائمة شاملة بهذه الأنشطة، مصحوبة بتفسيرات لتوضيح أدوارها ضمن خط أنابيب التعلم الآلي.
1. جمع البيانات:هذه هي الخطوة الأساسية في أي مشروع تعلُّم آلي. يتضمن جمع البيانات جمع البيانات الخام من مصادر مختلفة، والتي قد تشمل قواعد البيانات، أو كشط الويب، أو بيانات المستشعرات، أو المحتوى الذي ينشئه المستخدم. تؤثر جودة وكمية البيانات المجمعة بشكل مباشر على أداء نموذج التعلم الآلي. على سبيل المثال، إذا كان المرء يبني نموذجًا للتنبؤ بأسعار المساكن، فقد يتم جمع البيانات من قوائم العقارات، وسجلات المبيعات التاريخية، والمؤشرات الاقتصادية.
2. تحضير البيانات:بمجرد جمع البيانات، يجب إعدادها للتحليل. تتضمن هذه الخطوة تنظيف البيانات لإزالة الضوضاء والأخطاء، ومعالجة القيم المفقودة، وتحويل البيانات إلى تنسيق مناسب. يتضمن إعداد البيانات أيضًا هندسة الميزات، حيث يتم إنشاء ميزات جديدة من البيانات الموجودة لتحسين أداء النموذج. على سبيل المثال، في مجموعة بيانات معاملات العملاء، قد ينشئ المرء ميزة تمثل متوسط قيمة المعاملة لكل عميل.
3. استكشاف البيانات:تُعرف هذه الخطوة أيضًا باسم تحليل البيانات الاستكشافي (EDA)، وتتضمن تحليل البيانات لاكتشاف الأنماط والعلاقات والرؤى. وتُستخدم أدوات تصور البيانات والتقنيات الإحصائية لفهم توزيع البيانات واكتشاف الشذوذ وتحديد الارتباطات. يساعد هذا النشاط في اتخاذ قرارات مستنيرة بشأن معالجة البيانات مسبقًا واختيار الميزات. على سبيل المثال، يمكن أن يكشف رسم الهيستوغرامات أو مخططات التشتت عن توزيع البيانات والقيم المتطرفة المحتملة.
4. اختيار الموديل:في هذه الخطوة، يتم اختيار خوارزميات التعلم الآلي المناسبة بناءً على المشكلة المطروحة وطبيعة البيانات. يعد اختيار النموذج أمرًا بالغ الأهمية، حيث تختلف نقاط القوة والضعف في الخوارزميات المختلفة. بالنسبة لمشاكل التصنيف، قد يفكر المرء في أشجار القرار أو آلات المتجهات الداعمة أو الشبكات العصبية. بالنسبة لمهام الانحدار، قد يكون الانحدار الخطي أو الغابات العشوائية مناسبًا. غالبًا ما تتضمن عملية اختيار النموذج مقارنة نماذج متعددة للعثور على النموذج الذي يناسب البيانات بشكل أفضل.
5. تدريب نموذجي:بمجرد تحديد نموذج، يجب تدريبه باستخدام البيانات المعدة. يتضمن تدريب النموذج ضبط معلمات النموذج لتقليل الخطأ بين النتائج المتوقعة والفعلية. يتم تحقيق ذلك عادةً من خلال تقنيات التحسين مثل الانحدار التدرجي. أثناء التدريب، يتعلم النموذج الأنماط والعلاقات داخل البيانات. على سبيل المثال، يتضمن تدريب الشبكة العصبية ضبط أوزان وتحيزات الشبكة لتقليل دالة الخسارة.
6. تقييم النموذج:بعد التدريب، يجب تقييم أداء النموذج للتأكد من أنه يعمم بشكل جيد على البيانات غير المرئية. يتم ذلك باستخدام مجموعة بيانات منفصلة للتحقق أو الاختبار لم يتم استخدامها أثناء التدريب. تتضمن مقاييس التقييم الشائعة الدقة والضبط والتذكر ودرجة F1 لمهام التصنيف ومتوسط الخطأ التربيعي أو R-squared لمهام الانحدار. يساعد تقييم النموذج في تحديد المشكلات مثل الإفراط في الملاءمة أو عدم الملاءمة، حيث يعمل النموذج إما بشكل جيد للغاية على بيانات التدريب ولكنه ضعيف على البيانات الجديدة، أو يفشل في التقاط الاتجاهات الأساسية في البيانات، على التوالي.
7. نشر النموذج:تتضمن الخطوة الأخيرة نشر النموذج المدرب والمُقيَّم في بيئة إنتاج حيث يمكنه إجراء تنبؤات بشأن البيانات الجديدة. يمكن إجراء النشر بطرق مختلفة، مثل دمج النموذج في تطبيق ويب، أو نشره كواجهة برمجة تطبيقات REST، أو تضمينه في تطبيق جوال. المراقبة المستمرة ضرورية لضمان بقاء النموذج دقيقًا بمرور الوقت، حيث يمكن أن تتغير البيانات في العالم الحقيقي، مما يؤدي إلى انحراف النموذج.
بالإضافة إلى هذه الأنشطة الأساسية، هناك العديد من المهام المتخصصة في التعلم الآلي والتي تستحق الذكر:
- تصنيف:يتضمن هذا النشاط تعيين تسميات لبيانات الإدخال استنادًا إلى الأنماط المكتسبة. تسود مهام التصنيف في تطبيقات مختلفة، مثل اكتشاف البريد العشوائي وتحليل المشاعر والتعرف على الصور. على سبيل المثال، يصنف نظام اكتشاف البريد العشوائي رسائل البريد الإلكتروني على أنها بريد عشوائي أو غير بريد عشوائي استنادًا إلى ميزات مثل عنوان المرسل ومحتوى البريد الإلكتروني والبيانات الوصفية.
- تراجع:تتضمن مهام الانحدار التنبؤ بمتغير إخراج مستمر استنادًا إلى سمات الإدخال. يُستخدم هذا عادةً في تطبيقات مثل التنبؤ بأسعار المساكن أو اتجاهات سوق الأوراق المالية أو التنبؤ بالمبيعات. والهدف هو نمذجة العلاقة بين المتغيرات المستقلة والمتغير التابع المستمر.
- التكتل:التجميع هو أسلوب تعلم غير خاضع للإشراف يستخدم لتجميع نقاط البيانات المتشابهة معًا. وهو مفيد لاكتشاف الأنماط أو الهياكل الأساسية في البيانات بدون تسميات محددة مسبقًا. تتضمن تطبيقات التجميع تقسيم العملاء وضغط الصور واكتشاف الشذوذ. تعد خوارزميات K-means والتجميع الهرمي خوارزميات شائعة لهذه المهمة.
- تخفيض الأبعاد:يتضمن هذا النشاط تقليل عدد المتغيرات أو الميزات المدخلة في مجموعة البيانات مع الحفاظ على خصائصها الأساسية. تُستخدم تقنيات تقليل الأبعاد، مثل تحليل المكونات الأساسية (PCA) وتضمين الجار العشوائي الموزع (t-SNE)، لتبسيط النماذج وتقليل وقت الحساب وتخفيف لعنة الأبعاد.
- إكتشاف عيب خلقي:يعد اكتشاف الشذوذ عملية تحديد الأنماط النادرة أو غير المعتادة في البيانات التي لا تتوافق مع السلوك المتوقع. وهذا مفيد بشكل خاص في اكتشاف الاحتيال وأمان الشبكة واكتشاف الأخطاء. غالبًا ما يتم استخدام تقنيات مثل غابات العزل والمشفرات التلقائية لمهام اكتشاف الشذوذ.
- تعزيز التعلم:على عكس التعلم الخاضع للإشراف وغير الخاضع للإشراف، يتضمن التعلم التعزيزي تدريب النماذج على اتخاذ تسلسلات من القرارات من خلال التفاعل مع البيئة. يتعلم النموذج أو العامل تحقيق هدف من خلال تلقي ردود الفعل في شكل مكافآت أو عقوبات. تشمل تطبيقات التعلم التعزيزي لعب الألعاب والروبوتات والقيادة الذاتية.
- معالجة اللغات الطبيعية (NLP):تشمل معالجة اللغة الطبيعية مجموعة من الأنشطة المتعلقة بالتفاعل بين أجهزة الكمبيوتر واللغة البشرية. ويشمل ذلك مهام مثل تصنيف النصوص وتحليل المشاعر وترجمة اللغة والتعرف على الكيانات المسماة. غالبًا ما تستفيد نماذج معالجة اللغة الطبيعية من تقنيات مثل التجزئة والتقسيم إلى أجزاء واستخدام نماذج اللغة المدربة مسبقًا مثل BERT أو GPT.
تمثل هذه الأنشطة مجموعة متنوعة من المهام التي يشارك فيها الممارسون عند العمل مع التعلم الآلي. يتطلب كل نشاط فهمًا عميقًا للمبادئ والتقنيات الأساسية لتصميم وتنفيذ ونشر حلول التعلم الآلي بشكل فعال. من خلال إتقان هذه الأنشطة، يمكن للمرء الاستفادة من قوة التعلم الآلي لحل المشكلات المعقدة ودفع الابتكار عبر مجالات مختلفة.
أسئلة وأجوبة أخرى حديثة بخصوص EITC/AI/GCML تعلم الآلة على Google Cloud:
- ما هي معايير اختيار الخوارزمية الصحيحة لمشكلة معينة؟
- إذا كان أحد يستخدم نموذج Google ويقوم بتدريبه على مثيله الخاص، فهل يحتفظ Google بالتحسينات التي تم إجراؤها من بيانات التدريب؟
- كيف يمكن للمرء أن يعرف نموذج التعلم الآلي الذي يجب استخدامه، قبل تدريبه؟
- ما هي مهمة الانحدار؟
- كيف يمكن الانتقال بين جداول Vertex AI و AutoML؟
- هل من الممكن استخدام Kaggle لتحميل البيانات المالية وإجراء التحليل الإحصائي والتنبؤ باستخدام النماذج القياسية الاقتصادية مثل R-squared أو ARIMA أو GARCH؟
- هل يمكن استخدام التعلم الآلي للتنبؤ بخطر الإصابة بأمراض القلب التاجية؟
- ما هي التغييرات الفعلية بسبب إعادة تسمية Google Cloud Machine Learning إلى Vertex AI؟
- ما هي مقاييس تقييم أداء النموذج؟
- ما هو الانحدار الخطي؟
عرض المزيد من الأسئلة والأجوبة في EITC/AI/GCML Google Cloud Machine Learning