التعلم المعزز المتقدم EITC/AI/ARL هو برنامج شهادة تكنولوجيا المعلومات الأوروبية على نهج DeepMind لتعزيز التعلم في الذكاء الاصطناعي.
يركز منهج التعلم المعزز المتقدم EITC/AI/ARL على الجوانب النظرية والمهارات العملية في تقنيات التعلم المعزز من منظور DeepMind المنظمة ضمن الهيكل التالي ، بما في ذلك محتوى تعليمي فيديو شامل كمرجع لشهادة EITC هذه.
التعلم المعزز (RL) هو مجال من مجالات التعلم الآلي يهتم بالكيفية التي يجب أن يتخذها الوكلاء الأذكياء في بيئة ما من أجل تعظيم فكرة المكافأة التراكمية. التعلم المعزز هو واحد من ثلاثة نماذج أساسية للتعلم الآلي ، جنبًا إلى جنب مع التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف.
يختلف التعلم المعزز عن التعلم الخاضع للإشراف في عدم الحاجة إلى تقديم أزواج من المدخلات/المخرجات ، وفي عدم الحاجة إلى تصحيح الإجراءات دون المستوى بشكل صريح. بدلاً من ذلك ، ينصب التركيز على إيجاد توازن بين استكشاف (منطقة مجهولة) واستغلال (المعرفة الحالية).
عادةً ما يتم تحديد البيئة في شكل عملية قرار ماركوف (MDP) ، لأن العديد من خوارزميات التعلم المعزز لهذا السياق تستخدم تقنيات البرمجة الديناميكية. يتمثل الاختلاف الرئيسي بين طرق البرمجة الديناميكية الكلاسيكية وخوارزميات التعلم المعزز في أن الأخيرة لا تفترض معرفة نموذج رياضي دقيق لـ MDP وتستهدف MDP كبيرة حيث تصبح الطرق الدقيقة غير قابلة للتطبيق.
نظرًا لعموميتها ، تتم دراسة التعلم المعزز في العديد من التخصصات ، مثل نظرية اللعبة ، ونظرية التحكم ، وبحوث العمليات ، ونظرية المعلومات ، والتحسين القائم على المحاكاة ، والأنظمة متعددة العوامل ، وذكاء السرب ، والإحصاءات. في أبحاث العمليات وأدبيات التحكم ، يُطلق على التعلم المعزز اسم البرمجة الديناميكية التقريبية أو البرمجة الديناميكية العصبية. كما تمت دراسة مشاكل الاهتمام بالتعلم المعزز في نظرية التحكم الأمثل ، والتي تهتم في الغالب بوجود وتوصيف الحلول المثلى ، والخوارزميات لحسابها الدقيق ، وبدرجة أقل بالتعلم أو التقريب ، خاصة في حالة عدم وجود الحلول المثلى. نموذج رياضي للبيئة. في الاقتصاد ونظرية اللعبة ، يمكن استخدام التعلم المعزز لشرح كيف يمكن أن ينشأ التوازن في ظل العقلانية المحدودة.
تم تصميم التعزيز الأساسي كعملية قرار ماركوف (MDP). في الرياضيات ، عملية قرار ماركوف (MDP) هي عملية تحكم عشوائية زمنية منفصلة. يوفر إطارًا رياضيًا لنمذجة اتخاذ القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا وجزئيًا تحت سيطرة صانع القرار. تعد MDPs مفيدة لدراسة مشاكل التحسين التي يتم حلها عبر البرمجة الديناميكية. كانت MDPs معروفة على الأقل في الخمسينيات من القرن الماضي. نتجت مجموعة أساسية من الأبحاث حول عمليات اتخاذ قرار ماركوف من كتاب رونالد هوارد عام 1950 ، البرمجة الديناميكية وعمليات ماركوف. يتم استخدامها في العديد من التخصصات ، بما في ذلك الروبوتات والتحكم الآلي والاقتصاد والتصنيع. يأتي اسم MDPs من عالم الرياضيات الروسي Andrey Markov لأنها امتداد لسلاسل Markov.
في كل خطوة زمنية ، تكون العملية في حالة S ، وقد يختار صانع القرار أي إجراء متاح في الحالة S. تستجيب العملية في الخطوة التالية بالانتقال عشوائيًا إلى الحالة S الجديدة ، وإعطاء صانع القرار مكافأة مقابلة رع (S ، S ').
يتأثر احتمال انتقال العملية إلى حالتها الجديدة S 'بالإجراء المختار أ. على وجه التحديد ، يتم تقديمها بواسطة وظيفة انتقال الحالة Pa (S ، S '). وبالتالي ، تعتمد الحالة S التالية على الحالة S الحالية وعمل صانع القرار أ. لكن بالنظر إلى S و a ، فهي مستقلة بشكل مشروط عن جميع الحالات والإجراءات السابقة. وبعبارة أخرى ، فإن انتقالات الحالة في MDP ترضي خاصية ماركوف.
عمليات اتخاذ القرار ماركوف هي امتداد لسلاسل ماركوف ؛ الفرق هو إضافة الإجراءات (السماح بالاختيار) والمكافآت (إعطاء الحافز). على العكس من ذلك ، إذا كان هناك إجراء واحد فقط لكل حالة (على سبيل المثال "انتظار") وجميع المكافآت هي نفسها (على سبيل المثال "صفر") ، فإن عملية اتخاذ قرار ماركوف تقلص إلى سلسلة ماركوف.
يتفاعل عامل التعلم المعزز مع بيئته في خطوات زمنية منفصلة. في كل مرة t ، يتلقى الوكيل الحالة الحالية S (t) والمكافأة r (t). ثم يختار إجراءً أ (ر) من مجموعة الإجراءات المتاحة ، والذي يتم إرساله لاحقًا إلى البيئة. تنتقل البيئة إلى حالة جديدة S (t + 1) ويتم تحديد المكافأة r (t + 1) المرتبطة بالانتقال. الهدف من عامل التعلم المعزز هو تعلم سياسة تزيد من المكافأة التراكمية المتوقعة.
صياغة المشكلة كما يفترض MDP أن الوكيل يراقب بشكل مباشر الحالة البيئية الحالية. في هذه الحالة ، يُقال أن المشكلة تتمتع بإمكانية ملاحظة كاملة. إذا كان الوكيل لديه إمكانية الوصول فقط إلى مجموعة فرعية من الحالات ، أو إذا كانت الحالات التي تمت ملاحظتها تالفة بسبب الضوضاء ، فيُقال أن الوكيل لديه إمكانية ملاحظة جزئية ، ويجب رسميًا صياغة المشكلة كعملية قرار ماركوف يمكن ملاحظتها جزئيًا. في كلتا الحالتين ، يمكن تقييد مجموعة الإجراءات المتاحة للوكيل. على سبيل المثال ، يمكن تقييد حالة رصيد الحساب لتكون موجبة ؛ إذا كانت القيمة الحالية للحالة 3 وكان انتقال الحالة يحاول تقليل القيمة بمقدار 4 ، فلن يُسمح بالانتقال.
عندما يُقارن أداء الوكيل بأداء الوكيل الذي يعمل على النحو الأمثل ، فإن الاختلاف في الأداء يؤدي إلى فكرة الندم. من أجل التصرف بشكل شبه مثالي ، يجب على الوكيل التفكير في العواقب طويلة المدى لأفعاله (أي زيادة الدخل المستقبلي إلى الحد الأقصى) ، على الرغم من أن المكافأة الفورية المرتبطة بذلك قد تكون سلبية.
وبالتالي ، فإن التعلم المعزز مناسب بشكل خاص للمشكلات التي تتضمن مقايضة المكافآت طويلة الأجل مقابل المكافآت قصيرة الأجل. تم تطبيقه بنجاح على العديد من المشكلات ، بما في ذلك التحكم في الروبوت ، وجدولة المصعد ، والاتصالات السلكية واللاسلكية ، ولعبة الطاولة ، وأجهزة الداما ، و Go (AlphaGo).
هناك عنصران يجعلان التعلم المعزز قويًا: استخدام العينات لتحسين الأداء واستخدام تقريب الوظائف للتعامل مع البيئات الكبيرة. بفضل هذين المكونين الرئيسيين ، يمكن استخدام التعلم المعزز في البيئات الكبيرة في المواقف التالية:
- يُعرف نموذج البيئة ، لكن لا يتوفر حل تحليلي.
- يتم إعطاء نموذج محاكاة للبيئة فقط (موضوع التحسين القائم على المحاكاة).
- الطريقة الوحيدة لجمع المعلومات حول البيئة هي التفاعل معها.
يمكن اعتبار أول مشكلتين من هاتين المشكلتين مشاكل تخطيط (حيث يتوفر شكل من أشكال النموذج) ، بينما يمكن اعتبار المشكلة الأخيرة مشكلة تعلم حقيقية. ومع ذلك ، فإن التعلم المعزز يحول مشاكل التخطيط إلى مشاكل التعلم الآلي.
تمت دراسة مقايضة الاستكشاف مقابل الاستغلال بشكل أكثر شمولاً من خلال مشكلة ماكينات الألعاب المتعددة ولحسابات MDPs الفضائية المحدودة في Burnetas و Katehakis (1997).
يتطلب التعلم المعزز آليات استكشاف ذكية ؛ يظهر الاختيار العشوائي للإجراءات ، دون الرجوع إلى توزيع احتمالي تقديري ، أداءً ضعيفًا. حالة عمليات اتخاذ قرار ماركوف المحدودة (الصغيرة) مفهومة جيدًا نسبيًا. ومع ذلك ، نظرًا لعدم وجود خوارزميات تتناسب بشكل جيد مع عدد الحالات (أو مقياس للمشاكل المتعلقة بمساحات الحالة اللانهائية) ، فإن طرق الاستكشاف البسيطة هي الأكثر عملية.
حتى إذا تم تجاهل مسألة الاستكشاف وحتى إذا كانت الحالة يمكن ملاحظتها ، تظل المشكلة في استخدام الخبرة السابقة لمعرفة الإجراءات التي تؤدي إلى مكافآت تراكمية أعلى.
للتعرف بالتفصيل على منهج الشهادات ، يمكنك توسيع الجدول أدناه وتحليله.
يشير منهج شهادة التعلم المعزز المتقدم EITC/AI/ARL إلى مواد تعليمية مفتوحة الوصول في شكل فيديو. تنقسم عملية التعلم إلى هيكل خطوة بخطوة (برامج -> دروس -> موضوعات) تغطي أجزاء المنهج ذات الصلة. كما يتم توفير استشارات غير محدودة مع خبراء المجال.
للحصول على تفاصيل حول التحقق من إجراءات الشهادة كيف تعمل.
المصادر المرجعية للمناهج
السيطرة على مستوى الإنسان من خلال منشور التعلم العميق التعزيز
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
دورة الوصول المفتوح حول التعلم المعزز العميق في جامعة كاليفورنيا في بيركلي
http://rail.eecs.berkeley.edu/deeprlcourse/
تم تطبيق RL على مشكلة العصابات K-armbed من Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
قم بتنزيل المواد التحضيرية الكاملة للتعلم الذاتي دون اتصال بالإنترنت لبرنامج التعلم المعزز المتقدم EITC/AI/ARL في ملف PDF
المواد التحضيرية لـ EITC/AI/ARL - الإصدار القياسي
المواد التحضيرية لـ EITC/AI/ARL - نسخة موسعة مع أسئلة المراجعة