لتعبئة قواميس التدريب ومجموعات الاختبار في سياق تطبيق خوارزمية K أقرب جيران (KNN) في التعلم الآلي باستخدام Python ، نحتاج إلى اتباع نهج منهجي. تتضمن هذه العملية تحويل بياناتنا إلى تنسيق مناسب يمكن استخدامه بواسطة خوارزمية KNN.
أولاً ، دعنا نفهم المفهوم الأساسي للقواميس في بايثون. القاموس هو مجموعة غير مرتبة من أزواج المفتاح والقيمة ، حيث يكون كل مفتاح فريدًا. في سياق التعلم الآلي ، تُستخدم القواميس بشكل شائع لتمثيل مجموعات البيانات ، حيث تتوافق المفاتيح مع الميزات أو السمات ، وتمثل القيم نقاط البيانات المقابلة.
لتعبئة قواميس التدريب ومجموعات الاختبار ، نحتاج إلى تنفيذ الخطوات التالية:
1. إعداد البيانات: ابدأ بجمع البيانات وإعدادها لمهمة التعلم الآلي الخاصة بنا. يتضمن هذا عادةً تنظيف البيانات ومعالجة القيم المفقودة وتحويل البيانات إلى تنسيق مناسب. تأكد من تصنيف البيانات أو تصنيفها بشكل صحيح ، لأن هذا ضروري لمهام التعلم تحت الإشراف.
2. تقسيم مجموعة البيانات: بعد ذلك ، نحتاج إلى تقسيم مجموعة البيانات إلى قسمين: مجموعة القطار ومجموعة الاختبار. سيتم استخدام مجموعة القطار لتدريب خوارزمية KNN الخاصة بنا ، بينما سيتم استخدام مجموعة الاختبار لتقييم أدائها. يساعدنا هذا الانقسام في تقييم مدى تعميم الخوارزمية على البيانات غير المرئية.
3. استخراج الميزات: بمجرد تقسيم مجموعة البيانات ، نحتاج إلى استخراج الميزات ذات الصلة من البيانات وتعيينها كمفاتيح في قواميسنا. يمكن أن تكون الميزات رقمية أو فئوية ، اعتمادًا على طبيعة بياناتنا. على سبيل المثال ، إذا كنا نعمل مع مجموعة بيانات من الصور ، فقد نقوم باستخراج ميزات مثل الرسوم البيانية الملونة أو واصفات النسيج.
4. تعيين القيم: بعد استخراج الميزات ، نحتاج إلى تعيين القيم المقابلة لكل مفتاح في قواميسنا. تمثل هذه القيم نقاط أو مثيلات البيانات الفعلية في مجموعة البيانات الخاصة بنا. يجب أن يقترن كل مثيل بقيم السمات المقابلة له.
5. تدريب مجموعة القاموس: قم بإنشاء قاموس لتمثيل مجموعة القطار. ستكون مفاتيح هذا القاموس هي الميزات ، وستكون القيم عبارة عن قوائم أو مصفوفات تحتوي على قيم السمات المقابلة لكل مثيل في مجموعة القطار. على سبيل المثال ، إذا كانت لدينا مجموعة بيانات ذات ميزتين (العمر والدخل) وثلاث حالات ، فقد يبدو قاموس مجموعة القطارات كما يلي:
train_set = {'age': [25، 30، 35]، 'الدخل': [50000، 60000، 70000]}
6. اختبار مجموعة القاموس: وبالمثل ، قم بإنشاء قاموس لتمثيل مجموعة الاختبار. ستكون مفاتيح هذا القاموس هي نفسها الميزات الموجودة في مجموعة القطار ، وستكون القيم عبارة عن قوائم أو مصفوفات تحتوي على قيم السمات المقابلة لكل مثيل في مجموعة الاختبار. على سبيل المثال ، إذا كان لدينا مجموعة اختبار مع حالتين ، فقد يبدو قاموس مجموعة الاختبار كما يلي:
test_set = {'age': [40، 45]، 'الدخل': [80000، 90000]}
7. استخدام القواميس: بمجرد ملء قواميس التدريب ومجموعات الاختبار ، يمكننا استخدامها كمدخلات لخوارزمية KNN الخاصة بنا. ستستخدم الخوارزمية قيم الميزة من مجموعة القطار لعمل تنبؤات أو تصنيفات للحالات الموجودة في مجموعة الاختبار.
باتباع هذه الخطوات ، يمكننا تعبئة قواميس التدريب ومجموعات الاختبار بشكل فعال في سياق تطبيق خوارزمية KNN الخاصة بنا في التعلم الآلي باستخدام Python. تعمل هذه القواميس كأساس للتدريب وتقييم أداء الخوارزمية.
لتعبئة قواميس مجموعات التدريب والاختبار ، نحتاج إلى إعداد مجموعة البيانات وتقسيمها ، واستخراج الميزات ذات الصلة ، وتعيين قيم الميزة للمفاتيح المقابلة في القواميس ، واستخدام هذه القواميس في خوارزمية KNN الخاصة بنا.
أسئلة وأجوبة أخرى حديثة بخصوص تطبيق خوارزمية K الخاصة بأقرب جيران:
- كيف نحسب دقة خوارزمية أقرب جيراننا من K؟
- ما أهمية العنصر الأخير في كل قائمة الذي يمثل الفصل في القطار ومجموعات الاختبار؟
- ما الغرض من خلط مجموعة البيانات قبل تقسيمها إلى مجموعات تدريب واختبار؟
- لماذا من المهم تنظيف مجموعة البيانات قبل تطبيق خوارزمية الجيران الأقرب لـ K؟