في مجال الذكاء الاصطناعي، وتحديداً في مجال نماذج التدريب على اكتشاف الكلمات الرئيسية، يمكن النظر في العديد من الخوارزميات. ومع ذلك، هناك خوارزمية واحدة مناسبة تمامًا لهذه المهمة وهي الشبكة العصبية التلافيفية (CNN).
لقد تم استخدام شبكات CNN على نطاق واسع وأثبتت نجاحها في العديد من مهام رؤية الكمبيوتر، بما في ذلك التعرف على الصور واكتشاف الأشياء. إن قدرتهم على التقاط التبعيات المكانية بشكل فعال وتعلم التمثيلات الهرمية تجعلهم خيارًا ممتازًا لاكتشاف الكلمات الرئيسية، حيث يكون الهدف هو تحديد كلمات أو عبارات معينة ضمن مدخلات معينة.
تتكون بنية شبكة CNN من طبقات متعددة، بما في ذلك الطبقات التلافيفية وطبقات التجميع والطبقات المتصلة بالكامل. تقوم الطبقات التلافيفية باستخراج المعالم من خلال تطبيق مجموعة من المرشحات القابلة للتعلم على بيانات الإدخال. تكتشف عوامل التصفية هذه الأنماط والميزات المتنوعة في البيانات، مثل الحواف أو الزوايا أو الأنسجة. تقوم طبقات التجميع بعد ذلك بتقليل الأبعاد المكانية للمعالم المستخرجة، مع الحفاظ على خصائصها المهمة. أخيرًا، تجمع الطبقات المتصلة بالكامل بين الميزات التي تعلمتها الطبقات السابقة وتقوم بالتنبؤات النهائية.
لتدريب CNN على اكتشاف الكلمات الرئيسية، يلزم وجود مجموعة بيانات مصنفة، تتكون من عينات صوتية والكلمات الرئيسية المقابلة لها. يمكن تحويل العينات الصوتية إلى مخططات طيفية، وهي عبارة عن تمثيلات مرئية لمحتوى تردد الإشارات الصوتية مع مرور الوقت. تعمل هذه الطيفية كمدخلات لشبكة CNN.
أثناء عملية التدريب، تتعلم CNN كيفية التعرف على الأنماط والميزات في المخططات الطيفية التي تشير إلى وجود الكلمات الرئيسية. يتم تحقيق ذلك من خلال عملية تحسين تكرارية تسمى الانتشار العكسي، حيث تقوم الشبكة بضبط أوزانها وتحيزاتها لتقليل الفرق بين تنبؤاتها وتسميات الحقيقة الأساسية. يتم إجراء التحسين عادةً باستخدام خوارزميات قائمة على النسب المتدرج، مثل النسب التدرج العشوائي (SGD) أو Adam.
بمجرد تدريب CNN، يمكن استخدامها لاكتشاف الكلمات الرئيسية في عينات صوتية جديدة عن طريق تغذيتها عبر الشبكة وفحص مخرجات الشبكة. يمكن أن يكون الناتج عبارة عن توزيع احتمالي على مجموعة من الكلمات الرئيسية المحددة مسبقًا، مما يشير إلى احتمالية وجود كل كلمة رئيسية في الإدخال.
تجدر الإشارة إلى أن أداء CNN في اكتشاف الكلمات الرئيسية يعتمد بشكل كبير على جودة بيانات التدريب وتنوعها. يمكن لمجموعة البيانات الأكبر والأكثر تنوعًا أن تساعد الشبكة على التعميم بشكل أفضل على العينات غير المرئية وتحسين دقتها. بالإضافة إلى ذلك، فإن تقنيات مثل زيادة البيانات، حيث يتم توسيع بيانات التدريب بشكل مصطنع من خلال تطبيق تحويلات عشوائية، يمكن أن تزيد من تعزيز أداء CNN.
تعتبر خوارزمية الشبكة العصبية التلافيفية (CNN) مناسبة تمامًا لنماذج التدريب على اكتشاف الكلمات الرئيسية. إن قدرته على التقاط التبعيات المكانية وتعلم التمثيلات الهرمية تجعله فعالاً في تحديد كلمات أو عبارات معينة داخل العينات الصوتية. باستخدام المخططات الطيفية الموسومة كمدخلات وتحسين الشبكة من خلال الانتشار العكسي، يمكن تدريب CNN على التعرف على الأنماط التي تشير إلى وجود الكلمات الرئيسية. يمكن تحسين أداء CNN باستخدام مجموعة بيانات تدريب متنوعة ومعززة.
أسئلة وأجوبة أخرى حديثة بخصوص EITC/AI/GCML تعلم الآلة على Google Cloud:
- ما هو تحويل النص إلى كلام (TTS) وكيف يعمل مع الذكاء الاصطناعي؟
- ما هي القيود المفروضة على العمل مع مجموعات البيانات الكبيرة في التعلم الآلي؟
- هل يمكن للتعلم الآلي تقديم بعض المساعدة الحوارية؟
- ما هو ملعب TensorFlow؟
- ماذا تعني مجموعة البيانات الأكبر في الواقع؟
- ما هي بعض الأمثلة على المعلمات الفائقة للخوارزمية؟
- ما هو التعلم المجمع؟
- ماذا لو لم تكن خوارزمية التعلم الآلي المختارة مناسبة وكيف يمكن التأكد من اختيار الخوارزمية الصحيحة؟
- هل يحتاج نموذج التعلم الآلي إلى الإشراف أثناء التدريب؟
- ما هي المعلمات الأساسية المستخدمة في الخوارزميات القائمة على الشبكة العصبية؟
عرض المزيد من الأسئلة والأجوبة في EITC/AI/GCML Google Cloud Machine Learning