تسمح واجهة برمجة التطبيقات TensorFlow Keras Tokenizer API بالترميز الفعال للبيانات النصية، وهي خطوة حاسمة في مهام معالجة اللغات الطبيعية (NLP). عند تكوين مثيل Tokenizer في TensorFlow Keras، إحدى المعلمات التي يمكن تعيينها هي المعلمة `num_words`، والتي تحدد الحد الأقصى لعدد الكلمات التي سيتم الاحتفاظ بها بناءً على تكرار الكلمات. يتم استخدام هذه المعلمة للتحكم في حجم المفردات من خلال مراعاة الكلمات الأكثر تكرارًا فقط حتى الحد المحدد.
المعلمة `num_words` هي وسيطة اختيارية يمكن تمريرها عند تهيئة كائن Tokenizer. من خلال تعيين هذه المعلمة على قيمة معينة، سيأخذ Tokenizer في الاعتبار فقط الكلمات الأكثر شيوعًا في مجموعة البيانات `num_words – 1`، مع التعامل مع الكلمات المتبقية كرموز مميزة خارج المفردات. يمكن أن يكون هذا مفيدًا بشكل خاص عند التعامل مع مجموعات البيانات الكبيرة أو عندما تكون قيود الذاكرة مصدر قلق، حيث أن الحد من حجم المفردات يمكن أن يساعد في تقليل أثر ذاكرة النموذج.
من المهم ملاحظة أن المعلمة `num_words` لا تؤثر على عملية الترميز نفسها ولكنها تحدد حجم المفردات التي سيعمل معها Tokenizer. سيتم تعيين الكلمات التي لم يتم تضمينها في المفردات بسبب حد "num_words" إلى "oov_token" المحدد أثناء تهيئة Tokenizer.
من الناحية العملية، يمكن أن يساعد تعيين المعلمة `num_words` في تحسين كفاءة النموذج من خلال التركيز على الكلمات الأكثر صلة في مجموعة البيانات مع التخلص من الكلمات الأقل تكرارًا والتي قد لا تساهم بشكل كبير في أداء النموذج. ومع ذلك، من الضروري اختيار قيمة مناسبة لـ "num_words" استنادًا إلى مجموعة البيانات المحددة والمهمة الحالية لتجنب فقدان المعلومات المهمة.
فيما يلي مثال لكيفية استخدام المعلمة `num_words` في TensorFlow Keras Tokenizer API:
python from tensorflow.keras.preprocessing.text import Tokenizer # Initialize a Tokenizer object with a maximum of 1000 words tokenizer = Tokenizer(num_words=1000) # Fit the Tokenizer on some text data texts = ['sample text data for tokenization'] tokenizer.fit_on_texts(texts) # Convert text to sequences using the Tokenizer sequences = tokenizer.texts_to_sequences(texts) print(sequences)
في المثال أعلاه، تتم تهيئة Tokenizer باستخدام `num_words=1000`، مما يحد من حجم المفردات إلى 1000 كلمة. يتم بعد ذلك ملاءمة Tokenizer لنموذج البيانات النصية، ويتم تحويل النص إلى تسلسلات باستخدام Tokenizer.
تسمح المعلمة `num_words` في TensorFlow Keras Tokenizer API بالتحكم في حجم المفردات عن طريق تحديد الحد الأقصى لعدد الكلمات التي يجب أخذها في الاعتبار بناءً على تكرارها في مجموعة البيانات. من خلال تعيين قيمة مناسبة لـ `num_words`، يمكن للمستخدمين تحسين أداء النموذج وكفاءة الذاكرة في مهام البرمجة اللغوية العصبية.
أسئلة وأجوبة أخرى حديثة بخصوص أساسيات EITC/AI/TFF TensorFlow:
- كيف يمكن للمرء استخدام طبقة التضمين لتعيين المحاور المناسبة تلقائيًا لمؤامرة تمثيل الكلمات كمتجهات؟
- ما هو الغرض من الحد الأقصى للتجميع في CNN؟
- كيف يتم تطبيق عملية استخراج الميزات في الشبكة العصبية التلافيفية (CNN) على التعرف على الصور؟
- هل من الضروري استخدام وظيفة التعلم غير المتزامنة لنماذج التعلم الآلي التي تعمل في TensorFlow.js؟
- هل يمكن استخدام TensorFlow Keras Tokenizer API للعثور على الكلمات الأكثر شيوعًا؟
- ما هو توكو؟
- ما هي العلاقة بين عدد من العصور في نموذج التعلم الآلي ودقة التنبؤ من تشغيل النموذج؟
- هل تنتج الحزمة المجاورة لواجهة برمجة التطبيقات (API) في التعلم المنظم العصبي لـ TensorFlow مجموعة بيانات تدريب معززة تعتمد على بيانات الرسم البياني الطبيعي؟
- ما هي حزمة الجيران API في التعلم المنظم العصبي لـ TensorFlow؟
- هل يمكن استخدام التعلم المنظم العصبي مع البيانات التي لا يوجد لها رسم بياني طبيعي؟
عرض المزيد من الأسئلة والأجوبة في EITC/AI/TFF TensorFlow Fundamentals