للوصول إلى النص المستخرج من صورة باستخدام Google Vision API، يمكنك اتباع سلسلة من الخطوات التي تتضمن الاستفادة من إمكانات التعرف البصري على الأحرف (OCR) في واجهة برمجة التطبيقات. تتيح تقنية التعرف الضوئي على الحروف (OCR) في Google Vision API اكتشاف النص واستخراجه من الصور، بما في ذلك الكتابة اليدوية. تعتبر هذه الوظيفة مفيدة بشكل خاص في التطبيقات التي تتطلب تحليل وفهم المعلومات النصية الموجودة في البيانات المرئية.
أولاً، تحتاج إلى إعداد البيئة اللازمة للعمل مع Google Vision API. يتضمن ذلك إنشاء مشروع في Google Cloud Console، وتمكين Vision API، والحصول على بيانات اعتماد المصادقة المطلوبة مثل مفتاح API أو مفتاح حساب الخدمة.
بمجرد إعداد بيئتك، يمكنك الاستفادة من طريقة `asyncBatchAnnotateFiles` الخاصة بـ Vision API لإجراء التعرف الضوئي على الحروف على ملف صورة. تسمح لك هذه الطريقة بتمرير قائمة ملفات الصور للمعالجة وتلقي النتائج بشكل غير متزامن. وبدلاً من ذلك، يمكنك استخدام طريقة "asyncBatchAnnotateImages" لمعالجة قائمة الصور مباشرةً.
لاستخراج نص من صورة، تحتاج إلى إنشاء مثيل لكائن `AnnotateImageRequest` وتحديد الميزات المطلوبة. في هذه الحالة، يمكنك تعيين ميزة `TEXT_DETECTION` للإشارة إلى رغبتك في استخراج النص من الصورة. يمكنك أيضًا تحديد معلمات إضافية مثل تلميح اللغة لتحسين دقة التعرف الضوئي على الحروف.
بعد ذلك، تحتاج إلى تشفير ملف الصورة في سلسلة بتشفير base64 وإنشاء مثيل لكائن "الصورة" باستخدام بيانات الصورة المشفرة. يجب إضافة كائن "الصورة" هذا إلى كائن "AnnotateImageRequest" الذي تم إنشاؤه مسبقًا.
بعد إعداد الطلب، يمكنك إرساله إلى Vision API باستخدام طريقة "batchAnnotateImages" أو "batchAnnotateFiles"، اعتمادًا على النهج الذي اخترته. ستقوم واجهة برمجة التطبيقات (API) بمعالجة الصورة وإرجاع استجابة تحتوي على النص المستخرج.
للوصول إلى النص المستخرج من الاستجابة، يمكنك التكرار عبر حقل "textAnnotations" الخاص بكائن "AnnotateImageResponse". يحتوي هذا الحقل على قائمة بكائنات `EntityAnnotation`، يمثل كل منها عنصرًا نصيًا تم اكتشافه في الصورة. يحتوي حقل "الوصف" لكل كائن "EntityAnnotation" على النص المستخرج.
فيما يلي مثال لمقتطف التعليمات البرمجية في Python الذي يوضح كيفية الوصول إلى النص المستخرج من صورة باستخدام Google Vision API:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
في هذا المثال، تأخذ وظيفة "extract_text_from_image" المسار إلى ملف صورة كمدخل وتستخدم مكتبة عميل Google Cloud Vision لإرسال طلب إلى Vision API. ثم تتم طباعة النص المستخرج.
للوصول إلى النص المستخرج من صورة باستخدام Google Vision API، تحتاج إلى إعداد البيئة وإنشاء كائن `AnnotateImageRequest` بالميزات المطلوبة وترميز ملف الصورة وإرسال الطلب إلى API واسترداد النص المستخرج. من الرد. تتيح إمكانيات التعرف الضوئي على الحروف (OCR) في Vision API اكتشاف النص واستخراجه من الصور، بما في ذلك الكتابة اليدوية.
أسئلة وأجوبة أخرى حديثة بخصوص كشف واستخراج النص من خط اليد:
- ما القيود التي قد تنشأ عند استخراج النص من المستندات المعقدة باستخدام Google Vision API؟
- ما أهمية مستويات الثقة في تفسير Google Vision API للنص؟
- كيف يمكن لـ Google Vision API التعرف بدقة على النص واستخراجه من الملاحظات المكتوبة بخط اليد؟
- ما هي التحديات في كشف واستخراج النص من الصور المكتوبة بخط اليد؟
- هل تستطيع Google Vision التعرف على الكتابة اليدوية؟