Каб атрымаць доступ да вынятага тэксту з відарыса з дапамогай API Google Vision, вы можаце выканаць шэраг крокаў, якія ўключаюць выкарыстанне магчымасцей API аптычнага распазнавання сімвалаў (OCR). Тэхналогія OCR у Google Vision API дазваляе выяўляць і выбіраць тэкст з малюнкаў, у тым ліку рукапісны. Гэтая функцыя асабліва карысная ў праграмах, якія патрабуюць аналізу і разумення тэкставай інфармацыі, прысутнай у візуальных дадзеных.
Па-першае, вам трэба наладзіць неабходнае асяроддзе для працы з Google Vision API. Гэта прадугледжвае стварэнне праекта ў Google Cloud Console, уключэнне API Vision і атрыманне неабходных уліковых дадзеных для аўтэнтыфікацыі, такіх як ключ API або ключ уліковага запісу службы.
Пасля таго, як ваша асяроддзе наладжана, вы можаце скарыстацца метадам `asyncBatchAnnotateFiles` Vision API для выканання OCR файла выявы. Гэты метад дазваляе перадаваць спіс файлаў малюнкаў для апрацоўкі і асінхронна атрымліваць вынікі. Акрамя таго, вы можаце выкарыстоўваць метад `asyncBatchAnnotateImages` для непасрэднай апрацоўкі спісу малюнкаў.
Каб атрымаць тэкст з відарыса, трэба стварыць асобнік аб'екта `AnnotateImageRequest` і ўказаць жаданыя функцыі. У гэтым выпадку вы павінны ўсталяваць функцыю `TEXT_DETECTION`, каб паказаць, што вы хочаце атрымаць тэкст з выявы. Вы таксама можаце задаць дадатковыя параметры, такія як падказка мовы, каб павысіць дакладнасць OCR.
Далей вам трэба закадзіраваць файл выявы ў радок, закадзіраваны па базе 64, і стварыць асобнік аб'екта "Image", выкарыстоўваючы закадзіраваныя даныя выявы. Гэты аб'ект "Image" трэба дадаць да аб'екта "AnnotateImageRequest", створанага раней.
Пасля наладжвання запыту вы можаце адправіць яго ў API Vision з дапамогай метаду `batchAnnotateImages` або `batchAnnotateFiles`, у залежнасці ад абранага вамі падыходу. API апрацуе малюнак і верне адказ, які змяшчае выняты тэкст.
Каб атрымаць доступ да вынятага тэксту з адказу, вы можаце перабіраць поле `textAnnotations` аб'екта `AnnotateImageResponse`. Гэта поле змяшчае спіс аб'ектаў EntityAnnotation, кожны з якіх прадстаўляе выяўлены тэкставы элемент на малюнку. Поле `description` кожнага аб'екта `EntityAnnotation` змяшчае выняты тэкст.
Вось прыклад фрагмента кода ў Python, які дэманструе, як атрымаць доступ да вынятага тэксту з выявы з дапамогай Google Vision API:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
У гэтым прыкладзе функцыя `extract_text_from_image` прымае шлях да файла відарыса ў якасці ўваходных дадзеных і выкарыстоўвае кліенцкую бібліятэку Google Cloud Vision для адпраўкі запыту ў API Vision. Затым выняты тэкст раздрукоўваецца.
Каб атрымаць доступ да вынятага тэксту з выявы з дапамогай Google Vision API, вам трэба наладзіць асяроддзе, стварыць аб'ект `AnnotateImageRequest` з жаданымі функцыямі, закадзіраваць файл выявы, адправіць запыт у API і атрымаць выняты тэкст з адказу. Магчымасці OCR Vision API дазваляюць выяўляць і выбіраць тэкст з малюнкаў, у тым ліку рукапісны.
Іншыя апошнія пытанні і адказы адносна Выяўленне і выманне тэксту з почырку:
- Якія абмежаванні могуць узнікнуць пры выманні тэксту са складаных дакументаў з дапамогай API Google Vision?
- Якое значэнне ўзроўняў даверу ў інтэрпрэтацыі тэксту Google Vision API?
- Як Google Vision API можа дакладна распазнаваць і здабываць тэкст з рукапісных нататак?
- Якія праблемы ўзнікаюць пры выяўленні і вылучэнні тэксту з рукапісных малюнкаў?
- Ці можа Google Vision распазнаваць рукапісны ўвод?