"Когда на Диске тысячи фотографий, разложенных по разным папкам, поиск по текстам позволит быстро найти среди них нужную. Например, скан договора с названием вроде scan723.JPG или фотографию визитки человека, с которым понадобилось связаться. Искать можно не только документы, но и любые фотографии, которые сделаны для того, чтобы сохранить текст, будь то объявление на двери подъезда или любопытный рекламный плакат в метро", - говорится в публикации.
Сообщается, что в основе поиска текстов на изображениях лежит технология оптического распознавания символов, способная распознавать текст на разных по виду, содержанию и качеству картинках.
Система включает в себя классификатор картинок и модуль распознавания. Сначала классификатор анализирует все изображения, отбирая те, на которых обнаруживается текст. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст, а затем отбираются только те линии текста, в которых алгоритм уверен.
На следующем этапе модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа выбирается несколько наиболее вероятных вариантов распознавания. После этого в дело вступает языковая модель - алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего.
Языковая модель опирается на словари и учитывает не только сходство символов с теми, что знает система, но и контекст. Если из нескольких вероятных символов складывается известное системе слово, то она принимает решение, что на картинке написано именно оно, даже в том случае, если некоторые символы-кандидаты в этом слове менее вероятны.
В сообщении отмечается, что точность распознавания текста зависит от типа изображения, его четкости, фона, на котором находится текст, и многих других факторов. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями - 63,2%, а для скриншотов приближается к 100%.
Помимо русского языка система также распознает английский, украинский и турецкий. Точность распознавания текстов всего потока изображений составляет свыше 70%, и в компании обещают улучшить этот показатель.