"При переводе нейросеть не разбивает тексты на отдельные слова и фразы - она обрабатывает целые предложения. За счет этого переведенный текст хорошо читается: порой даже можно подумать, что его написал человек. Статистический переводчик так не умеет, зато хорошо запоминает и переводит редкие и сложные слова и фразы. Работая вместе, две системы компенсируют недостатки друг друга", - говорится в сообщении, опубликованном в блоге "Яндекса".
Как пояснили в компании, с момента запуска "Яндекс.Переводчик" использовал статистическую систему перевода, которая предусматривает разбивку предложений на части и подбор всех возможных переводов для каждого из фрагментов с определением их вероятности. После этого система составляет различные варианты переведенного приложения, выбирая тот, в котором содержатся фрагменты с высокими вероятностями, хорошо сочетающиеся друг с другом.
Преимущество такой системы заключается в том, что статистический переводчик хорошо запоминает редкие и сложные слова и фразы. В то же время результат перевода нередко бывает похож на мозаику: общая картина понятна, но заметно, что она составлена из отдельных кусочков.
Что же касается нейросетевого переводчика, то, как и статистический, он анализирует массив параллельных текстов и учится находить в них закономерности. Однако нейросеть работает не со словами и фразами, а с предложениями. Такой подход позволяет учесть смысловые связи внутри предложения, поняв его контекст.
"У нейросетевого перевода тоже есть свои недостатки. Если по каким-то причинам нейронной сети трудно перевести то или иное предложение – а такое время от времени случается, - она поведёт себя примерно как студент на экзамене: начнет что-то выдумывать от себя в надежде угадать правильный ответ", – отметили в "Яндексе".
Еще один минус нейросетевого переводчика состоит в том, что он, в отличие от статистического перевода, не всегда хорошо справляется с переводом редких слов.
Именно поэтому компания решила объединить два подхода и создать гибридную систему, которая объединяет статистический и нейросетевой перевод.
"Когда "Яндекс.Переводчик" получает от пользователя текст, он отдает его на перевод обеим системам – и нейронной сети, и статистическому переводчику. Затем алгоритм, основанный на методе обучения CatBoost, оценивает, какой перевод лучше. При выставлении оценки учитываются десятки факторов – от длины предложения (короткие фразы лучше переводит статистическая модель) до синтаксиса. Перевод, признанный лучшим, показывается пользователю", – говорится в сообщении.
В настоящее время гибридная система перевода доступна в веб-версии "Яндекс.Переводчика" для переводов с английского языка на русский (на это направление приходится около 80% всех запросов к сервису). В ближайшие месяцы компания намерена запустить систему и для других направлений. При этом разработчики встроили в систему переключатель, который позволят пользователям сравнить гибридный и статистический переводы.
Напомним, в начале августа элементы искусственного интеллекта в свою систему перевода публикаций внедрила социальная сеть Facebook, а ранее нейросети начали использовать в сервисе Google Translate.