Современные системы автоматизации перевода

"Современные системы автоматизации перевода (Computer-Assisted Translation tools)"

Статья Виноградовой Татьяны, координатора проектов компании Т-Сервис, в сборнике Всероссийского центра переводов "Перевод: Информационные технологии".

Системы автоматизации перевода (Computer-Assisted Translation tools, CAT tools), такие как SDL Trados, Deja vu, StarTransit, Wordfast и другие, стали неотъемлемой частью современного процесса профессионального перевода.

Данные системы представляют собой целый комплекс технологий и инструментов для перевода документации, локализации программного обеспчения, ведения терминологических глоссариев, проверки качества перевода, создания и распределения переводческих проектов, встраивания в разнообразные системы документооборта. С их помощью решаются задачи по созданию качественного перевода в рамках кратчайшего производственного цикла.

Применение систем автоматизации перевода эффективно при переводе технической, финансовой, юридической и другой документации, с высокой степенью повторяемости текстов. По опыту активных пользователей в среднем количество повторов в проекте может достигать 50%, что означает увеличение скорости перевода в полтора-два раза. Согласно результатам опроса пользователей экономия времени на перевод и форматирование с применением систем автоматизации составляет от 30 до 50%.

Использование данных систем также целесообразно при коллективной работе, когда необходимо обеспечить согласованный перевод в рамках одного проекта. Весь перевод автоматически сохраняется в единой базе данных, доступной всем участникам процесса перевода. В режиме реального времени пользователи видят результаты перевода друг друга. При этом переводчики могут находиться в одной локальной сети или подключаться удаленно. Это особенно важно для компаний, имеющих филиалы в разных городах и даже странах.

Работу с системами автоматизации перевода можно условно разбить на 2 этапа. На первом этапе пользователь работает на систему, а именно осваивает базовую функциональность, накапливает первоначальную базу переводов (преобразовывает ранее переведенные материалы в соответствующий формат) и создает глоссарий. Как правило, на этот этап требуется от двух до шести недель в зависимости от интенсивности использования и объема материалов. На втором этапе система начинает работать на пользователя. С увеличением базы переводов возрастает количество совпадений, уменьшается объем новых сегментов, следовательно, сокращается время, затрачиваемое на перевод, и увеличивается производительность. Автоматическое распознавание терминологии (как это реализовано в системе SDL MultiTerm) сводит к минимуму поиск терминов вручную.

В основе самых современных решений обычно лежат 3 основные технологии:

  • Память (или База) переводов (Translation Memory, TM),
  • Управление терминологией (Terminology Management),
  • Управление проектами (Project Management, Translation Management System, TMS).

База Translation Memory - это лингвистическая база данных, в которой переводы сохраняются в рамках определенной структуры по мере их создания человеком-переводчиком. Обычный состав базы ТМ - исходные сегменты и эквивалентные им целевые сегменты (как правило, за сегмент принимается предложение). При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе - и извлекает соответствующие совпадения. В результате не требуется многократно переводить одно и то же предложение – напротив, при необходимости можно повторно использовать ранее переведенные фрагменты текста.

В основе поиска совпадений лежит относительный параметр "Минимально допустимая степень совпадения" (Minimum Match Value). Например, минимально допустимая степень совпадения, равная 70%, означает, что если отклонение переводимого предложения от сегмента, сохраненного в базе находится, в пределах 30%, этот сегмент будет предложен пользователю как неточное совпадение. Величина данного параметра задается пользователем. Как правило, оптимальное значение для стандартных текстов на европейских языках находится в диапазоне от 65% до 75%. Следует отметить, что для таблиц и азиатских языков минимально допустимое совпадение в два раза ниже. Оптимальным следует считать значение, позволяющее находить незначительные отклонения и в то же время, не предлагающее соответствий в одно или два слова.

При этом применяется специально разработанная в технологии ТМ система оценки процента совпадений сегмента в базе с сегментом в тексте (так называемый fuzzy match – нечеткое совпадение, exact match - точное совпадение perfect match – идеальное совпадение или совпадение контекста). Ранее переведенный текст является важным ресурсом для последующих переводов, поскольку многие повторяющиеся фрагменты могут быть подобными или даже идентичными.

Критически важное требование качественного перевода - точная терминология. Для обеспечения точности и согласованности терминологии в системах CAT предлагаются разные решения, обычно представляющие собой единые централизованные хранилища терминов (своего рода универсальные электронные словари, поиск по которым может осуществляться непосредственно из основного редактора системы) и средства управления терминологией.

При помощи этих решений создаются одноязычные или многоязычные глоссарии, доступные для всех сотрудников, использующих терминологию, как в рамках корпоративной локальной сети, так и за ее пределами. Словарные статьи обычно имеют разветвленную структуру - и могут содержать обширную информацию, необходимую для принятия решения об использовании того или иного термина: термин, аббревиатура, синонимы, определение, контекст, источник, статус, комментарий, рисунки, звукозаписи, перекрестные ссылки и др. Самые современные системы позволяют редактировать термины непосредственно в среде перевода, а также просматривать результаты поиска, параметры которого можно ограничивать и настраивать.

В системах автоматизации перевода существует возможность вести базу переводов и глоссарий для нескольких проектов, клиентов и пр. Например, при переводе инструкций к принтерам разных марок, допустим, Canon и HP, степень совпадения текстов достаточно велика, в то же время, одни и те же детали могут переводиться по-разному. Создание нескольких вариантов перевода для одного исходного сегмента или термина не решит проблему выбора точного перевода. Как это решается в системе SDL Trados? В настройках базы переводов SDL Trados пользователь может добавить дополнительное информационное поле и задать значения для него. В нашем примере, это будет поле "Customer" (Клиент) с двумя значениями: Canon и HP. Перед началом работы с документом переводчик выбирает настройки проекта, например, Customer: Canon. Это значение присваивается всем единицам перевода, создаваемым по данному документу. Затем, при переводе документа с другими настройками проекта (Customer: HP), переводчик получает совпадения с пометкой Canon При этом приоритет отдается единицам переводам с текущими настройками (т.е. HP), а степень совпадения других соответствий (Canon) понижается. В случае, если для текущего предложения в базе присутствуют два варианта перевода: один Canon, другой HP, система выберет перевод с соответствующей меткой (т.е. HP). Аналогично и с терминологическим глоссарием: для каждого варианта перевода термина можно указать информацию о клиенте.

Таким образом, система SDL Trados позволяет вести единую базу переводов и терминов, разграничив между собой проекты.

В переводе существует большое количество задач, связанных с подготовкой файлов и проектов. Зачастую они выполняются вручную - и занимают массу времени. В ответ на необходимость оптимизации, в самые современные системы CAT стали встраивать модули управления переводами, автоматизирующие настройку проектов, выбор требуемых баз переводов, терминологии и файлов, проверку качества, подсчет статистики и создание отчетов.

Среди систем автоматизированного перевода наиболее распространенной является SDL Trados. Она стала своего рода промышленным стандартом письменного перевода. По независимым оценкам, 80% переводчиков во всем мире применяют решения SDL Trados. Система SDL Trados постоянно совершенствуется и дорабатывается - в соответствии с требованиями, выдвигаемыми новыми тенденциями. Компания SDL даже отслеживает настроения пользователей с помощью специального ресурса - ideas.sdl.com. Это форум, где пользователи делятся с разработчиками своими идеями по улучшению и разработке дополнительной функциональности систем. Участники форума оставляют комментарии и голосуют за высказанные предложения. Каждая идея получает рейтинг, на основе которого разработчики судят о ее актуальности и принимают решение о внедрении.

В последней версии системы SDL Trados – SDL Trados Studio 2009 реализовано 90 идей, предложенных пользователями на форуме ideas.sdl.com. К такой идее относится, например, возможность работы с pdf-документами. Ранее для перевода pdf-документов требовалось предварительно распознать файл с помощью какого-либо PDF-конвертера. Теперь поддержка PDF формата осуществляется посредством встроенного в SDL Trados фильтра, использующего технологию Solid Framework.

Новая версия SDL Trados Studio 2009 объединила возможности двух предыдущих систем – SDLX и SDL Trados. Ее отличает единая, не содержащая тегов, среда переводов, интеграция всех компонентов и ряд инновационных функций. Настраиваемый интерфейс пользователя может быть изменен в соответствии с индивидуальными требованиями.

Большой интерес представляет запатентованная технология AutoSuggest. AutoSuggest максимизирует многократное использование ранее переведенного контента, предлагая возможные переводы слов или фраз (субсегментов) из памяти переводов. В основе интеллектуальной подстановки лежит TM и исходный сегмент, над которым ведется работа. Аналогично функции интеллектуального ввода текста, варианты подстановки появляются по мере ввода первых символов слова.

К ключевым особенностям SDL Trados Studio 2009 также следует отнести:

  • Функцию Context Match -она определяет расположение сегмента в документе и контекст и используется для оптимизации подстановки 100% совпадений.
  • Функцию AutoPropagation – с ее помощью перевод автоматически подставляется во все повторяющиеся сегменты.
  • Поиск по нескольким базам перевода.
  • Проверка качества и орфографии, выявляющая ошибки непосредственно при вводе текста.
  • Предварительный просмотр в режиме реального времени, позволяющий просматривать документ в конечном формате во время выполнения перевода.

Решения SDL Trados Studio 2009 обладают гибкой масштабируемостью и позволяют использовать одни и те же технологии при индивидуальной работе, в небольших отделах переводов и на крупных предприятиях.

В системе SDL Trados Studio 2009 используются открытые отраслевые стандарты: реализована поддержка XLIFF (межплатформенный формат файлов для перевода), TMX (формат обмена базами переводов) и TBX (формат обмена терминологическими базами