Больше советов про OmegaT

Читайте про инструмент письменного переводчика OmegaT в первой статье. Здесь же будет продвинутая магия: создание своей TMX, редактирование чужой, подключение машинного перевода и продвинутая проверка на ошибки.

Как добавить машинный перевод

В некоторых ситуациях машинный перевод (такой, как Google Translate) может помочь переводить быстрее. OmegaT можно настроить таким образом, чтобы прямо в её интерфейсе отображался машинный перевод сегмента, который вы можете использовать напрямую или очень быстро редактировать.

В OmegaT можно подключить такие системы, как Google Translate, Microsoft Translator и Яндекс.Переводчик. За первые два придётся платить, а Яндекс.Переводчик предоставляет свои услуги бесплатно (в разумных пределах использования). Сейчас я расскажу, как это сделать.

  1. Зарегистрируйте аккаунт в Яндекс.
    Например, заведите почту.
  2. Перейдите на страницу разработчика в раздел «Переводчик» по этой ссылке.
  3. Нажмите Создать новый ключ, введите описание (для себя), нажмите Создать.

Добавим ключ в OmegaT:

  1. В OmegaT перейдите в Options -> Preferences -> Machine Translation
  2. Выберите Yandex Translate, отметьте его галочкой и нажмите Configure
  3. Скопируйте API ключ в появившееся поле, нажмите ОК
  4. В появившемся окне можно задать пароль либо пропустить это действие.
    Пароль нужен для того, чтобы защитить ваш API ключ. Актуально для платных переводческих систем.

Закройте настройки. Теперь в основном окне программы можно нажать на вкладку Machine Translations в нижней части окна. Чтобы окошко с машинным переводом всегда оставалось на виду, нажмите на небольшой значок с двумя окошками.

Теперь при переходе к новому сегменту программа сделает запрос к Яндекс.Переводчику, получит ответ и покажет его в окне. Горячей клавишей Ctrl+M можно вставить результат в поле перевода.

Как проверить текст на ошибки?

Кроме простой проверки орфографии, которую мы настроили ранее, можно проверить более сложные ошибки, от стилистики до пропущенных тегов. Для этого OmegaT использует открытый инструмент Language Tool. Он поставляется в комплекте с OmegaT, то можно установить отдельно, или подключиться к удалённому серверу.

  1. Tools -> Check issues (или Ctrl+Shift+V)
  2. Дважды кликните на ошибке из списка, чтобы перейти к сегменту для редактирования.

По правому клику можно добавить слово в словарь, либо отключить проверку этого типа ошибок.

Слева в окне Check issues можно выбрать фильтр Tags. Он полезен в переводе документов с большим количеством тегов, сохранить которые очень важно — например, при локализации софта.
Совет: Если нужно сохранить теги любой ценой, OmegaT можно запретить создавать финальные документы при наличии ошибок в тегах. Делается это в Tools -> Preferences -> Tag Processing -> Do not allow creating translated documents with tag issues.

Тонкая настройка Language Tool доступна через Tools -> Preferences -> LanguageTool. Здесь можно выбрать, использовать ли встроенный Language Tool, или подключиться к локальному/удалённому серверу. Ниже можно выбрать тип ошибок, на которые программа будет реагировать, например «Пунктуация» -> «Пропущена запятая перед предлогом «И» в сложном предложении«, или «Стиль» -> «Разговорные слова«.

Чем открыть память перевода TMX?

Бывает, что нужно посмотреть, что в файле *.tmx, или даже отредактировать его. Структура у файла довольно простая, и в крайнем случае можно обойтись блокнотом, но это не слишком удобно. OmegaT не может сама открыть TMX для редактирования: память перевода можно только добавить в проект, но не открыть её саму по себе.

Для Windows-пользователей подойдёт бесплатная утилита Olifant из пакета Okapi, скачать можно здесь.

Не вижу смысла писать пошаговую инструкцию к этой программе, всё интуитивно понятно: File -> Open, выбираем память перевода. В верхней части программы оригинал и перевод, в нижней — список всех сегментов.

Через File -> TM Properties можно изменить свойства памяти перевода, такие как языковые пары, кодировку, и прочее.

Как создать свою ТМ?

Допустим, у вас уже есть качественный двуязычный файл, и вы хотите использовать его в проекте как справочный материал. Если файл в формате Excel, где в одном столбце оригинальный текст, а в ячейках напротив — соответствующий перевод, сделать ТМ очень просто.

Существует три способа, которыми я пользуюсь:

  1. Бесплатная утилита Okapi Olifant
  2. Встроенный OmegaT Aligner
  3. Онлайн-сервис Translatum.gr (не нужно использовать; создаёт не полностью совместимые ТМ)

Olifant

Программа, о которой мы говорили в предыдущей главе, может не только открывать готовые TMX, но и создавать новые, а так же объединять несколько *.tmx в одну память.

Установите и запустите Olifant, нажмите File -> New и выберите язык исходника и язык перевода. Теперь добавим в новую память двуязычные сегменты: File -> Import. Можно добавить файлы Wordfast, другие *.tmx или Tab-delimited files — другими словами, текстовый файл, где исходный фрагмент и его перевод разделены табуляцией.

Tab-delimited файл можно создать в MS Excel или Libre Office Calc. Для этого создайте таблицу с двумя столбцами. В первом вставьте исходный текст, в ячейках напротив во втором столбце — перевод.

Сохраните файл в формате Tab-delimited textMicrosoft Office), либо в Text CSV с параметрами Field delimiter = Tab, Character set = UTF-8 и Text delimiter = *пустой*, если вы используете Libre Office.

Когда импортируете все нужные фрагменты, просто сохраните через File -> Save As в формате TMX.

OmegaT Aligner

В отличие от Olifant, источником служит не таблица с двумя столбцами, а два независимых файла с идентичной структурой, но на разных языках. Чем сложнее форматирование и чем больше отличий, тем хуже будет результат автоматического сопоставления, но его можно подправить вручную внутри Aligner.

Запустите OmegaT, откройте Tools -> Align Files. Укажите языки оригинала и перевода, прикрепите файлы.

При необходимости можно убрать теги и изменить параметры сегментации. Нажмите Continue, и вы перейдёте к окну с ручной корректировкой сегментов: можно разбить, объединить или переместить сегменты вверх или вниз.

Когда всё выглядит хорошо, сохраните результат кнопкой Save TMX.

Translatum.gr (не используйте с OmegaT)

Работает аналогично Olifant, на входе нужно подать Excel-файл с двумя столбцами текста.

  1. Создайте новый файл Excel (обязательно *.xlsx)
  2. В первую колонку вставьте оригинальный текст, во вторую — перевод
    Не используйте форматирование, оно не сохранится
  3. Перейдите по ссылке конвертера
  4. Выберите созданный файл
  5. Укажите коды исходного и целевого языка
    Например, если у вас англо-русский текст, это будет EN-US и RU-RU
  6. Нажмите кнопку Submit
  7. Откроется страница, с которой вы сможете скачать архив с памятью перевода.

 

Чтобы использовать память перевода в проекте, распакуйте архив и поместите файл в папку проекта, поддиректория \tm\ (для отображения fuzzy matches) либо \tm\auto\ (для принудительного использования 100% совпадений).

Внимание!

При создании через Translatum есть баг с сегментами, где используются особые символы вроде «>», «<» и даже апострофов. Это создаёт проблемы в Fuzzy Match в OmegaT. Используйте конвертер Olifant, чтобы избежать подобных проблем.

Как посчитать объём проекта

Надо же сказать заказчикам, сколько вы возьмёте за перевод!

На самом деле, нет ничего проще. Откройте проект в OmegaT, перейдите в Tools -> Statistics.

Здесь вы найдёте исчерпывающую информацию о том, сколько слов и символов в файлах, как много здесь повторов, сколько уже переведено и сколько осталось перевести, и так далее.

К сожалению, калькулятора стоимости перевода в OmegaT нет, вам придётся посчитать всё самостоятельно.

Как объединить и разделить сегменты?

Бывает, что вы хотите объединить два сегмента в один, или наоборот, заставить конкретный сегмент разделиться на две части. Если проблема встречается с большим количеством сегментов в проекте, то стоит перенастроить правила сегментации. Если же нужно точечно объединить или разделить сегменты, воспользуйтесь специальным скриптом Merge or split segments:

  1. Установите скрипт
    Скачайте здесь, распакуйте в папку \scripts (в Windows это может быть С:\Program Files (x86)\OmegaT\scripts\)
  2. Сделайте правила сегментации Project Specific
    Project -> Properties -> Segmentation -> отметьте галочку Make the segmentation rules project specific
  3. Задайте скрипту кнопку
    Tools -> Scripting, в левой части окна найдите Merge or split segments, выделите его щелчком мыши, а затем нажмите правой кнопкой на одну из цифр в нижней части окна. Например, на единицу. И нажмите Add script.

Теперь вы можете объединять или разделять сегменты.

Объединение

  1. Найдите два сегмента, идущих друг за другом, которые вы хотите объединить;
  2. Перейдите к первому сегменту;
  3. Нажмите Tools -> 1. Merge or split segments

Программа покажет предупреждение с результатом объединения. Можете нажать ОК для объединения, или отменить действие.

Разделение

  1. Найдите сегмент, который вы хотите разделить;
  2. В исходном тексте сегмента (над переводом) выделите вторую половину текста (от середины и до самого конца), которую вы хотите сделать отдельным сегментов;
  3. Нажмите Tools -> 1. Merge or split segments

 

Программа покажет предупреждение с результатом разделения. Можете нажать ОК для разделения, или отменить действие.

Скрипт создаёт новое правило сегментации и применяет его к проекту. Скрипт очень далёк от идеала, и работает не всегда, но пока в OmegaT это единственный способ для точечного разделения/объединения сегментов.

Задавайте вопросы в комментариях, с радостью отвечу или дополню статью.

blog.wtigga.com — Заметки белого тигра

2 комментария

  • Влад

    Владимир, большое спасибо за Ваш труд! С удовольствием и пользой читаю и использую в своей деятельности.
    Вопрос: В Language Tools раздел Параметры, фильтр проверка Tags всегда выбрана и «засерена». Отключить невозможно. Может быть, это к лучшему и так и задумано?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *