В помощь переводчику: 10 советов по OmegaT

Как переводить документ в Word и не париться с форматированиемКак не переводить одно и то же? Как сохранять единообразие? Как не покупать дорогие программы? Как работать эффективно и быстро?

Если вы знакомы с Trados, MemoQ или CrowdIn, переходите сразу к инструкции по установке. Если же это новые для вас слова — добро пожаловать в прекрасный мир Computer Aided Translation. 

О переводе с помощью компьютера

Google Translate — машинный перевод, компьютер переводит за вас. CAT — принцип работы, когда компьютер только помогает в работе, автоматизируя рутинные процессы.

CAT-программы разделяют исходный текст на сегменты строки, предложения, параграфы или абзацы. Человек переводит сегмент один за другим, а перевод сохраняется в специальную базу данных — память перевода (translation memory, TM). Если переводчику встретится похожий сегмент, программа покажет подсказку или возможный перевод. А одинаковые сегменты программа может переводить сама.

Особенно хорошо CAT помогает в переводе инструкций, юридических документов, интерфейсов программ — там, где похожие формулировки встречаются очень часто. В художественном переводе помощь будет не так очевидна, но об этом позже.

Чем больше текстов по схожей тематике вы переводите, тем больше накапливается переводов в базе данных, чаще появляются подсказки. За годы может накопиться такая база, что в новом документе половина перевода будет готова “сама по себе”.

Когда перевод закончен, программа создаёт документ, идентичный оригиналу — сохраняя структуру и форматирование, но заменяя исходный текст на ваш перевод.

CAT-программы не изменяют исходный документ, поэтому необратимо испортить документ невозможно. На выходе будет полностью переведённый файл.

Какие бывают CAT-программы?

Разные. Trados, MemoQ — дорогие корпоративные комплексы, устанавливаются на компьютер. CrowdIn, Tolmach и другие — работают прямо в браузере. Как правило, всё стоит денег, либо есть ограничения по объёму проектов.

Но не всё так плохо: я уже лет восемь пользуюсь OmegaT, бесплатной программой с открытым исходным кодом, которая работает на Windows, Mac и Linux-системах и постоянно совершенствуется сообществом. Работаю в ней с китайским, английским и русским языками.

Что умеет OmegaT?

OmegaT
www.omegat.org
Freeware (GPLv3), open source
Windows, macOS, Linux

Умеет всё, что описано в первой главе — помогать переводчику в работе, и разные другие мелочи.

Форматы файлов

  • Microsoft Word, Excel, PowerPoint (только новые .xlsx, .docx и *.pptx, старые нужно сначала сконвертировать)
  • OpenOffice .ods, .odt и прочие
  • Текстовые файлы .txt, .rtf
  • Текстовые файлы структуры key=value (*.ini и подобные)
  • HTML
  • Файлы с XML-структурой (можно настроить самому)
  • И многие другие.

Языки
Любые. Практически всё, что есть в Unicode.
Для редких языков может понадобиться корректировка правил сегментирования, но всё решается.


Я не буду пересказывать инструкцию. Она полная и содержательная, и ознакомиться с ней очень важно. Дальше будут лишь основные операции с программой, которые помогут начать работу.


Установка

Скачайте дистрибутив с сайта omegat.org. Я буду использовать англоязычную версию 4.1.1 ветки Latest для Windows. Для запуска требуется Java. Если не уверены, есть ли она у вас, качайте версию с пометкой JRE. Не пугайтесь надписи Beta, программа работает более чем стабильно.

Проверка правописания

После установки программа готова к работе, но по-умолчанию не хватает проверки орфографии.

  1. Запускаем OmegaT
  2. Переходим в Options -> Preferences -> Spellchecker
  3. Ставим галку Automatically check the spelling of text
  4. Нажимаем Install new dictionary
  5. Выбираем язык (например, ru_RU для русского), нажимаем Install
  6. Жмём Close. В списке видим русский язык.
  7. Выходим из настроек.

Как создать проект

OmegaT работает не с отдельными файлами, а с “проектами”. Проект — набор папок с определённой структурой. Чтобы перевести файл, нужно создать проект, а потом добавить туда файл.

  1. Запускаем OmegaT
  2. Project -> New, выбираем место для сохранения и имя проекта. Я рекомендую давать проектам осмысленные имена и указывать в них языковую пару. Например, Test-Project_EN-RU.
  3. В появившемся окне укажите языковую пару
    Source Files Language — язык, с которого вы переводите; Target Files Language — язык, на который вы переводите. Указывать нужно в двух- или четырёх-буквенном коде. Например, RU — русский язык, а RU-RU и RU-BY — уточнение, что это русский из РФ и русский из Белорусии. Чтобы работала проверка правописания, код должен совпадать с кодом, указанным в настройках орфографии (если в орфографии установлен RU-RU, а в проекте будет RU, то проверка работать не будет).
  4. Ниже отметьте галочки Enable Sentence-level Segmenting (делить сегменты по предложениям, а не по абзацам) и Auto-propagation of Translations (подставлять переводы автоматически). Галочку Remove Tags (убирать теги) лучше снять, я объясню её работу позже.
  5. Нажимаем ОК.

Что это за папки?

Внутри папки проекта есть несколько под-директорий:

  • dictionary — можно добавить словари в формате StarDict; функция довольно бесполезная.
  • glossary — база терминов по проекту, об этом позже;
  • omegat — память перевода и резервные копии проекта;
  • source — папка с иходными файлами;
  • target — папка, в которой будут появляться переводы;
  • tm — папка для дополнительных памятей перевода, об этом позже.

а так же файл omegat.project с конфигурацией текущего проекта.

Как добавить файлы

Создав проект, вы увидите такое окно:

Нажмите Copy Files to Source Folder и выберите файлы, которые вы хотите перевести.
Файлы будут скопированы в папку \source\ только что созданного проекта. Вы можете добавить туда файлы вручную. Просто скопируйте файлы в \source\ через проводник.

Для примера я создал два файла — Excel и Word, на которых я буду показывать работу OmegaT.

Интерфейс

OmegaT запущена, файлы добавлены. Давайте посмотрим, как они выглядят в программе.

Вот исходный документ в Word. Здесь видны заголовок, абзацы, форматирование (жирный шрифт, ссылки, подчёркивания).

А вот как он выглядит в OmegaT:

Обратите внимание: весь текст разделён на предложения, форматирования не видно, появились какие-то теги серого цвета, а заголовок заголовок дублируется. В чём дело?

  1. Текст разделился на сегменты
    Каждое предолжение выделилось в отдельный сегмент. Правила сегментации можно настроить самостоятельно при необходимости.
  2. Форматирование в OmegaT не видно, его заменяют теги
    Они представляют собой сокращения тегов из Word, которые иначе могли выглядеть как <t>. Чтобы сохранить оригинальное форматирование, нужно оставлять эти теги как есть, вписывая перевод между тегами по той же логике, что и в оригинале.
    Опция Remove tags в настройках проекта убирает теги вместе с форматированием. Не рекомендуется использовать, если важно сохранить оригинальное форматирование.
  3. Заголовок не дублируется.
    На самом деле, сверху (в зелёном цвете) всегда отображается текст на исходном языке, изменить его нельзя. Под ним находится текстовое поле, куда по-умолчанию скопирован тот же самый текст. Его нужно удалить и вписать перевод.

Кроме того, в правой части программы есть ещё два сектора: Fuzzy Matches и Glossary (словарь проекта).

Fuzzy Matches (нечёткие совпадения) — результаты поиска по базе данных проекта. Там будут отображаться подсказки по переводу, основанные на ваших предыдущих переводах.

Glossary (словарь проекта) — результат поиска по глоссарию, который вы составляете самостоятельно. В отличие от памяти перевода, это не готовый текст, а лишь подсказки по определённым терминам. Это мощный инструмент, который помогает сохранять единообразие в терминологии.

Как переводить

  1. Дважды кликните на сегмент для перевода
    Под оригинальным текстом появится редактируемая текстовая строка, курсор будет в её начале, а в строке будет продублирован оригинальный текст.
  2. Впишите свой перевод
  3. Нажмите Enter
    При нажатии перевод сохранится, а курсор перейдёт к следующему сегменту.

Повторяйте, пока не закончите документ. В любой момент можно вернуться к предыдущему сегменту, просто дважды щёлкнув на него.

В правом нижнем углу есть удобный индикатор прогресса. Кликните на него, чтобы переключить режим просмотра.

 

Текущий файл: % сегментов переведено (сегментов осталось) / Проект: % сегментов переведено (сегментов осталось), общее число сегментов.

В этой строке указано, что в текущем файле переведено 5,8% уникальных сегментов, осталось перевести ещё 1382. А суммарно в проекте переведено 63% сегментов, осталось 1756, а их общее число в проекте — 5979.

 

Файл: переведено уникальных сегментов / общее число уникальных сегментов (проект: переведено уникальных сегментов / всего уникальных сегментов, всего сегментов в проекте)

Во втором режиме на иллюстрации сказано, что в файле из 1592 уникальных сегментов переведено 146, а в проекте из 4748 уникальных сегментов переведено 2992. Всего сегментов (включая повторы) — 5979.

Цифры 14/14 в конце не относятся к счётчику проекта. Это — индикатор длины сегмента с которым вы работаете. Он говорит, что в оригинале было 14 символов, и в переводе их тоже 14. Эта функция полезна в тех случаях, когда нужно строго соблюдать длину строки, например при переводе интерфейса программ.

Нечёткие совпадения Fuzzy Matches

Самый главный инструмент любого CAT-приложения, ради этого они и существуют.
Объясню на примере:

В документе-образце первое предложение очень похоже на четвёртое. Я шёл по порядку и перевёл первое предложение. Когда же я дошёл до четвёртого, программа сразу же показала нечёткое совпадение:

Посмотрите внимательно на панель совпадений:

В верхней части отображается текст на исходном языке, который был сохранён в памяти перевода. Синим цветом выделны слова, которые присутствуют в памяти перевода, но отсутствуют в текущем предложении (с которым сравнивается совпадение), зелёным — слова, расположенные рядом с недостающими частями.

Ниже будет перевод, сохранённый в памяти. Если нажать Ctrl+R, то он скопируется в поле для перевода.

Ещё ниже указаны три числа в процентах. Они означают степень совпадения между предложением и памятью перевода. Подробнее о механизме вычислений можно прочитать в справке к OmegaT.

Автоматический перевод одинаковых сегментов

Конечно, если механизм Fuzzy Match найдёт 100% совпадение, он может вставить его самостоятельно. Для примера возьмём ещё один файл, на этот раз в Excel. Примерно в таком виде нередко приходит заказ на перевод интерфейса какого-нибудь сайта или программы.

А вот как файл выглядит в OmegaT:

Обратите внимание, что в оригинале было шесть строчек See All. Программа убрала все дубликаты, оставив лишь одну строчку. Достаточно перевести её одну, и остальные сегменты тоже переведутся.

Глоссарий

Глоссарий работает очень просто. Сначала вы добавляете в него слова (оригинал и перевод). Теперь, когда слово встретится в тексте, в окошке Glossary сразу же отобразится подсказка.

Таким образом, когда в новом предложении появился какой-то термин, вы сразу будете знать, как именно следует его переводить. Например, если при переводе интерфейса программы всегда нужно писать “Хорошо” вместо “ОК”, достаточно добавить в словарь слово “ОК” с переводом “Хорошо”. Добавив несколько сотен слов в проект, вы значительно облегчите себе жизнь.

Чтобы добавить слово в глоссарий, выделите его, щёлкните правой кнопкой и выберите Add Glossary Entry.

Кроме того, слова можно добавить массово в файл \glossary\glossary.txt в формате “оригинал табуляция перевод” (подойдёт таблица в Excel, сохранённая в формате tab-delimited *.csv)

Как сохранить

Пункт Project -> Save означает “сохранение проекта”, т.е. запись всех переводов в файл базы данных. А чтобы получить готовый файл, нужно выбрать Project -> Create translated documents.

По этой команде OmegaT создаст новый файл в папке \target\ с тем же именем, что и оригинал, а весь текст поменяет на перевод. Если какие-то сегменты вы не перевели, то в файле на их месте будет оригинальный текст.

Продолжение

В следующей части я расскажу о том,  как подключить машинный перевод, проверить текст на ошибки, как создать свою ТМ и какие не очевидные проблемы могут возникнуть в работе с программой.

blog.wtigga.com — Заметки белого тигра

11 комментариев

  • Algae

    Какой огромный труд! Спасибо большое! Читала и понимала, что это должно быть в программе обучения в университетах.

    • WTiggA

      Я тоже этому удивлялся в своё время. Это как архитекторов учить пять лет на кульмане рисовать, чтобы потом они не понимали, чёйто их на работу не берут.

      Надеюсь материал пригодится 🙂

  • Nana

    Владимир师傅, добрый день! Спасибо за полезную информацию, лично для меня Вы открыли Америку, поэтому заранее прощу прощения за глупый вопрос: если я перевожу на работе, а также бывает, что и дома за ноутбуком, то при установке данного софта на оба компьютера, можно ли как-то синхронизировать данные (прощу прощения, если употребила неверное слово, я в этом деле абориген), чтобы была единая база как глоссария, так и ТМ. Или это невозможно?

    • WTiggA

      Если работаете вы одни, но на разных устройствах, то подойдёт любой сервис для синхронизации локальных папок: dropbox, например, или мой любимый resilio (https://blog.wtigga.com/photo-backup-sync/). Нужно просто синхронизировать папку с проектом между устройствами, почти все настройки хранятся там.

      Если же над проектом работает несколько человек одновременно, то настройка будет посложнее, я как раз собираюсь об этом написать статейку.

  • Сергей

    Владимир, а скажите: вот вы не один год пользуетесь конкретной программой, которая вас устроила. И очень увлекательно её показали. А с упомянутыми платными “корпоративными” аналогами вы работали? Хочу немного сократить себе выбор, чтобы понять, есть смысл за них платить или нет.

    • WTiggA

      Да, я пользовался другими программами, когда это было требованием заказчика. Например, с одной компанией работал только в MemoQ — они предоставляли лицензию, а синхронизация велась с сервером компании, потому что над проектом работали другие переводчики.

      Для работы в одиночку такие программы, по моему мнению, overkill. Большую часть функций умеет та же OmegaT. Если же заказчик требует работать в какой-то конкретной программе, то зачастую он и лицензию предоставит, покупать самому ничего не придётся. А познакомившись с одним CAT, научиться работать в другом дело одного вечера, главное понять принцип.

      Сейчас есть много online-решений, типа smartcat или tolma.ch, но когда интернет нестабильный (как в Китае), пользоваться ими затруднительно.

  • Сергей

    Владимир, у меня ещё вопрос. А по вашему опыту, большие юридические тексты вы бы стали переводить в Омеге? Или всё-таки для этого лучше брать кого-то повыше?

    • WTiggA

      А какая разница? У других платных программ может быть больше плюшек, типа предпросмотр документа real time, более приятный интерфейс и т.п., но принципиально разницы никакой нет.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *