заголовок статьи про плохие переводы

Про переводы на AliExpress

В прошлом месяце я написал статью про машинный перевод названий для корпоративного блога AliExpress на Habr под названием «Экзорцист со светоотражающим звуком на солнечной батарее: что не так с переводами на AliExpress«. Хотите узнать, что в Али делают, чтобы было лучше? 🙂

AliExpress известен своими странными переводами. Сколько шуток было на эту тему, даже от нас самих. И сторонний наблюдатель восклицает: «Ну сделайте уже нормально!»; продвинутый технарь ухмыляется: «Не могут нормальный Гугл Транслейт прикрутить»; а профессионалы из области машинного перевода наперебой советуют «кастомизированный движок» или MTPE. Все они и правы, и неправы одновременно.

В этой статье я расскажу:

  • откуда в AliExpress берутся тексты, на какие виды делятся и кто за них отвечает;
  • почему переводят не с китайского, а виноват всё равно он;
  • что такое Alibaba Translate и чем он лучше Google Translate или «Яндекс.Переводчика»;
  • какие стратегии применяются для улучшения переводов и что ещё предстоит сделать.

Но для того чтобы понять сегодняшние проблемы, придется зайти издалека.

TL;DR

Если вам некогда читать, то вот краткое содержание статьи:

  1. Интерфейсы и маркетинг не переводятся, а пишутся с чистого листа (но не всегда);
  2. 100 500 миллионов товаров машина переводит с английского на русский;
  3. Английские описания товаров пишут китайские продавцы по китайским лекалам с кучей ошибок, возможно, пользуясь автопереводчиком.;
  4. Если переводить «как есть», получится лажа, поэтому учимся убирать лишнее и перестраивать названия;
  5. А ещё мы работаем над обучением по шаблонам и автоматическим распознаванием.

Историческая справка

Чтобы понять, в чём суть проблемы, нужно определить её истоки. Что такое «алик» и откуда он взялся? Супер-коротко от истоков до наших дней.

В 1999 году в Китае появилась площадка Alibaba.com, предназначенная для того, чтобы продавать с китайских заводов за границу оптом. C 2003-го Alibaba развивала маркетплейс Taobao, направленный исключительно на внутренний рынок.

В 2010 году из Alibaba.com выделился маркетплейс AliExpress.com (название намекает: Alibaba Express). На нём появились и оптовики, которые решили торговать мелким оптом и в розницу, и розничные продавцы с Taobao, которые теперь могли продавать свои товары за границу. Важный момент: AliExpress — это маркетплейс, где продавцы сами определяют, как выглядит их товар, и самостоятельно создают его описание.

В конце 2019 года Alibaba Group и Mail.ru создали совместное предприятие “AliExpress Россия”, и многие процессы разработки и маркетинга локализовались в Москве.

Сегодня на AliExpress работает 225 тысяч продавцов (из которых 45 тысяч российских), а активно продающихся товаров — более 140 млн наименований. У каждого товара есть название, параметры и описание, т. е. очень много разного текста.

Кто за что отвечает?

Далеко не все тексты переводятся автоматически — как по техническим, так и по идеологическим причинам. У разных текстов разные источники происхождения, и за них отвечают принципиально разные команды.

Интерфейс

Кнопки, менюшки, подсказки — этим занимаются UX-писатели из команды Content Strategy, как в офисе Alibaba Group в Ханчжоу, так и в московском офисе AliExpress Россия. Эти тексты пишутся вручную. Машинный перевод использовался на ранних этапах локализации сайта, когда просто не было иностранных сотрудников, и он ещё изредка может проскакивать на странице и в приложении. Новые функции либо переводятся с английского, либо пишутся сразу на русском.

На этом скриншоте весь текст относится к интерфейсу — всё во власти AliExpress.
На этом скриншоте весь текст относится к интерфейсу — всё во власти AliExpress.

Маркетинг

Баннеры, правила промоакций, игры, почтовая рассылка — в ведении креативной команды в составе Content Strategy. Большая часть русских текстов пишется в российской компании живыми людьми (есть ещё какое-то количество текстов, автоматически генерируемые баннеры и т. п., создаваемых глобальной командой в Ханчжоу для всех стран присутствия AliExpress ).

Дерево категорий и фильтры поиска

Достались в наследство от Alibaba.com, претерпели множество итераций по улучшению переводов. Находятся в ведении категорийных менеджеров, но до сих пор проскальзывают артефакты старого машинного перевода.

Здесь AliExpress контролирует текст частично и есть много легаси, тесно связанного с глобальной площадкой.
Здесь AliExpress контролирует текст частично и есть много легаси, тесно связанного с глобальной площадкой.

Витрины продавцов

Или «Магазины» (навигация внутри магазина, баннеры, прочая информация) — всё это пишет сам продавец так, как ему покажется разумным. В отличие от других маркетплейсов в России, на AliExpress оформлять свой магазин можно в свободной форме и нет добровольно-принудительного для продавцов участия в распродажах со скидками. Инструменты для полноценной локализации у продавца ограничены, поэтому часто можно видеть полностью англоязычную навигацию. Машинный перевод не используется.

В стандартном меню «Товары» есть разделы, которые пишет сам продавец — в силу своих языковых умений.
В стандартном меню «Товары» есть разделы, которые пишет сам продавец — в силу своих языковых умений.

Информация о товаре

Название товара, варианты комплектации, параметры и текст с подробным описанием — полностью во власти продавца. Он может писать так, как ему кажется правильным. Именно к этому тексту применяется машинный перевод «на лету».

Тут начинается владение продавца: текст на фотографии товара, варианты комплектов, название товара, разделы магазина — всё это продавец волен писать так, как ему кажется правильным.
Тут начинается владение продавца: текст на фотографии товара, варианты комплектов, название товара, разделы магазина — всё это продавец волен писать так, как ему кажется правильным.
И наконец, полное раздолье для продавца, включая «Категории магазина» слева. Текст на рыжем фоне вообще корейский, но кого это волнует?
И наконец, полное раздолье для продавца, включая «Категории магазина» слева. Текст на рыжем фоне вообще корейский, но кого это волнует?

Информация о товаре

Как вы поняли, больше всего «машинному переводу» подвержены названия и описания товаров. Их много, их пишут китайские продавцы, их нужно показывать на русском. Расскажу, как пишутся эти названия — и почему именно так.

Сложности китайского

Плотность информации в китайском языке очень высокая: язык стремится к двусложным словам, т. е. к двум иероглифам, а условный «корень» слова может выражаться одним символом. Оцените плотность информации в китайской типографии.

Газета «Женьминь Жибао» 2021 г. (слева) и 1950 г. (справа). Как видите, плотность информации за 70 лет не сильно изменилась. Сайты следуют тем же принципам.

В китайском нет пробелов. Знаки препинания (точки, запятые) появились в нём только в ХХ веке. Тогда же поменялось направление письма, пять тысяч лет сохранявшееся как «сверху вниз, справа налево» и превратившееся в строгое европейское «слева направо» (в Японии, например, сайты пишут слева направо, а книги, как древние китайцы, справа налево).

Структура названия

Название товара на AliExpress, как правило, очень длинное, хаотичное и похоже на SEO, т. е. продавец добавляет туда всё, что имеет хотя бы косвенное отношение к товару, из принципа «больше напишу — по большему количеству запросов покажусь».

Вот как выглядит название типичного товара на Taobao:

Ссылка на оригинал, если интересно.

Из чего состоит название на скриншоте?

【立省100元 套餐1赠耳机】OPPO A72 5G双模90Hz大内存大电量全面屏学生老人智能拍照全网通手机旗舰正品

  • 立省100元 — «Сэкономь 100 юаней»
  • 套餐1 — «Комплект № 1»
  • 赠耳机 — «Наушники в подарок»
  • 5G双模 — «Двухдиапазонный 5G»
  • 大内存 — «Большое хранилище (ROM)»
  • 大电量 — «Аккумулятор большой ёмкости»
  • 全面屏 — «Безрамочный экран»
  • 学生老人 — «Для студентов и пенсионеров»
  • 智能拍照 — «Умная фотография»
  • 全网通 — «Поддержка всех сотовых операторов»
  • 旗舰 — «Флагманская модель»
  • 正品 — «Оригинальный (не поддельный)»

Из 61 знака в китайском названии получилось около 300 на русском — в пять раз больше оригинала, в два раза больше стандартного твита. И это «просто название»!

И даже эти лаконичные названия не влезают целиком в предусмотренные дизайном две строчки текста.
И даже эти лаконичные названия не влезают целиком в предусмотренные дизайном две строчки текста.

Покупателями в Китае это не воспринимается как информационная загруженность, потому что к ней привыкли и её ожидают увидеть. Исходя из этого проектируются интерфейсы и строятся поисковые алгоритмы.

Резюмируя: исторически китайские продавцы склонны к тому, чтобы давать в заголовке максимум информации.

А как на AliExpress?

Теперь представим, что этот же китайский продавец решил открыть магазин, чтобы продавать телефоны не только внутри Китая, но и за границу.

AliExpress не поддерживает названия на китайском. Продавцы обязаны ввести его на английском языке. Если продавец плохо владеет английским, то он открывает переводчик Baidu (ведь Google в Китае заблокирован) и получает…

Пример машинного перевода от Baidu — заменителя Google в китайском интернете.
Пример машинного перевода от Baidu — заменителя Google в китайском интернете.

И уже такой “английский” текст отправляется в карточку товара, где его ждёт новый машинный перевод.

Машинный перевод

В AliExpress уже не используют Google Translate. Во-первых, это чужая разработка, которая требует платы и получает очень много данных. Во-вторых, она разработана и натренирована на текстах общей тематики, без специфики e-commerce.

Вместо этого используется внутренняя разработка — Alibaba Translate.

Damo Academy

В Alibaba Group есть R&D подразделение под названием DAMO Academy, которое разрабатывает свой движок для машинного перевода. Его используют во множестве дочерних бизнесов — Alibaba.com, AliExpress, в логистическом операторе Cainiao и так далее.

В DAMO Academy работают лингвисты, математики и другие специалисты и учёные из связанных отраслей, чтобы делать движок именно для потребностей Alibaba — в первую очередь для сферы e-commerce.

Учёные, кстати, довольно серьёзные. Вот их работа о машинном обучении для нейролингвистического движка, а здесь — о получении информации для оптимизации переводов поисковых запросов. Осторожно: много формул.

Exploiting Neural Query Translation into Cross Lingual Information Retrieval

Alibaba Translate

Специализация движка для перевода очень важна. Google Translate, доступный широкой публике, не имеет кастомизации в зависимости от сферы применения, и его модель обучена на тех языковых корпусах, до которых разработчики смогли дотянуться.

В публичной версии Alibaba Translate, доступной на сайте, можно выбрать одну из моделей, в том числе e-commerce. Давайте сравним результаты.

Условно хороший английский текст с одного веб-сайта e-commerce 
Условно хороший английский текст с одного веб-сайта e-commerce 
Google Translate
Google Translate
Alibaba Translate
Alibaba Translate

Как видите, при адекватном исходном английском тексте результаты Alibaba Translate не хуже Google. Но если вместо хорошего английского текста на входе текст, написанный абы как, получаем привычную абракадабру. Типичный пример концепции garbage in, garbage out.

Один из множества смешных переводов на AliExpress, который уже и не выглядит таким смешным, когда понимаешь источник проблемы.
Один из множества смешных переводов на AliExpress, который уже и не выглядит таким смешным, когда понимаешь источник проблемы.

Как делаем лучше: пример

Чтобы названия и описания товаров были понятнее и красивее, мы работаем в нескольких направлениях.

Сокращение заголовков

Длинные названия товаров тупо не влезают в интерфейс. Особенно это заметно на мобильных устройствах.

В разных местах приложения влезает разное количество текста. И его всегда слишком много.
В разных местах приложения влезает разное количество текста. И его всегда слишком много.

Мы проводили исследования пользовательского поведения, по итогам которых установили, что в результатах поиска пользователи отдают предпочтение коротким и красивым названиям, а в карточке товара ожидают увидеть как можно больше информации. То есть нам нужно два разных названия, одно для мест с ограниченным пространством и другое для подробного описания.

Красиво в поиске, неинформативно на карточке товара.
Красиво в поиске, неинформативно на карточке товара.
Некрасиво в поиске, зато на карточке покупатель видит всё, что ожидает увидеть.
Некрасиво в поиске, зато на карточке покупатель видит всё, что ожидает увидеть.

Но заставить продавцов переписывать десятки и сотни миллионы товаров проблематично. Из-за количества продавцов, которых больше 200 тысяч, и товаров это достаточно инертная система.

Поэтому мы используем разные движки для перевода заголовков в разных местах приложения, предварительно обучая их на специально подготовленном датасете.

Сначала мы в AliExpress Россия формализируем «идеальное название» для выбранной категории товара и пишем шаблон. Затем отдаём набор реальных названий товаров для перевода специально обученным людям по этому шаблону. Полученный датасет применяем к движку, который использует его для товаров выбранной категории.

Вместо заключения

Мы активно занимаемся локализацией и адаптацией продуктов для русскоязычных пользователей – например, недавно выпустили обновленное мобильное приложение, активно стимулируем появление на площадке локальных продавцов. Поэтому естественно, что много делается и для того, чтобы переводы становились лучше. От этого выигрывают и покупатели, которые знают, чего ожидать, и продавцы, у которых растут продажи.

И только авторы смешных подборок на «Пикабу» огорчаются, ведь эпоха дурацких переводов подходит к концу. Даже для иллюстрации в этой статье пришлось долго перебирать каталог. Пишите в комментариях всё, что думаете. Попробуем ответить в пределах NDA.


Очень бы хотелось ответить на все комментарии с Хабра о том, что «русские названия никому не нужны», «сделайте переключатель языков», «у вас ничего не получается, зачем стараться», но в корпоративном блоге это делать не так просто, как мне хотелось бы. Да и аудитория на Хабре весьма специфична. Когда-нибудь, после AliExpress, отвечу на всё. 🙂

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *