10 новых языков для Perspective API

Jigsaw работает над защитой голоса в Интернете с момента нашего основания шесть лет назад. В основе этих усилий лежит наша работа по поддержке безопасного онлайн-общения без страха преследования, независимо от диалекта или языка происхождения. С этой целью мы запустили обнаружение токсичности Perspective API на десяти новых языках, чтобы помочь расширить диалоги, которые мы можем облегчить. Эта работа стала возможной благодаря появляющимся инновациям в языковых моделях, алгоритмах машинного обучения, которые распознают и генерируют человеческие языки на основе наборов текстовых данных.

Perspective используется сотнями платформ по всему миру для модерации комментариев, публикуемых их пользователями, включая Reddit, The New York Times, Wall Street Journal, Le Monde, El Pais, Disqus, Coral и OpenWeb. Наши партнеры по публикациям и платформам помогают нам тестировать и повышать производительность наших алгоритмов, предоставляя данные, такие как примеры токсичных комментариев, с которыми они сталкиваются в Интернете, и делясь отзывами о том, как можно улучшить технологию. Более 400 партнеров ежедневно используют Perspective, звонят в наш API более 600 миллионов раз в день и могут поддерживать инструмент на английском, французском, немецком, итальянском, португальском, русском и испанском языках. Десять новых языков, которые мы добавили, охватывают весь мир и включают арабский, китайский (упрощенный), чешский, голландский, индонезийский, японский, корейский, польский, хинди и хинглиш (смесь английского и хинди, транслитерированная с использованием латинских символов).

В частности, мы сотрудничали с Al Jazeera в разработке модели арабского языка. «Мы очень рады сотрудничать с Jigsaw для решения одной из самых больших социальных проблем нашего времени — решения проблемы онлайн-токсичности и превращения социальных сетей в оружие», — говорит Дэвид Хостеттер, технический директор Al Jazeera Digital. «Мы будем использовать эти технологии в наших собственных брендах, чтобы обеспечить соблюдение наших стандартов и лучших практик, а также помочь выполнить нашу миссию — быть голосом безгласных во всем мире».

В предыдущих итерациях Perspective наша технология опиралась на передовые сверточные нейронные сети, тип языковой модели, недостаточно большой для одновременной обработки более чем одного языка, что требовало от наших инженеров создания одна модель на каждый язык. Предварительно обученные языковые модели — это недавняя инновация, которая может обрабатывать большие наборы данных и, следовательно, анализировать несколько языков одновременно. Эти модели требуют меньше данных для каждого отдельного языка, при этом понятия одного языка вносят свой вклад в понятия других языков, даже если они не происходят из одного и того же корневого языка.

Вскоре в ходе первоначальных тестов мы поняли, что не сможем предоставить преимущества этих моделей нашим пользователям, поскольку они слишком велики и слишком медленны для работы в нашем API. Мы также определили, что это было дорого в вычислительном отношении — требовало больше времени, памяти и мощных компьютеров — что угрожало сделать Perspective неработоспособной, особенно для случаев использования в реальном времени, таких как предоставление обратной связи в реальном времени авторам комментариев, чьи комментарии могут быть восприняты. как токсичный»

Два новых новшества от наших сотрудников в Google изменили наше игровое поле. Во-первых, дальнейшие усовершенствования в предварительно обученных больших языковых моделях, таких как Charformer, которые способны обобщать понятия, не ограничиваясь жесткими словарями, повышенная скорость и снижение вычислительных затрат. Во-вторых, инновации в обслуживании технологий и доступ к новому вычислительному оборудованию в Google позволили обслуживать гораздо более крупные предварительно обученные языковые модели.

В сотрудничестве с командами Google Research мы смогли создать новую и улучшенную архитектуру модели с помощью Charformer, что позволило нам обслуживать более крупные модели непосредственно с помощью новой технологии обслуживания, которая предоставляет эти модели достаточно быстро, чтобы удовлетворить потребности наших клиентов API. В дополнение к тому, что стало возможным десять новых языков, модели Charformer также превзошли наши предыдущие модели в более сложных типах разговоров, таких как комментарии, содержащие отрицание, идентификационные термины или враждебные орфографические ошибки.

Мы с нетерпением ждем возможности перевести больше наших существующих языков на модель Charformer и сделать еще больше доступных языков в будущем, чтобы как можно больше пользователей могли воспользоваться преимуществами этих новых инноваций в технологии общения.

Подробнее о тестировании и внедрении наших новых моделей можно узнать на Веб-сайте Perspective Developers.

Авторы: Тин Акоста, Алисса Лис, Даниэль Боркан, Джеффри Соренсен, Алисса Чваста, Роэль Торп, Люси Вассерман