На ACM CHI 2022 Аракава (Университет Карнеги-Меллона) и Якура (Университет Цукуба) в сотрудничестве с Dr. Кобаяши (Университет Тохоку), опубликовал статью под названием VocanEncounter: изучение словарного запаса на основе NMT путем внедрения компьютерных вариантов использования иностранных слов в повседневную жизнь пользователей. В этой статье мы хотели бы кратко представить содержание статьи.



1. История

Изучение словарного запаса является одним из основных этапов изучения иностранного языка. Многие люди, вероятно, имели опыт запоминания иностранных слов с помощью словарей или карточек со словами. Однако эти подходы предполагают, что люди будут находить время для изучения по собственной инициативе и прилагать усилия для запоминания слов. Поэтому, если люди заняты или имеют низкую мотивацию, им будет сложно продолжать обучение [1]. Кроме того, поскольку такие материалы, как словарные карточки, часто требуют, чтобы учащиеся запоминали значения слов во взаимно однозначном соответствии между иностранным языком и их родным языком, даже после того, как человек запомнил значения слов, им все еще трудно чтобы понять, как на самом деле используются слова, и они могут быть не в состоянии свободно использовать слова, которые они выучили [2].

Мы предложили систему, которая использует растущие исследования в области обработки естественного языка, особенно машинного перевода, для более эффективного изучения словарного запаса, и продемонстрировали ее эффективность в экспериментах с пользователями.

2. Сопутствующая работа

Было проведено много исследований по изучению словарного запаса в области HCI. Прошлые исследования можно условно разделить на два подхода. Первый называется микрообучениеg, при котором компьютер предоставляет пользователям возможность изучить словарный запас в различных повседневных ситуациях, чтобы решить проблему. о «необходимости тратить время». Например, был предложен метод, который представляет викторину по лексике иностранного языка через уведомление на смартфоне [3].

Другой подход называется обучение на основе использования. Этот подход учитывает важность изучения словарного запаса наряду с его использованием в реальном мире, чтобы иметь возможность использовать выученный словарный запас. Например, предлагается метод поиска в Интернете новостных статей, содержащих слова, которые пользователь хочет выучить, и представления их пользователю, чтобы пользователь мог изучить использование иностранных слов при чтении новостей [4].

Несмотря на то, что эти два подхода доказали свою эффективность, не существует системы, которая могла бы одновременно использовать преимущества обоих подходов. Это связано с тем, что простое представление использования слова в уведомлении на смартфоне, скорее всего, сделает менее мотивированного пользователя равнодушным и легко проигнорирует систему. Другими словами, нам нужно подумать о том, как облегчить проблемы пользователей, одновременно предоставляя возможности обучения для реального использования.

Поэтому мы разработали вмешательство, которое отражает контекст (ситуацию) пользователя, представляя использование иностранных слов в контексте повседневной жизни пользователя, тем самым повышая эффективность обучения.

3. Предлагаемый метод: VocabEncounter

Мы назвали разработанную нами систему VocabEncounter (встреча со словарным запасом). Система автоматически переводит часть предложения с родного языка пользователя на иностранный и создает ситуацию, когда предложение демонстрирует использование иностранного слова, которое пользователь хочет выучить. Другими словами, VocabEncounter позволяет пользователю встраивать употребление слова, которое он хочет выучить, в текст на своем родном языке, например, в новостную статью, сообщение в социальной сети или рекламный щит на улице.

Ключевым моментом здесь является то, что он использует предложения, с которыми пользователь регулярно сталкивается для изучения словарного запаса. Таким образом, нет необходимости тратить время на изучение словарного запаса; использование слов, которые они хотят выучить, будет появляться в новостных статьях или на веб-сайтах, которые они читают, что позволяет им учиться, сохраняя при этом интерес.

Однако этот метод требует некоторых приспособлений. Например, у каждого пользователя есть свой текст, с которым он регулярно знакомится, а также свой словарный запас, который нужно запомнить. Таким образом, необходимо хорошо выбрать, какую часть текста использовать для изучения словарного запаса. Кроме того, если часть, переведенная на иностранный язык, слишком длинная или если встроенное использование отвлекает от значения исходного текста на родном языке, это будет препятствовать эффекту обучения.

Чтобы решить эти проблемы, VocabEncounter использует несколько методов обработки естественного языка, таких как машинный перевод с ограниченным декодированием и многоязычное встраивание слов. Подробности см. в документе.

4. Эксперименты и результаты

В наших экспериментах мы сначала оценивали качество переведенных предложений, содержащих иностранные слова для запоминания, которые были сгенерированы VocabEncounter. С помощью краудсорсинга оценка качества проводилась с двух позиций: естественности предложений и степени, в которой они отражают смысл исходных предложений. В результате мы подтвердили, что предложения, сгенерированные VocabEncounter, так же точны, как и предложения, сгенерированные человеком-переводчиком. Некоторые примеры полученных переводов показаны ниже.

Исходное предложение: もっと前向きな内容になるはずだったの
Слово, которое нужно запомнить: оптимистичный
Сгенерированный перевод: Предполагалось, что это будет более оптимистичный контент.

Исходное предложение: 自分にぴったりの商品を探し出すことができ
Слово, которое нужно запомнить: получить
Сгенерированное использование: Вы можете получить идеальный предмет для себя.

Убедившись в том, что VocabEncounter может отображать употребления приемлемого качества для изучения словарного запаса, мы провели эксперимент, чтобы выяснить, действительно ли встреча с такими употреблениями в повседневной жизни облегчит изучение словарного запаса. В этом втором эксперименте мы попросили участников провести несколько дней, используя VocabEncounter, и оценили его обучающий эффект с помощью словарного теста. Результаты подтвердили, что предложенный подход позволит пользователям учиться более эффективно, не затрачивая время исключительно на изучение словарного запаса. Мы также подтвердили, что пользовательский опыт был благоприятным.

5. Вывод

Подводя итог, в этой статье сделан следующий вклад.

・Мы предложили VocabEncounter, систему, которая надлежащим образом инкапсулирует иностранные слова для заучивания в виде фраз в тексте, который пользователь регулярно видит.
・Наши эксперименты подтвердили, что VocabEncounter повышает эффективность изучения словарного запаса и хорошо воспринимается пользователями.
・Мы реализовали несколько приложений на основе предложенного метода и представили новую парадигму изучения словарного запаса, в которой используются генеративные модели машинного обучения.

Для будущей работы мы хотели бы включить настройку степени, в которой система переводит предложения в зависимости от ситуации пользователя. Текущий алгоритм проверяет качество сгенерированных предложений и представляет их пользователю, если их качество выше определенного порога. Здесь установка высокого порога позволит пользователю столкнуться только с использованием слов высокого качества, в то время как установка низкого порога позволит пользователю столкнуться со многими употреблениями. Важно отметить, что предоставление людям возможности контролировать вмешательства на основе ИИ является одним из ключевых принципов взаимодействия человека и ИИ [5].

6. Часто задаваемые вопросы

Q1: Предполагает ли текущий подход к представлению предложений на иностранном языке, что пользователь немного знает этот язык?

А1: Да. В нашей оценке мы экспериментировали с участниками с уровнем B2 CEFR, международным показателем владения языком. Это уровень, на котором человек может общаться на языке по широкому кругу тем, и представляет собой уровень немного выше среднего японского.

Однако мы считаем, что фактический уровень владения языком, необходимый для использования VocabEncounter, менее требователен. В частности, функция VocabEncounter, позволяющая пользователю навести курсор на переведенное предложение, чтобы увидеть исходное предложение и использованные слова, снижает требуемые знания, и мы ожидаем, что даже начинающие учащиеся смогут ее использовать.

Q2: Как насчет конфиденциальности пользователей?

A2: Мы считаем, что соображения конфиденциальности необходимы, поскольку система получает доступ к тексту, с которым сталкиваются пользователи, например к содержимому веб-сайта. Здесь VocabEncounter может быть реализован на стороне клиента, а с помощью технологии машинного перевода с учетом конфиденциальности может быть реализована достоверность текста [6].

Q3. Можно ли инкапсулировать любое слово в текст, с которым пользователь сталкивается в своей повседневной жизни?

Частота, с которой иностранное слово фактически представлено в виде переведенных употреблений, может варьироваться. Однако мы считаем, что эту частоту можно оценить заранее, проанализировав содержание и тенденции текстов, с которыми пользователи сталкиваются на регулярной основе. Если есть слова, которые с меньшей вероятностью будут представлены VocanEncounter, мы можем объединить наш подход с другими методами обучения, такими как уведомление пользователей о необходимости сознательного запоминания их по отдельности.

Рекомендации

[1] Г. Гасслер и др. 2004. Интегрированное микрообучение – обзор основного метода и первых результатов. Взаимодействовать. вычисл. Aided Learn., 4, 1–7.
[2] Т. С. Браун и Ф. Л. Перри. 1991. Сравнение трех стратегий обучения для приобретения словарного запаса ESL. TESOL Q., 25, 4, 655–670.
[3] D. Edge, et al. 2011. MicroMandarin: Мобильное изучение языков в контексте. проц. ACM CHI, 3169–3178.
[4] M. F. Lungu, et al. 2018. Как мы можем учиться: Интернет как персонализированный учебник по языку. проц. ACM CHI, 338.
[5] S. Amershi, et al. 2019. Руководство по взаимодействию человека и ИИ. проц. ACM CHI, 3.
[6] Q. Feng, et al. 2020. SecureNLP: система для многосторонней обработки естественного языка с сохранением конфиденциальности. IEEE транс. Инф. Forensics Secur., 15, 3709–3721.