Это вопрос, который я постоянно задаю себе с тех пор, как начал изучать иностранные языки. Мой родной язык - корейский, и вскоре после того, как я начал изучать английский, я обнаружил, что есть корейские выражения, которые не имеют эквивалента английского языка, а имеют лишь крохотные нюансы.

Одним из примеров этого является выражение «수고 하세요!» (soogohaseyo), которое часто произносится, когда вы покидаете место раньше других. Буквально его можно перевести как «Работай усердно!», но на самом деле оно выражает чувство сочувствия к возможным трудностям другого человека в будущем и пожелание, чтобы он успешно их преодолел. Возможно, лучшим вариантом этого перевода будет «Береги себя!».

Почему корейцы выражают такое чувство, когда желают кому-то просто «до свидания»? И почему англоговорящие люди выражают прощание иначе, чем корейцы? Это из-за культуры? Может ли это быть из-за того, как структурирован каждый язык? Это заставляет меня задуматься еще глубже: формирует ли язык то, как мы думаем, или все наоборот? Можно ли теоретически описать лингвистически абстрактную сущность?

Летом 2018 года мы с коллегами запустили проект biaslyAI в летней лаборатории AI4Good. Впервые я узнал, как можно предвзято относиться к машинам, основываясь на данных, на которых они обучаются. С тех пор моя команда и я много работали, чтобы понять, что делает текст смещенным, чтобы иметь возможность построить более чистый набор данных. Одна вещь, которую мы осознаем все больше и больше, - это то, что каждый имеет очень субъективное мнение о том, что может быть приговором с гендерной предвзятостью. Более того, нет единого мнения о том, как количественно оценить эту качественную концепцию «предвзятости» у разных специалистов в смежных областях.

Я изучаю лингвистику и информатику, и я подумал, что было бы неплохо написать в блоге сообщение о том, как язык изучается и понимается в лингвистике, чтобы поднять открытый вопрос и найти адекватный способ связи с машинным обучением.

Лингвистика по своей сути является междисциплинарной областью. Некоторые говорят, что это подраздел социальных наук, а другие говорят, что это такая же формальная наука, как математика. Такие исследования, как фонетика или нейролингвистика, больше относятся к естественным наукам, а не к первым двум. Я говорю, что всего понемногу, поскольку каждое подразделение лингвистики подходит к языку по-разному, уделяя больше внимания одной определенной области, точно так же, как говорящие на английском и корейском языках по-разному выражают прощание.

Социолингвистика (социальные науки)

Социолингвистика - это описательное исследование влияния всех без исключения аспектов общества. Он изучает, как языковые разновидности различаются между группами, разделенными определенными социальными переменными (например, этнической принадлежностью, религией, статусом, полом, уровнем образования, возрастом и т. Д.), И как создание и соблюдение этих правил используются для классификации людей по социальным или социально-экономическим признакам классы. Что касается гендерных тем, ниже приведены некоторые примеры исследований, проводимых в данной области:

  • Когда произносится та же самая точная информация, как люди неявно предполагают социально-экономический класс человека по полу?
  • Какой пол придерживается более стандартной письменной формы английского языка?
  • Какой пол разговорчивее вне зависимости от стереотипов?
  • Какие разговорные реплики используются представителями каждого пола и как они воспринимаются в социальном контексте?

Синтаксис и семантика (формальные науки)

С другой стороны, синтаксис и семантика используют другой подход к описанию языка. Синтаксис - это изучение структуры и формирования предложений. Это набор правил, принципов и процессов, управляющих структурой текста. С другой стороны, семантика - это изучение значения в языке, и она тесно связана с предметами представления, ссылки и обозначения.

В синтаксисе язык анализируется с помощью деревьев синтаксического анализа, которые могут описывать составляющие слов в предложении. В семантике слова и их отношения фиксируются с помощью логических форм и лямбда-исчисления. Синтаксис и семантика часто обсуждаются вместе для описания взаимодействия между принципами синтаксической организации и принципами семантической интерпретации. Ниже приведен пример анализа синтаксически-семантического интерфейса предложения «Джон только представил Билла Сью».

Как гендер анализируется в синтаксисе и семантике? Если бы мы использовали семантическую нотацию, как на диаграмме выше, «гендерная предвзятость» была бы зафиксирована с помощью такой записи, как ∃ x: гендерно-смещенная (x) (существует некоторая сущность, которая гендерно-предвзятый) в сочетании с некоторыми другими объектами, содержащими контекстную информацию. Однако это делает сильное предположение, что человек, анализирующий предложение, уже знает, как определить логическую истинность гендерной предвзятости в тексте.

Кроме того, некоторые специалисты по синтаксису и семантике используют тематические роли (также известные как семантические роли) для изучения пола и предвзятости в тексте. Тематическая роль - это понятие в лингвистике, которое описывает роль именных фраз по отношению к действию или состоянию управляющего глагола, обычно главного глагола предложения. Если в бегущем тексте предложений есть больше предложений с фразами существительных, связанными с определенным полом, инициирующими действие или состояния глагола (агентов), то весь документ определяется как смещенный в сторону противоположности этому конкретному полу.

Психолингвистика (естественные науки)

Наконец, психолингвистика - это изучение взаимосвязи лингвистических факторов и психологических аспектов. Он также изучает психологические и нейробиологические факторы, которые позволяют людям приобретать, использовать, понимать и воспроизводить язык. Дисциплина в основном занимается механизмами, с помощью которых языки обрабатываются и представлены в мозгу. Примером эксперимента, который может включать понятие пола в этом типе исследования, является измерение времени реакции испытуемого с разбивкой по полу, когда дается задание. Другой тип исследования может совпадать с представлением предложений с гендерной предвзятостью испытуемым с предложениями без предвзятости и измерением времени, которое потребовалось испытуемому, чтобы классифицировать каждый тип предложения. Тем не менее, это исследование больше сосредоточено на том, как органический мозг разного пола реагирует, чем на анализе человеческого восприятия определенного типа текста.

Открытый вопрос о машинном обучении

Как же тогда в машинном обучении язык описывается с помощью текста? В машинном обучении текст часто представляется с помощью векторов набора слов или встраивания слов. При кодировании «мешок слов» каждый элемент вектора соответствует уникальному токену в словаре корпуса. Когда конкретный элемент присутствует в документе, он присваивает номер целочисленного / плавающего типа конкретному индексу в одномерном векторе, который связан с токеном. Это число может просто выражать существование элемента или распределение вероятностей на основе частоты во всем документе, не фиксируя семантические отношения между словами, которые они представляют.

С другой стороны, встраивание слов отображает разреженные векторы слов в непрерывное пространство в зависимости от окружающего контекста. В отличие от простого представления набора слов, слова, которые разделяют семантические или синтаксические отношения, могут быть представлены векторами одинаковой величины и отображены в непосредственной близости друг от друга при встраивании слов.

Однако веса, описывающие ассоциации, задаются в зависимости от типа входных текстов, которые используются в моделях встраивания слов, и сильно зависят от типа лексиконов, которыми снабжена модель. Таким образом, проецирование этой абстрактной концепции «гендерной предвзятости» в 2D-встраиваемом пространстве может оказаться сложной задачей, когда предвзятость сильно коррелирует с контекстом, в котором написан текст, культурой или прошлым опытом. Более того, недавно исследователи доказали, что популярные алгоритмы встраивания слов демонстрируют стереотипные предубеждения, потому что они обучаются на реальных примерах, которые уже предвзяты.

Теперь наш вопрос: как лучше всего описать эту абстрактную концепцию контекста и субъективного мнения количественно, чтобы научить машины, как этого избежать? До сих пор мы видели несколько примеров того, как лингвистика обращается к теме гендера в своей области исследований. Может ли быть способ связать высоколингвистические особенности с представлениями машинного обучения, чтобы лучше фиксировать качественные примеры из реальной жизни?