Малоресурсный язык: что это значит?

Чтобы создавать решения для обработки естественного языка (NLP) для любого языка, самое важное, что вам нужно, — это данные на этом языке. В мире насчитывается более 7000 языков, на которых говорят люди, но из этих 7000 языков только около 20 имеют текстовые корпуса из сотен миллионов слов. Английский на сегодняшний день является языком с наибольшим объемом данных, за ним следуют китайский и испанский. Другие языки с большими наборами данных включают западноевропейские языки, а также японский.

С другой стороны, большинству языков, на которых говорят в Азии и Африке, не хватает обучающих данных, необходимых для создания точных современных систем НЛП. Эти языки называются языками с низким уровнем ресурсов.

С технической точки зрения, всякий раз, когда языку не хватает больших одноязычных или параллельных корпусов и/или созданных вручную лингвистических ресурсов, достаточных для создания статистических приложений НЛП, он считается языком с низким уровнем ресурсов.

Таким образом, вы можете спросить себя, почему язык, скажем, хинди, на котором говорят более 500 миллионов человек, является языком с низким уровнем ресурсов, в то время как западноевропейский язык, скажем, французский, на котором говорят всего около 100 миллионов человек, является высокоресурсным языком. Для этого вам нужно углубиться в то, как на самом деле создаются наборы данных. Учитывая, что современным языковым моделям требуются гигабайты, если не терабайты данных, которые могут легко соответствовать миллиардам письменных предложений, метод ручного создания данных только для этих моделей невозможен. Мало того, что для создания таких наборов данных потребуются годы, едва ли найдется какая-либо организация, которая хотела бы платить сотням сотрудников за то, чтобы они не делали ничего, кроме написания случайных предложений в документе.

Решение заключается в том, что почти все наборы данных marge берутся из Интернета, часто из социальных сетей, таких как Facebook или Twitter, где люди со всего мира оставляют миллиарды комментариев и сообщений. Данные, которые практически бесплатны для обучения языковых моделей. Но здесь возникает предостережение: на каких языках люди пишут в Интернете? Сколько твитов написано на английском по сравнению с хинди? Если вспомнить исторические данные, когда и где был впервые загружен пользовательский контент в Интернет? Ответы на большинство этих вопросов — «английский» и «США», и именно поэтому мы говорим о языках с низкими ресурсами (чтение, небольшие наборы данных) и языками с высокими ресурсами (чтение, большие наборы данных).

Текущие решения NLP в основном сосредоточены на нескольких языках с высокими ресурсами, хотя существует около 3 миллиардов носителей языков с низкими ресурсами (в основном в Азии и Африке). Такая большая часть населения мира все еще недостаточно обслуживается системами НЛП из-за различных проблем, с которыми сталкиваются разработчики при создании систем НЛП для языков с низким уровнем ресурсов. Прочтите эту статью Проблемы при использовании NLP для языков с низким уровнем ресурсов и как их решает NeuralSpace, чтобы узнать больше.

Присоединяйтесь к сообществу Slack NeuralSpace, чтобы общаться с нами. Кроме того, получайте обновления и обсуждайте темы НЛП для языков с низким уровнем ресурсов с другими разработчиками и исследователями.

Малоресурсный язык: что это значит?

Похожие вопросы