Публикации по теме 'nlp'


Сделано просто — Наивные байесовские классификаторы
Наивные байесовские классификаторы — это семейство алгоритмов, основанных на теореме Байеса. Это алгоритмы классификации, основной принцип которых заключается в том, что каждый классифицируемый признак не зависит от другого. Пример: У нас есть следующие документы, которые являются рецептами гамбургеров и бутербродов. Документ 1 и 2 — это рецепт приготовления гамбургеров, а документ 3 и 4 — рецепт приготовления сэндвича. Мы должны классифицировать 5-й документ. P(c|d) =..

Elasticsearch — введение в ключевые концепции
5 основных шагов, чтобы начать работу с Elasticsearch для NLP Написано Paweł Mielniczuk и Daniel Popek . Амбиции этой статьи За время нашей работы в NeuroSYS мы столкнулись с множеством проблем в области обработки естественного языка, включая поиск информации. В основном мы сосредоточились на моделях глубокого обучения на базе Трансформеров . Однако Elasticsearch часто служил нам отличной отправной точкой. Мы широко использовали эту поисковую систему; таким образом,..

Несоответствие-сначала Самый дальний поиск в активном обучении
"Машинное обучение" Несоответствие-сначала Самый дальний поиск в активном обучении Несоответствие методу первого самого дальнего обхода Активное обучение  – это одна из стратегий обучения, которая вовлекает учащихся (например, студентов) в активное участие в процессе обучения. По сравнению с традиционным процессом обучения учащиеся не просто сидят и слушают, а работают вместе с учителями в интерактивном режиме. Ход обучения можно корректировать в соответствии с отзывами учащихся...

Настройка SentenceDetector в Spark NLP
Лучший способ разделения предложений для последующих задач НЛП. Учебник по Spark NLP Существует множество задач обработки естественного языка (NLP), требующих разделения текста на фрагменты с различной степенью детализации: 1. Документ 2. Предложение 3. Токен 4. и т. д. Этот пост посвящен разбиению текста на предложения, чтобы упростить последующие задачи, такие как N amed E ntity R распознавание ( NER ), классификация текста или анализ тональности. Правильное разделение..

Создание функций из твитов
Подготовка твитов для машинного обучения В текущем побочном проекте я использую твиты в качестве входных данных для модели машинного обучения. В этой статье я поделюсь кратким практическим руководством по преобразованию твитов в нечто подходящее для машинного обучения. Я предполагаю, что вы уже получили один или несколько твитов из API твиттера для анализа. В дальнейшем я буду ссылаться непосредственно на структуру JSON, предоставляемую API-интерфейсом twitter. Более подробно эта..

Онтологии и семантическая аннотация. Часть 1: Что такое онтология
В изобилии информации и машинам, и людям-исследователям нужны инструменты для ее навигации и обработки. Структурирование и формализация данных в иерархии, такие как деревья, может установить отношения между данными, необходимыми для эффективной машинной обработки, и может сделать информацию более читаемой для аналитиков данных. Тем не менее, в более сложных областях, таких как обработка естественного языка, отношения между концепциями выходят за рамки простых иерархий и образуют сети,..

Основные моменты NAACL 2022
Ежегодная конференция Североамериканской ассоциации компьютерной лингвистики 2022 года ( NAACL-2022 ) прошла в Сиэтле в середине июля и проходила как гибридная конференция. Всего NAACL-2022 приняла 442 статьи из 2103 поданных. Наша работа Расширение набора сущностей с низким уровнем ресурсов: всестороннее исследование пользовательского текста Ютонга Шао, Никиты Бутани, Саджадура Рахмана и Эстевама Хрушки была среди принятых документов NAACL. NAACL является ключевой конференцией для..