Публикации по теме 'nlp'
Сделано просто — Наивные байесовские классификаторы
Наивные байесовские классификаторы — это семейство алгоритмов, основанных на теореме Байеса. Это алгоритмы классификации, основной принцип которых заключается в том, что каждый классифицируемый признак не зависит от другого.
Пример:
У нас есть следующие документы, которые являются рецептами гамбургеров и бутербродов. Документ 1 и 2 — это рецепт приготовления гамбургеров, а документ 3 и 4 — рецепт приготовления сэндвича.
Мы должны классифицировать 5-й документ.
P(c|d) =..
Elasticsearch — введение в ключевые концепции
5 основных шагов, чтобы начать работу с Elasticsearch для NLP
Написано Paweł Mielniczuk и Daniel Popek .
Амбиции этой статьи
За время нашей работы в NeuroSYS мы столкнулись с множеством проблем в области обработки естественного языка, включая поиск информации. В основном мы сосредоточились на моделях глубокого обучения на базе Трансформеров . Однако Elasticsearch часто служил нам отличной отправной точкой. Мы широко использовали эту поисковую систему; таким образом,..
Несоответствие-сначала Самый дальний поиск в активном обучении
"Машинное обучение"
Несоответствие-сначала Самый дальний поиск в активном обучении
Несоответствие методу первого самого дальнего обхода
Активное обучение – это одна из стратегий обучения, которая вовлекает учащихся (например, студентов) в активное участие в процессе обучения. По сравнению с традиционным процессом обучения учащиеся не просто сидят и слушают, а работают вместе с учителями в интерактивном режиме. Ход обучения можно корректировать в соответствии с отзывами учащихся...
Настройка SentenceDetector в Spark NLP
Лучший способ разделения предложений для последующих задач НЛП.
Учебник по Spark NLP
Существует множество задач обработки естественного языка (NLP), требующих разделения текста на фрагменты с различной степенью детализации: 1. Документ 2. Предложение 3. Токен 4. и т. д. Этот пост посвящен разбиению текста на предложения, чтобы упростить последующие задачи, такие как N amed E ntity R распознавание ( NER ), классификация текста или анализ тональности. Правильное разделение..
Создание функций из твитов
Подготовка твитов для машинного обучения
В текущем побочном проекте я использую твиты в качестве входных данных для модели машинного обучения. В этой статье я поделюсь кратким практическим руководством по преобразованию твитов в нечто подходящее для машинного обучения. Я предполагаю, что вы уже получили один или несколько твитов из API твиттера для анализа.
В дальнейшем я буду ссылаться непосредственно на структуру JSON, предоставляемую API-интерфейсом twitter. Более подробно эта..
Онтологии и семантическая аннотация. Часть 1: Что такое онтология
В изобилии информации и машинам, и людям-исследователям нужны инструменты для ее навигации и обработки. Структурирование и формализация данных в иерархии, такие как деревья, может установить отношения между данными, необходимыми для эффективной машинной обработки, и может сделать информацию более читаемой для аналитиков данных.
Тем не менее, в более сложных областях, таких как обработка естественного языка, отношения между концепциями выходят за рамки простых иерархий и образуют сети,..
Основные моменты NAACL 2022
Ежегодная конференция Североамериканской ассоциации компьютерной лингвистики 2022 года ( NAACL-2022 ) прошла в Сиэтле в середине июля и проходила как гибридная конференция. Всего NAACL-2022 приняла 442 статьи из 2103 поданных. Наша работа Расширение набора сущностей с низким уровнем ресурсов: всестороннее исследование пользовательского текста Ютонга Шао, Никиты Бутани, Саджадура Рахмана и Эстевама Хрушки была среди принятых документов NAACL.
NAACL является ключевой конференцией для..