Публикации по теме 'text-mining'


Визуализация слов
PCA и кластеризация в Python В этом посте я покажу, как использовать несколько техник НЛП для преобразования слов в математические представления и изобразить их в виде точек, а также приведу несколько примеров. График ниже был создан на основе вики Звездных войн Вукипедия и раскрашен алгоритмом кластеризации. Координаты слов создаются из вложений слов ( векторов слов ), которые создаются на основе контекстов, в которых встречается каждое слово. Векторы имеют свойства, связанные..

Создание вложения предложений на основе тематических представлений слов
Подход к универсальному пониманию языка Я изучаю вложения слов и предложений уже больше года и недавно написал также свою магистерскую диссертацию [1] в этой области. Результаты, которые я представляю сейчас, также были опубликованы здесь и стали результатом сотрудничества с SAP и Университетом Лихтенштейна . В следующем сообщении блога я не буду подробно объяснять встраивание. Эта статья носит скорее концептуальный характер и резюмирует мои выводы. Фонд Вектор слова - это..

Извлечение именованных сущностей: подробное руководство с объяснением концепции, инструментов и руководств - BytesView
Извлечение именованных сущностей, также известное как распознавание сущностей, - это метод обработки естественного языка (НЛП), который идентифицирует и извлекает именованные сущности из любого заданного текста и классифицирует их по предопределенным категориям. Эти именованные объекты могут быть организациями, людьми, местоположениями, событиями, денежными значениями, количествами и даже выражениями времени. Проще говоря, он извлекает все известные сущности, физические и абстрактные...

GLoVE: теория и реализация на Python
GloVe: глобальные векторы для представлений слов В этом посте мы рассмотрим подход, использованный при построении модели GloVE, а также реализуем код Python для извлечения встраивания с учетом определенного слова в качестве входных данных. По сути, все разработанные языковые модели стремились к достижению одной общей цели - реализации возможности переноса обучения в НЛП. Таким образом, разные образовательные и коммерческие организации искали разные подходы к достижению этой цели...

Вопросы по теме 'text-mining'

Что такое энтропия и получение информации?
Я читаю эту книгу ( NLTK ), и она сбивает с толку. Энтропия определяется как : Энтропия - это сумма вероятности каждой метки, умноженная на логарифмическую вероятность той же самой метки. Как я могу применить энтропию и...
213290 просмотров
schedule 04.01.2023

Функция N-грамм в vb.net - ›создавать граммы для слов вместо символов
Недавно я узнал о n-граммах и классной возможности сравнивать с ними частоту фраз в теле текста. Теперь я пытаюсь создать приложение vb.net, которое просто получает тело текста и возвращает список наиболее часто используемых фраз (где n> = 2). Я...
3708 просмотров
schedule 12.04.2022

Анализ текста в большой базе данных (интеллектуальный анализ данных)
У меня есть большая база резюме (CV) и определенная таблица навыки , в которой сгруппированы все навыки пользователей. внутри этой таблицы есть поле skill_text , которое описывает навык в полном тексте. Я ищу алгоритм / программное обеспечение...
2992 просмотров
schedule 24.05.2023

Как идентифицировать идеи и понятия в заданном тексте
В данный момент я работаю над проектом, где было бы очень полезно иметь возможность определять, когда определенная тема/идея упоминается в тексте. Например, если текст содержал: Может быть, если вы расскажете мне немного больше о том, кто...
1728 просмотров

Кластеризация текста в MATLAB
Я хочу выполнить иерархическую агломеративную кластеризацию текстов в MATLAB. Скажем, у меня есть четыре предложения, I have a pen. I have a paper. I have a pencil. I have a cat. Я хочу сгруппировать приведенные выше четыре предложения,...
8599 просмотров
schedule 07.10.2022

Полнотекстовые PDF-файлы для статей PubMed
Во время работы над проектом мне нужно загружать и обрабатывать полнотекстовые статьи для рефератов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю вводить набор идентификаторов PubMed и загружать бесплатные...
4401 просмотров
schedule 12.05.2024

поиск шаблонов в шестнадцатеричном файле
У меня есть два разных файла, содержимое каждого из которых поступает из разных потоков данных. У меня есть некоторые данные, собранные из этих потоков в двух разных файлах. Затем я хочу выполнить поиск в файлах, чтобы найти какие-либо шаблоны. Так...
2958 просмотров

Хранение данных интеллектуального анализа текста
Я ищу, чтобы отслеживать популярность темы по очень большому количеству документов. Кроме того, я хотел бы давать пользователям рекомендации, основанные на тематиках, а не на обычной модели набора слов. Для извлечения тем я использую методы...
576 просмотров
schedule 31.08.2022

Быстрое извлечение терминологии из предложений
Я работаю в Text Mining, и моя работа сосредоточена на биомедицинских объектах (генах, белках, лекарствах и заболеваниях). Я хотел бы поделиться с вами некоторыми вопросами. Теперь моя цель — найти биомедицинские объекты в биомедицинских текстах...
543 просмотров
schedule 29.01.2024

Как прочитать список стоп-слов из текстового файла в R
Возможный дубликат: Чтение текстового файла в R У меня есть собственный список стоп-слов, который находится в текстовом файле, разделенном символом новой строки. Как я могу использовать этот файл в своем R-скрипте? Код:...
2073 просмотров
schedule 23.04.2023

как прочитать текст в таблице из файла csv
Я новичок в использовании пакета tm. Я хочу прочитать файл csv, который содержит один столбец с 2000 текстами и второй столбец с факторной переменной да/нет в корпус. Мое намерение состоит в том, чтобы преобразовать текст в виде матрицы и...
3558 просмотров
schedule 07.03.2023

Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)
Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...
20255 просмотров
schedule 04.06.2024

Откройте огромный текстовый файл и выполните поиск по регулярному выражению
Я пытаюсь открыть огромный текстовый файл (1 ГБ) и выполнить анализ текста. Я хочу выполнить поиск по регулярным выражениям. Когда я использую функцию read (), я получение ошибки: File "C:\Python33\lib\encodings\latin_1.py", line 26, in decode...
268 просмотров
schedule 27.10.2022

С++: использовать карту как значение другой карты
Мне просто интересно, могу ли я использовать «сложную» карту в качестве значения другой карты. Я самостоятельно определил несколько структур следующим образом: typedef std::vector<std::string> pattern; typedef std::map<int,...
95 просмотров
schedule 02.01.2024

Как создать кластеры документов с помощью иерархической кластеризации
Я пытаюсь сгруппировать документы на основе их сходства, идея состоит в том, чтобы сопоставить похожие слова в двух документах и ​​разделить это число на общее количество слов в обоих документах. Каждое значение хранится в двумерном массиве:...
197 просмотров

Использование преобразования Sklearn TfidfVectorizer
Я пытаюсь получить вектор tf-idf для одного документа, используя объект TfidfVectorizer Sklearn. Я создаю словарь на основе некоторых учебных документов и использую fit_transform для обучения TfidfVectorizer. Затем я хочу найти векторы tf-idf для...
52591 просмотров
schedule 08.03.2024

Интеллектуальный анализ текста с использованием R для подсчета частоты слов
Я хочу посчитать появление слова «неопределенность», но только если «экономическая политика» или «законодательство» или слова, относящиеся к политике, встречаются в одном и том же тексте. Прямо сейчас я выпустил код на R для подсчета частоты всех...
7624 просмотров
schedule 14.03.2023

каков типичный способ улучшить точность модели/отзыв для классификации текста
Я работаю над проектом интеллектуального анализа данных, который пытается автоматически классифицировать текст в категорию t. это контролируемое обучение с несколькими классами, функция ввода включает заголовок и тело (оба являются текстовыми)....
1444 просмотров
schedule 27.03.2022

sk-means кластеризация - как получить результаты кластеризации
В своих исследованиях я использую как k-средние, так и sk-средние. В кластеризации K-средних, чтобы получить кластеры, # k-means clustering of tweets k<-6 kmeansResult<-kmeans(m3,k) # Cluster centers round(kmeansResult$centers,digits=3)...
326 просмотров
schedule 04.12.2022

Create_Analytics в RTextTools
Я пытаюсь классифицировать текстовые документы по количеству категорий. Мой код ниже работает нормально matrix[[i]] <- create_matrix(trainingdata[[i]][,1],...
1878 просмотров