Статьи по теме text-mining

Публикации по теме 'text-mining'

Визуализация слов

PCA и кластеризация в Python В этом посте я покажу, как использовать несколько техник НЛП для преобразования слов в математические представления и изобразить их в виде точек, а также приведу несколько примеров. График ниже был создан на основе вики Звездных войн Вукипедия и раскрашен алгоритмом кластеризации. Координаты слов создаются из вложений слов ( векторов слов ), которые создаются на основе контекстов, в которых встречается каждое слово. Векторы имеют свойства, связанные..

Создание вложения предложений на основе тематических представлений слов

Подход к универсальному пониманию языка Я изучаю вложения слов и предложений уже больше года и недавно написал также свою магистерскую диссертацию [1] в этой области. Результаты, которые я представляю сейчас, также были опубликованы здесь и стали результатом сотрудничества с SAP и Университетом Лихтенштейна . В следующем сообщении блога я не буду подробно объяснять встраивание. Эта статья носит скорее концептуальный характер и резюмирует мои выводы. Фонд Вектор слова - это..

Извлечение именованных сущностей: подробное руководство с объяснением концепции, инструментов и руководств - BytesView

Извлечение именованных сущностей, также известное как распознавание сущностей, - это метод обработки естественного языка (НЛП), который идентифицирует и извлекает именованные сущности из любого заданного текста и классифицирует их по предопределенным категориям. Эти именованные объекты могут быть организациями, людьми, местоположениями, событиями, денежными значениями, количествами и даже выражениями времени. Проще говоря, он извлекает все известные сущности, физические и абстрактные...

GLoVE: теория и реализация на Python

GloVe: глобальные векторы для представлений слов В этом посте мы рассмотрим подход, использованный при построении модели GloVE, а также реализуем код Python для извлечения встраивания с учетом определенного слова в качестве входных данных. По сути, все разработанные языковые модели стремились к достижению одной общей цели - реализации возможности переноса обучения в НЛП. Таким образом, разные образовательные и коммерческие организации искали разные подходы к достижению этой цели...

Вопросы по теме 'text-mining'

Что такое энтропия и получение информации?

Я читаю эту книгу ( NLTK ), и она сбивает с толку. Энтропия определяется как : Энтропия - это сумма вероятности каждой метки, умноженная на логарифмическую вероятность той же самой метки. Как я могу применить энтропию и...

213290 просмотров

04.01.2023

Функция N-грамм в vb.net - ›создавать граммы для слов вместо символов

Недавно я узнал о n-граммах и классной возможности сравнивать с ними частоту фраз в теле текста. Теперь я пытаюсь создать приложение vb.net, которое просто получает тело текста и возвращает список наиболее часто используемых фраз (где n> = 2). Я...

3708 просмотров

vb.net text-mining n-gram

12.04.2022

Анализ текста в большой базе данных (интеллектуальный анализ данных)

У меня есть большая база резюме (CV) и определенная таблица навыки , в которой сгруппированы все навыки пользователей. внутри этой таблицы есть поле skill_text , которое описывает навык в полном тексте. Я ищу алгоритм / программное обеспечение...

2992 просмотров

database text-mining data-mining

24.05.2023

Как идентифицировать идеи и понятия в заданном тексте

В данный момент я работаю над проектом, где было бы очень полезно иметь возможность определять, когда определенная тема/идея упоминается в тексте. Например, если текст содержал: Может быть, если вы расскажете мне немного больше о том, кто...

1728 просмотров

nlp artificial-intelligence nltk text-mining

03.12.2022

Кластеризация текста в MATLAB

Я хочу выполнить иерархическую агломеративную кластеризацию текстов в MATLAB. Скажем, у меня есть четыре предложения, I have a pen. I have a paper. I have a pencil. I have a cat. Я хочу сгруппировать приведенные выше четыре предложения,...

8599 просмотров

matlab cluster-analysis text-mining

07.10.2022

Полнотекстовые PDF-файлы для статей PubMed

Во время работы над проектом мне нужно загружать и обрабатывать полнотекстовые статьи для рефератов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю вводить набор идентификаторов PubMed и загружать бесплатные...

4401 просмотров

pdf nlp text-mining pubmed

12.05.2024

поиск шаблонов в шестнадцатеричном файле

У меня есть два разных файла, содержимое каждого из которых поступает из разных потоков данных. У меня есть некоторые данные, собранные из этих потоков в двух разных файлах. Затем я хочу выполнить поиск в файлах, чтобы найти какие-либо шаблоны. Так...

2958 просмотров

machine-learning artificial-intelligence text-mining data-mining pattern-recognition

03.05.2022

Хранение данных интеллектуального анализа текста

Я ищу, чтобы отслеживать популярность темы по очень большому количеству документов. Кроме того, я хотел бы давать пользователям рекомендации, основанные на тематиках, а не на обычной модели набора слов. Для извлечения тем я использую методы...

576 просмотров

python database text-mining data-mining

31.08.2022

Быстрое извлечение терминологии из предложений

Я работаю в Text Mining, и моя работа сосредоточена на биомедицинских объектах (генах, белках, лекарствах и заболеваниях). Я хотел бы поделиться с вами некоторыми вопросами. Теперь моя цель — найти биомедицинские объекты в биомедицинских текстах...

543 просмотров

python mongodb nlp text-mining

29.01.2024

Как прочитать список стоп-слов из текстового файла в R

Возможный дубликат: Чтение текстового файла в R У меня есть собственный список стоп-слов, который находится в текстовом файле, разделенном символом новой строки. Как я могу использовать этот файл в своем R-скрипте? Код:...

2073 просмотров

r text-mining stop-words

23.04.2023

как прочитать текст в таблице из файла csv

Я новичок в использовании пакета tm. Я хочу прочитать файл csv, который содержит один столбец с 2000 текстами и второй столбец с факторной переменной да/нет в корпус. Мое намерение состоит в том, чтобы преобразовать текст в виде матрицы и...

3558 просмотров

r text-mining tm

07.03.2023

Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)

Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...

20255 просмотров

r text-mining corpus tm documents

04.06.2024

Откройте огромный текстовый файл и выполните поиск по регулярному выражению

Я пытаюсь открыть огромный текстовый файл (1 ГБ) и выполнить анализ текста. Я хочу выполнить поиск по регулярным выражениям. Когда я использую функцию read (), я получение ошибки: File "C:\Python33\lib\encodings\latin_1.py", line 26, in decode...

268 просмотров

python regex text-mining

27.10.2022

С++: использовать карту как значение другой карты

Мне просто интересно, могу ли я использовать «сложную» карту в качестве значения другой карты. Я самостоятельно определил несколько структур следующим образом: typedef std::vector<std::string> pattern; typedef std::map<int,...

95 просмотров

c++ vector text-mining map stdmap

02.01.2024

Как создать кластеры документов с помощью иерархической кластеризации

Я пытаюсь сгруппировать документы на основе их сходства, идея состоит в том, чтобы сопоставить похожие слова в двух документах и разделить это число на общее количество слов в обоих документах. Каждое значение хранится в двумерном массиве:...

197 просмотров

hierarchical-clustering text-mining document-classification data-mining

15.11.2022

Использование преобразования Sklearn TfidfVectorizer

Я пытаюсь получить вектор tf-idf для одного документа, используя объект TfidfVectorizer Sklearn. Я создаю словарь на основе некоторых учебных документов и использую fit_transform для обучения TfidfVectorizer. Затем я хочу найти векторы tf-idf для...

52591 просмотров

python document text-mining tf-idf

08.03.2024

Интеллектуальный анализ текста с использованием R для подсчета частоты слов

Я хочу посчитать появление слова «неопределенность», но только если «экономическая политика» или «законодательство» или слова, относящиеся к политике, встречаются в одном и том же тексте. Прямо сейчас я выпустил код на R для подсчета частоты всех...

7624 просмотров

r text-mining tm

14.03.2023

каков типичный способ улучшить точность модели/отзыв для классификации текста

Я работаю над проектом интеллектуального анализа данных, который пытается автоматически классифицировать текст в категорию t. это контролируемое обучение с несколькими классами, функция ввода включает заголовок и тело (оба являются текстовыми)....

1444 просмотров

algorithm text-mining data-mining

27.03.2022

sk-means кластеризация - как получить результаты кластеризации

В своих исследованиях я использую как k-средние, так и sk-средние. В кластеризации K-средних, чтобы получить кластеры, # k-means clustering of tweets k<-6 kmeansResult<-kmeans(m3,k) # Cluster centers round(kmeansResult$centers,digits=3)...

326 просмотров

r cluster-analysis text-mining

04.12.2022

Create_Analytics в RTextTools

Я пытаюсь классифицировать текстовые документы по количеству категорий. Мой код ниже работает нормально matrix[[i]] <- create_matrix(trainingdata[[i]][,1],...

1878 просмотров

r precision text-mining document-classification confusion-matrix