Публикации по теме 'text-mining'
Визуализация слов
PCA и кластеризация в Python
В этом посте я покажу, как использовать несколько техник НЛП для преобразования слов в математические представления и изобразить их в виде точек, а также приведу несколько примеров. График ниже был создан на основе вики Звездных войн Вукипедия и раскрашен алгоритмом кластеризации.
Координаты слов создаются из вложений слов ( векторов слов ), которые создаются на основе контекстов, в которых встречается каждое слово. Векторы имеют свойства, связанные..
Создание вложения предложений на основе тематических представлений слов
Подход к универсальному пониманию языка
Я изучаю вложения слов и предложений уже больше года и недавно написал также свою магистерскую диссертацию [1] в этой области. Результаты, которые я представляю сейчас, также были опубликованы здесь и стали результатом сотрудничества с SAP и Университетом Лихтенштейна . В следующем сообщении блога я не буду подробно объяснять встраивание. Эта статья носит скорее концептуальный характер и резюмирует мои выводы.
Фонд
Вектор слова - это..
Извлечение именованных сущностей: подробное руководство с объяснением концепции, инструментов и руководств - BytesView
Извлечение именованных сущностей, также известное как распознавание сущностей, - это метод обработки естественного языка (НЛП), который идентифицирует и извлекает именованные сущности из любого заданного текста и классифицирует их по предопределенным категориям.
Эти именованные объекты могут быть организациями, людьми, местоположениями, событиями, денежными значениями, количествами и даже выражениями времени. Проще говоря, он извлекает все известные сущности, физические и абстрактные...
GLoVE: теория и реализация на Python
GloVe: глобальные векторы для представлений слов
В этом посте мы рассмотрим подход, использованный при построении модели GloVE, а также реализуем код Python для извлечения встраивания с учетом определенного слова в качестве входных данных.
По сути, все разработанные языковые модели стремились к достижению одной общей цели - реализации возможности переноса обучения в НЛП. Таким образом, разные образовательные и коммерческие организации искали разные подходы к достижению этой цели...
Вопросы по теме 'text-mining'
Что такое энтропия и получение информации?
Я читаю эту книгу ( NLTK ), и она сбивает с толку. Энтропия определяется как :
Энтропия - это сумма вероятности каждой метки, умноженная на логарифмическую вероятность той же самой метки.
Как я могу применить энтропию и...
213290 просмотров
schedule
04.01.2023
Функция N-грамм в vb.net - ›создавать граммы для слов вместо символов
Недавно я узнал о n-граммах и классной возможности сравнивать с ними частоту фраз в теле текста. Теперь я пытаюсь создать приложение vb.net, которое просто получает тело текста и возвращает список наиболее часто используемых фраз (где n> = 2).
Я...
3708 просмотров
schedule
12.04.2022
Анализ текста в большой базе данных (интеллектуальный анализ данных)
У меня есть большая база резюме (CV) и определенная таблица навыки , в которой сгруппированы все навыки пользователей.
внутри этой таблицы есть поле skill_text , которое описывает навык в полном тексте.
Я ищу алгоритм / программное обеспечение...
2992 просмотров
schedule
24.05.2023
Как идентифицировать идеи и понятия в заданном тексте
В данный момент я работаю над проектом, где было бы очень полезно иметь возможность определять, когда определенная тема/идея упоминается в тексте. Например, если текст содержал:
Может быть, если вы расскажете мне немного больше о том, кто...
1728 просмотров
schedule
03.12.2022
Кластеризация текста в MATLAB
Я хочу выполнить иерархическую агломеративную кластеризацию текстов в MATLAB. Скажем, у меня есть четыре предложения,
I have a pen.
I have a paper.
I have a pencil.
I have a cat.
Я хочу сгруппировать приведенные выше четыре предложения,...
8599 просмотров
schedule
07.10.2022
Полнотекстовые PDF-файлы для статей PubMed
Во время работы над проектом мне нужно загружать и обрабатывать полнотекстовые статьи для рефератов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю вводить набор идентификаторов PubMed и загружать бесплатные...
4401 просмотров
schedule
12.05.2024
поиск шаблонов в шестнадцатеричном файле
У меня есть два разных файла, содержимое каждого из которых поступает из разных потоков данных. У меня есть некоторые данные, собранные из этих потоков в двух разных файлах. Затем я хочу выполнить поиск в файлах, чтобы найти какие-либо шаблоны. Так...
2958 просмотров
schedule
03.05.2022
Хранение данных интеллектуального анализа текста
Я ищу, чтобы отслеживать популярность темы по очень большому количеству документов. Кроме того, я хотел бы давать пользователям рекомендации, основанные на тематиках, а не на обычной модели набора слов. Для извлечения тем я использую методы...
576 просмотров
schedule
31.08.2022
Быстрое извлечение терминологии из предложений
Я работаю в Text Mining, и моя работа сосредоточена на биомедицинских объектах (генах, белках, лекарствах и заболеваниях). Я хотел бы поделиться с вами некоторыми вопросами.
Теперь моя цель — найти биомедицинские объекты в биомедицинских текстах...
543 просмотров
schedule
29.01.2024
Как прочитать список стоп-слов из текстового файла в R
Возможный дубликат: Чтение текстового файла в R
У меня есть собственный список стоп-слов, который находится в текстовом файле, разделенном символом новой строки. Как я могу использовать этот файл в своем R-скрипте?
Код:...
2073 просмотров
schedule
23.04.2023
как прочитать текст в таблице из файла csv
Я новичок в использовании пакета tm. Я хочу прочитать файл csv, который содержит один столбец с 2000 текстами и второй столбец с факторной переменной да/нет в корпус. Мое намерение состоит в том, чтобы преобразовать текст в виде матрицы и...
3558 просмотров
schedule
07.03.2023
Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)
Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...
20255 просмотров
schedule
04.06.2024
Откройте огромный текстовый файл и выполните поиск по регулярному выражению
Я пытаюсь открыть огромный текстовый файл (1 ГБ) и выполнить анализ текста. Я хочу выполнить поиск по регулярным выражениям. Когда я использую функцию read (), я получение ошибки:
File "C:\Python33\lib\encodings\latin_1.py", line 26, in decode...
268 просмотров
schedule
27.10.2022
С++: использовать карту как значение другой карты
Мне просто интересно, могу ли я использовать «сложную» карту в качестве значения другой карты. Я самостоятельно определил несколько структур следующим образом:
typedef std::vector<std::string> pattern;
typedef std::map<int,...
95 просмотров
schedule
02.01.2024
Как создать кластеры документов с помощью иерархической кластеризации
Я пытаюсь сгруппировать документы на основе их сходства, идея состоит в том, чтобы сопоставить похожие слова в двух документах и разделить это число на общее количество слов в обоих документах. Каждое значение хранится в двумерном массиве:...
197 просмотров
schedule
15.11.2022
Использование преобразования Sklearn TfidfVectorizer
Я пытаюсь получить вектор tf-idf для одного документа, используя объект TfidfVectorizer Sklearn. Я создаю словарь на основе некоторых учебных документов и использую fit_transform для обучения TfidfVectorizer. Затем я хочу найти векторы tf-idf для...
52591 просмотров
schedule
08.03.2024
Интеллектуальный анализ текста с использованием R для подсчета частоты слов
Я хочу посчитать появление слова «неопределенность», но только если «экономическая политика» или «законодательство» или слова, относящиеся к политике, встречаются в одном и том же тексте. Прямо сейчас я выпустил код на R для подсчета частоты всех...
7624 просмотров
schedule
14.03.2023
каков типичный способ улучшить точность модели/отзыв для классификации текста
Я работаю над проектом интеллектуального анализа данных, который пытается автоматически классифицировать текст в категорию t. это контролируемое обучение с несколькими классами, функция ввода включает заголовок и тело (оба являются текстовыми)....
1444 просмотров
schedule
27.03.2022
sk-means кластеризация - как получить результаты кластеризации
В своих исследованиях я использую как k-средние, так и sk-средние. В кластеризации K-средних, чтобы получить кластеры,
# k-means clustering of tweets
k<-6
kmeansResult<-kmeans(m3,k)
# Cluster centers
round(kmeansResult$centers,digits=3)...
326 просмотров
schedule
04.12.2022
Create_Analytics в RTextTools
Я пытаюсь классифицировать текстовые документы по количеству категорий. Мой код ниже работает нормально
matrix[[i]] <- create_matrix(trainingdata[[i]][,1],...
1878 просмотров
schedule
02.01.2024