Публикации по теме 'cluster-analysis'


Кластеризация K-средних: как это работает и поиск оптимального количества кластеров в данных
Математическая формулировка, Нахождение оптимального количества кластеров и рабочий пример на Python Вступление K-means - один из наиболее широко используемых методов неконтролируемой кластеризации. Алгоритм K-средних группирует имеющиеся данные, пытаясь разделить выборки на K групп с равной дисперсией, сводя к минимуму критерий, известный как инерция или сумма квадратов внутри кластера . Этот алгоритм требует указания количества кластеров . Он хорошо масштабируется..

Вопросы по теме 'cluster-analysis'

Алгоритм кластеризации для бумажных мальчиков
Мне нужна помощь в выборе или создании алгоритма кластеризации по определенным критериям. Представьте, что вы управляете доставщиками газет. У вас есть набор уличных адресов, каждый из которых геокодирован. Вы хотите сгруппировать адреса...
5272 просмотров

Как я могу сгруппировать график в Python?
Пусть G — граф. Итак, G — это множество узлов и множество связей. Мне нужно найти быстрый способ разбить граф. Граф, над которым я сейчас работаю, имеет только 120*160 узлов, но, возможно, вскоре я буду работать над эквивалентной задачей в другом...
20541 просмотров

Кластеризация текста в Python
Мне нужно сгруппировать некоторые текстовые документы, и я изучаю различные варианты. Похоже, что LingPipe может кластеризовать простой текст без предварительного преобразования (в векторное пространство и т. д.), но это единственный инструмент,...
22589 просмотров
schedule 29.01.2023

Визуальное разделение данных на два класса в Matlab
У меня есть два кластера данных, каждый кластер имеет x, y (координаты) и значение, чтобы узнать его тип (1 class1, 2 class 2). Я нанес эти данные на график, но я хотел бы разделить эти классы с границей (визуально). какова функция, чтобы сделать...
7197 просмотров
schedule 01.06.2022

Изменение порядка элементов матрицы для отражения кластеризации столбцов и строк в naiive python
Я ищу способ выполнить кластеризацию отдельно по строкам матрицы, а затем по ее столбцам, переупорядочить данные в матрице, чтобы отразить кластеризацию и собрать все вместе. Проблема кластеризации легко разрешима, как и создание дендрограммы...
21106 просмотров

MATLAB: рисовать центроиды
Мой главный вопрос - это центроид функции, как я могу нарисовать его в MATLAB? Более подробно, у меня есть изображение NxNx3 (изображение RGB), из которого я беру 4x4 блоков и вычисляю 6 -мерный вектор признаков для каждого блока. Я сохраняю...
3191 просмотров

GeoDjango: есть ли готовый способ генерировать кластеры точек?
Я пытаюсь вычислить кластеры по набору точек в Python, используя GeoDjango. Задача: по заданному набору точек вывести набор кластеров этих точек. (я могу заранее указать количество кластеров/размер кластера/расстояние для упрощения) Есть...
866 просмотров
schedule 11.11.2022

Как группировать короткие сообщения [твиты] по темам? [Тематическая кластеризация]
Я планирую приложение, которое будет создавать кластеры коротких сообщений/твитов на основе тем. Количество тем будет ограничено, например, спорт [НБА, НФЛ, крикет, футбол], развлечения [фильмы, музыка] и так далее... Я могу придумать два подхода...
1997 просмотров
schedule 27.04.2022

Как использовать НЛП для разделения неструктурированного текстового содержимого на отдельные абзацы?
Следующий неструктурированный текст имеет три отдельные темы — Сталлоне, Филадельфия и Американская революция. Но какой алгоритм или метод вы бы использовали, чтобы разделить этот контент на отдельные абзацы? Классификаторы в этом случае не...
3274 просмотров

Кластеризация текста в MATLAB
Я хочу выполнить иерархическую агломеративную кластеризацию текстов в MATLAB. Скажем, у меня есть четыре предложения, I have a pen. I have a paper. I have a pencil. I have a cat. Я хочу сгруппировать приведенные выше четыре предложения,...
8599 просмотров
schedule 07.10.2022

Получение индекса ближайшей точки данных к центридам в кластеризации Kmeans в MATLAB
Я делаю кластеризацию с использованием K-средних в MATLAB. Как вы, возможно, знаете, используется следующее: [IDX,C] = kmeans(X,k) где IDX дает номер кластера для каждой точки данных в X, а C дает центроиды для каждого кластера. Мне нужно...
4717 просмотров
schedule 13.06.2024

Кластеризовать тысячи текстовых документов в java
Есть ли эффективный способ кластеризации текстовых документов? Я думал о K-Means, но, похоже, это отнимает слишком много времени. Может ли кто-нибудь предоставить мне эффективный метод?
1446 просмотров
schedule 04.12.2023

Найдите связанные компоненты в графе в MATLAB
У меня есть много точек 3D-данных, и я хочу найти на этом графике «связанные компоненты». Именно здесь формируются кластеры, обладающие следующими свойствами: Каждый кластер содержит точки, каждая из которых находится на максимальном расстоянии...
2766 просмотров
schedule 27.04.2022

K-mean кластеризация, почему разные начальные положения кластеров влияют на конечный результат кластеризации?
Я не уверен, подходит ли этот вопрос здесь. Во всяком случае, кажется, что люди здесь полезны. Вот мой вопрос. В случае кластеризации k-mean необходимо указать начальные позиции кластеров. почему разные начальные положения кластеров влияют на...
361 просмотров
schedule 06.07.2022

«Вероятность» K-ближайшего соседа, подобного классификации
У меня есть небольшой набор точек данных (около 10) в 2D-пространстве, и у каждой из них есть метка категории. Я хочу классифицировать новую точку данных на основе существующих меток точек данных, а также связать «вероятность» принадлежности к...
11505 просмотров

Как мне создать радиальный кластер, как в следующем примере кода на Python?
Я нашел несколько примеров того, как создавать эти точные иерархии (по крайней мере, я считаю, что они есть), как показано ниже здесь stackoverflow.com/questions/2982929/ , которые отлично работают и почти выполняют то, что я ищу. [РЕДАКТИРОВАТЬ]...
15282 просмотров

Развертывание Mahout в кластере Hadoop
Я хочу запустить пример Mahout K-Means в кластере Hadoop из 5 машин. Какие jar-файлы Mahout мне нужно хранить на всех узлах, чтобы K-Means выполнялся распределенным образом. Спасибо. -Венкирам
1332 просмотров
schedule 26.06.2022

Кластеризация по значениям сходства косинусов
Я извлек слова из набора URL-адресов и вычислил косинусное сходство между содержимым каждого URL-адреса. А также я нормализовал значения между 0-1 (используя Min-Max). Теперь мне нужно сгруппировать URL-адреса на основе значений косинусного сходства,...
2427 просмотров

Откуда Google берет резюме для каждого из результатов своего сайта, которые он отображает на своей странице результатов поиска?
Я работаю над проектом, в котором мне нужно искать термины в поисковой системе , а затем кластерировать результаты по контексту . Поэтому я должен рассматривать каждый результат как документ. к сожалению, данных, представленных вместе с каждым...
404 просмотров

расчет членства в нечеткой кластеризации в k-режиме
Я искал алгоритм кластеризации для нечетких категориальных атрибутов кластера и нашел алгоритм k-Mode У меня есть способ, которым он работает, но я не понимаю, рассчитывается ли матрица принадлежности или принадлежности так же, как эта матрица в...
460 просмотров