Кластеризация

Во вкладке Статистика, в группе Преобразование, нажмите на опцию Кластеризация, чтобы использовать алгоритм кластеризации для определения кластеров данных в файле данных на основе значений одного или нескольких выбранных полей.

Ввод

Файл

Выберите тип файла вывода и двойным нажатием левой кнопки мыши (или с помощью кнопки поиска) укажите имя файла-источника. Если требуется, задайте фильтр, чтобы ограничить процесс выборкой записей в файле.

Поля

Записи во вводном файле будут кластеризованы на основе уникальных значений в одном или нескольких выбранных вами полях.

Максимальное количество извлеченных компонентов будет равно количеству переменных элемента. Собственные векторы - это дисперсии основных компонентов, которые используются для расчета оценок основных компонентов. Коэффициенты указывают относительный вес каждой переменной в компоненте.

Параметры

Метод кластеризации

Выберите метод кластеризации

Метод

Описание

K-средние Алгоритм на основе расстояния используется для разделения n точек на k кластеров. Каждая точка принадлежит кластеру с ближайшим средним значением (центроид кластера), который служит прототипом этого кластера.
Гауссова смесь Комбинация нормальных распределений, представляющих общее распределение вероятностей точек данных.
Самоорганизующаяся карта Искусственная нейронная сеть (ИНС) обучается выполнять уменьшение размерности для создания дискретного представления (карты окрестностей) вводных данных.
Иерархическая агломеративная кластеризация Для кластеризации данных в иерархии используется алгоритм, основанный на расстоянии, аналогично тому, как рассчитывается Дендрограмма. Для иерархической агломеративной кластеризации можно выбрать алгоритм расчета.
HDBSCAN - кластеризация на основе плотности с учетом шума. HDBSCAN использует пространственную кластеризацию на основе плотности и объединяет результаты для определения наиболее устойчивой кластеризации. Иерархическая кластеризация на основе плотности позволяет находить кластеры с различной плотностью и адаптируется к разным параметрам выбора.

Алгоритм

Если выбрана иерархическая агломеративная кластеризация, активируется раскрывающийся список Алгоритм.

Метод

Описание

Метод среднего значения Расстояние между двумя кластерами - это среднее значение всех попарных расстояний между точками в этих кластерах. Метод среднего значения (Average) формирует сбалансированные кластеры и представляет собой компромисс между методами одиночной и полной связи. Он формирует сбалансированные кластеры, которые хорошо подходят для большинства случаев.
Метод полной связи Расстояние между двумя кластерами - это наибольшее расстояние между любыми двумя точками в кластерах. Метод полной связи (Complete) может испытывать трудности с очень большими наборами данных (свыше ~80 000 проб), но, как правило, формирует компактные, хорошо разделённые кластеры и менее чувствителен к шуму. Хорошо подходит для обнаружения чётко разделённых, плотных кластеров.
Один Расстояние между двумя кластерами - это наименьшее расстояние между любыми двумя точками в этих кластерах. Метод одиночной связи (Single) быстрее и более экономичен по памяти для больших наборов данных. Этот метод с большей вероятностью создаст длинные, цепочкообразные кластеры по сравнению с другими методами и чувствителен к шуму/выбросам. Этот метод хорошо подходит для очень больших наборов данных, где другие методы исчерпывают память, и эффективен для обнаружения вытянутых кластеров, но может не разделять чётко определённые группы.

Число кластеров

Укажите количество кластеров, которые необходимо определить. Это значение по сути определяет, на каком уровне иерархии следует остановиться при определении кластеров.

Максимальные итерации

Укажите максимальное количество итераций, которые будет проходить метод кластеризации. Процесс может быть остановлен раньше, если будет достигнуто соответствие критериям кластеризации. Параметр Максимальное число итераций отключен, если выбран метод иерархической агломеративной кластеризации.

Min cluster size

The Min cluster size field is enabled for the HDBScan clustering method. Cluster assigning is performed based on the minimum size entered.

Min points

The Min points field is enabled for the HDBScan clustering method. Укажите минимальное количество точек, которое можно использовать для определения кластера по плотности.

Преобразование

Установите флажок, чтобы активировать параметры метода преобразования.

Метод преобразования

Задайте метод преобразования:

Метод

Описание

Z-оценка Данные преобразуются путем вычитания среднего значения для каждого поля из значений в композитах и затем делятся на стандартное отклонение каждого поля, в результате чего получаются данные со средним значением, равным нулю, и стандартным отклонением, равным единице.
Центрированное log-соотношение (CLR) Преобразование с центрированным логарифмическим соотношением используется для устранения эффекта замыкания в композитах.

Замена нуля

Если вы выбрали Центрированное Log-соотношение в качестве метода преобразования, задайте способ обработки нулевых значений:

  • Пропустить пробу

  • Рассматривается как половина минимальных положительных значений

Вес пробы

Установите этот флажок, если вы хотите указать данные о весе пробы, которые будут использоваться при кластеризации. Выберите Поле веса, чтобы задать поле, содержащее данные о весе пробы.

Вывод

Изменить файл ввода

При выборе этой опции результаты будут записаны в Файл ввода. Если вы решили не использовать опцию Изменить файл ввода, дважды щелкните мышью (или нажмите F3), чтобы выбрать название Файла вывода.

В назначенном файле вы должны указать поле, в которое будут записаны идентификаторы кластера.

Формы

Нажмите на кнопку Формы, чтобы выбрать и открыть сохраненный набор форм или, если набор форм был загружен, сохранить текущий набор форм.

По умолчанию кнопка Формы является недоступной для загруженных слоев Визекса (т.е. при открытии набора форм свойства слоя задаются в панели Просмотр слоев Визекса). В Визексе кнопка Формы доступна только для новых форм, открываемых через вкладку Главная или во вкладка Визекс в группе Слой (либо двойным щелчком мыши по элементу типа формы в корневом каталоге панели Типы слоев Визекса).

Сохранить и Сохранить как

Нажмите на кнопку Сохранить, чтобы сохранить изменения, которые вы внесли в набор форм. Нажмите на кнопку Сохранить как, чтобы сохранить внесенные вами изменения в виде нового набора форм. Опция "Сохранить как" по умолчанию назначит вашему набору форм первый доступный номер набора форм.

Сброс

Нажмите Сброс, чтобы очистить форму от всех значений и вернуть форму к исходному состоянию.

Сбросить вкладку

Для форм с вкладками выберите Сбросить вкладку, чтобы очистить активную вкладку от всех значений и сбросить вкладку до состояния по умолчанию, не внося никаких изменений в другие вкладки в диалоговом окне.

Повторить и Отменить (Вернуть)

Нажмите на опцию Отменить (CTRL + Z), чтобы отменить недавние изменения, внесённые в форму. После действия "Отменить", выберите опцию Повторить (CTRL + Y), чтобы восстановить последние изменения, которые были отменены.

Свернуть

Сверните форму, чтобы предварительно просмотреть результаты работы в Визексе или поработать с вводными значениями из Визекса, окна Свойства, Редактора файлов или Редактора чертежа.

Запустить

В заключение, нажмите на кнопку Запустить и запустите процесс..