Дендрограмма
Dendrograms enable the visualisation of hierarchical clustering data in a graph with a tree-like structure. The similarity or difference between clusters is shown on the Y axis as a distance. Clusters that are more different will split at a greater distance, higher up the Y axis. Related clusters are connected to each other and to other related clusters by branches - similar to a genealogical chart (aka 'Family Tree').
Примером того, когда диаграмма дендрограммы может быть полезна, является анализ геохимических анализов целых пород, где кластеры могут представлять различные типы пород. Это можно использовать для проверки геологических журналов.
Выбор ветвей дендрограммы при отображении данных в Визексе с включенной функцией синхронного выбора представляет собой эффективный способ исследования пространственной взаимосвязи геохимических кластеров.
Пробы
Файл
Выберите тип файла и дважды щелкните (или щелкните значок Выбрать), чтобы выбрать имя исходного файла. При необходимости определите фильтр, чтобы ограничить процесс группой записей в файле.
Дополнительный контроль над пустыми значениями и значениями с начальными символами обеспечивается параметрами в диалоговом окне Числовые исключения.
Поля
Записи во входном файле будут кластеризованы на основе уникальных значений в одном или нескольких выбранных вами полях.
Столбец Количество проб доступен только для чтения и отображает количество действительных проб в каждом поле.
Примечание: общее количество проб ограничено 20 000. Если количество превышено, появится предупреждающее сообщение, и вы сможете прервать построение диаграммы.
Вы можете использовать инструменты в сетке чтобы Управлять строками в списке и добавлять поля из входного файла, которые будут учитываться при построении результирующей дендрограммы.
Преобразование
Установите флажок, чтобы включить параметры метода преобразования, которые определяют способ преобразования данных.
Метод
Выберите метод преобразования:
Метод |
Описание |
---|---|
Z-показатель | Данные преобразуются путем вычитания среднего значения для каждого поля из значений в композиционных данных, а затем деления на стандартное отклонение каждого поля, в результате чего получаются данные со средним значением, равным нулю, и стандартным отклонением, равным единице. |
Центрированное логарифмическое отношение (CLR) | Для устранения эффектов замкнутости в композиционных данных выполняется центрированное логарифмическое преобразование. |
Нулевая замена
Если в качестве метода преобразования выбрано центрированное логарифмическое отношение, выберите способ обработки нулевых значений:
-
Не учитывать пробу
-
Рассматривается как половина минимальных положительных значений.
Вычислить иерархию
Чтобы использовать указанный алгоритм для определения кластеров данных для дендрограммы, выберите опцию Вычислить иерархию.
Алгоритм
В иерархической кластеризации различные методы связывания определяют, как рассчитываются расстояния между кластерами при их объединении.
В раскрывающемся списке Алгоритм можно выбрать метод расчета кластера:
Метод |
Описание |
---|---|
Метод среднего значения | Расстояние между двумя кластерами - это среднее значение всех попарных расстояний между точками в этих кластерах. Метод среднего значения (Average) формирует сбалансированные кластеры и представляет собой компромисс между методами одиночной и полной связи. Он формирует сбалансированные кластеры, которые хорошо подходят для большинства случаев. |
Метод полной связи | Расстояние между двумя кластерами - это наибольшее расстояние между любыми двумя точками в кластерах. Метод полной связи (Complete) может испытывать трудности с очень большими наборами данных (свыше ~80 000 проб), но, как правило, формирует компактные, хорошо разделённые кластеры и менее чувствителен к шуму. Хорошо подходит для обнаружения чётко разделённых, плотных кластеров. |
Один | Расстояние между двумя кластерами - это наименьшее расстояние между любыми двумя точками в этих кластерах. Метод одиночной связи (Single) быстрее и более экономичен по памяти для больших наборов данных. Этот метод с большей вероятностью создаст длинные, цепочкообразные кластеры по сравнению с другими методами и чувствителен к шуму/выбросам. Этот метод хорошо подходит для очень больших наборов данных, где другие методы исчерпывают память, и эффективен для обнаружения вытянутых кластеров, но может не разделять чётко определённые группы. |
HDBSCAN - кластеризация на основе плотности с учетом шума.
Выберите опцию HDBScan, чтобы использовать иерархическую пространственную кластеризацию на основе плотности для поиска кластеров различной плотности.
Min cluster size
When HDBScan is selected, the Min cluster size field is enabled. Cluster assigning is performed based on the minimum size entered.
Min points
When HDBScan is selected, enter the minimum number of points that can be used to define a cluster by density.
Сохранить иерархию в файл
Установите флажок Записать в файл, если вы хотите записать рассчитанные данные кластеризации в указанный файл.
Read Hierarchy from File
Если вы хотите указать файл, из которого можно считывать кластеры (а не рассчитывать их с помощью алгоритма), выберите опцию Прочитать иерархию из файла.
Файл
Выберите тип файла и дважды щелкните (или щелкните значок Выбрать), чтобы выбрать имя файла, содержащего информацию о кластере.
Поля идентификатора 1 / идентификатора 2
Используйте кнопки списка Поле идентификатора 1 и Поле идентификатора 2, чтобы указать поля, идентифицирующие группы данных кластеров в указанном файле.
Поле расстояния
Используйте кнопку списка Поле расстояния, чтобы указать поле в указанном файле, которое содержит информацию о расстояниях для данных кластеризации.
Вы можете использовать параметры на вкладке Режим просмотра формы дендрограммы для настройки отображения графика.
Записать кластеры
Вы можете выбрать, следует ли записывать данные кластера в новый файл или во входной файл.
Изменить входной файл
При выборе этой опции результаты будут записаны в Файл ввода. Если вы решили не использовать опцию Изменить файл ввода, дважды щелкните мышью (или нажмите F3), чтобы выбрать название Файла вывода.
В назначенном файле необходимо указать поле, в которое будут записаны идентификаторы кластера.
Назначить кластеры по
Выберите, следует ли назначать письменные кластеры по количеству или расстоянию.
-
Если вы выбрали Количество, введите количество точек данных, которые следует назначить кластеру.
-
Если выбрано Расстояние, введите расстояние, которое будет назначено для каждого кластера.
Функция Назначить кластеры автоматически рассчитает, на скольких кластерах разместить линию слияния, если количество или расстояние не указано. Это значение также записывается обратно в набор форм.
Формы
Нажмите на кнопку Формы, чтобы выбрать и открыть сохраненный набор форм или, если набор форм был загружен, сохранить текущий набор форм.
По умолчанию кнопка Формы является недоступной для загруженных слоев Визекса (т.е. при открытии набора форм свойства слоя задаются в панели Просмотр слоев Визекса). В Визексе кнопка Формы доступна только для новых форм, открываемых через вкладку Главная или во вкладка Визекс в группе Слой (либо двойным щелчком мыши по элементу типа формы в корневом каталоге панели Типы слоев Визекса).
Сохранить и Сохранить как
Нажмите на кнопку Сохранить, чтобы сохранить изменения, которые вы внесли в набор форм. Нажмите на кнопку Сохранить как, чтобы сохранить внесенные вами изменения в виде нового набора форм. Опция "Сохранить как" по умолчанию назначит вашему набору форм первый доступный номер набора форм.
Сброс
Нажмите Сброс, чтобы очистить форму от всех значений и вернуть форму к исходному состоянию.
Сбросить вкладку
Для форм с вкладками выберите Сбросить вкладку, чтобы очистить активную вкладку от всех значений и сбросить вкладку до состояния по умолчанию, не внося никаких изменений в другие вкладки в диалоговом окне.
Повторить и Отменить (Вернуть)
Нажмите на опцию Отменить (CTRL + Z), чтобы отменить недавние изменения, внесённые в форму. После действия "Отменить", выберите опцию Повторить (CTRL + Y), чтобы восстановить последние изменения, которые были отменены.
Свернуть
Сверните форму, чтобы предварительно просмотреть результаты работы в Визексе или поработать с вводными значениями из Визекса, окна Свойства, Редактора файлов или Редактора чертежа.
Запуск
Нажмите кнопку Запуск, чтобы запустить процесс.