background top icon
background center wave icon
background filled rhombus icon
background two lines icon
background stroke rhombus icon

Скачать "#35. Агломеративная иерархическая кластеризация. Дендограмма | Машинное обучение"

input logo icon
Теги видео
|

Теги видео

иерархическая кластеризация
машинное обучение
машинное обучение python
машинное обучение с нуля
машинное обучение python уроки
машинное обучение лекции
машинное обучение курс
машинное обучение python с нуля
машинное обучение и искусственный интеллект
искусственный интеллект
искусственный интеллект на python
machine learning
machine learning python
machine learning course
machine learning engineer
machine learning tutorial
Субтитры
|

Субтитры

subtitles menu arrow
  • enАнглийский
Скачать
00:00:01
продолжаем рассматривать типовые
00:00:03
алгоритмы кластеризации и на очереди
00:00:05
алгоритму иерархической кластеризации в
00:00:08
чем суть такого подхода предположим у
00:00:11
нас имеется набор данных в числовом
00:00:13
призрак о пространстве заданный метрика
00:00:16
ru для удобства я изображу их как точки
00:00:19
в двумерном пространстве хотя в общем
00:00:21
случае пространство имеет и на
00:00:23
размерности по числу признаков далее мы
00:00:26
иерархические их либо объединяем либо
00:00:30
разбиваем на более мелкие кластеры при
00:00:32
объединении изначально каждый кластер
00:00:34
содерж по одному объекту а затем на
00:00:37
каждой итерации происходит объединение
00:00:39
двух ближайших кластеров образуя более
00:00:43
крупные группы на практике в самом
00:00:45
использует идею последовательных
00:00:47
объединений то есть агломерация объектов
00:00:50
отсюда и пошло название агломераты вно
00:00:53
иерархическая кластеризация одним из
00:00:56
первых ученых которые предпринял такой
00:00:58
подход к данным был карл линней который
00:01:01
пытался своей объемной картотеке
00:01:03
растений живут их объединить их по родам
00:01:06
и видам полученной группы объектов
00:01:08
близких по определенным признакам также
00:01:11
называют taxonomy фактически таксоны
00:01:14
кластер это одно и то же и я буду
00:01:16
использовать слова как синонимы давайте
00:01:19
подробнее рассмотрим идею ок лайнер
00:01:21
активной кластеризация то есть когда мы
00:01:24
объединяем данные о более крупные группы
00:01:26
это наиболее частый подход при
00:01:28
иерархической кластеризацию и так
00:01:31
изначально мы имеем набор данных и
00:01:33
каждый объект это независимый кластер
00:01:36
затем в соответствии с заданной метрикой
00:01:39
то есть расстояние между объектами мы
00:01:41
выбираем 2 ближайших таксона предположим
00:01:44
это вот эти вот у и в и затем объединяем
00:01:48
их в один единый таксон w этот шаг мы
00:01:52
легко выполнили потому что умеем
00:01:54
вычислять расстояние между отдельными
00:01:56
объектами данных но теперь у нас
00:01:58
появилась группой из двух объектов и нам
00:02:01
нужно уметь вычислять расстояние от неё
00:02:03
до всех остальных объектов выбор тет как
00:02:06
это сделать тут имеется множество
00:02:08
эвристик но например вот такие вот
00:02:10
расстояние ближнего соседа расстояния
00:02:12
дальнего соседа групповой средние
00:02:15
расстояния расстояние между центрами и
00:02:17
так далее так вот оказывается все эти
00:02:20
варианты и многие другие можно описать
00:02:23
одной единой математической формулой
00:02:26
который называется формула loose
00:02:28
уильямса здесь вот эти вот коэффициенты
00:02:30
альфа bt cam а это некий коэффициент и
00:02:33
которые определяют как именно мы будем
00:02:35
рассчитывать расстояние между taxonomy в
00:02:38
частности вот для этих приведенных
00:02:39
вариантов эти коэффициенты следующие и
00:02:41
на практике среди всех вот этих вот
00:02:44
эвристик чаще всего используют либо
00:02:46
расстояние дальнего соседа либо
00:02:48
расстояние орга потому что это именно
00:02:50
они как правил приводит к лучшим
00:02:52
результатам кластеризации давайте теперь
00:02:54
детальнее разберемся как работает этот
00:02:57
формула ланс уильямса проще всего
00:03:00
показать ее работу на примере двух
00:03:02
кластеров один состоит из двух объектов
00:03:05
из двух вот этих вот точечных объектов а
00:03:07
второй из-за того объекта и здесь
00:03:10
отмечено все составляющие вот этой вот
00:03:13
формулы давайте теперь предположим что
00:03:15
мы выбираем растояние ближним соседа в
00:03:18
этом случае коэффициенты альфа альфа и
00:03:21
бета и гамма равны соответственно вот
00:03:23
такие вот числом то есть у нас вот этот
00:03:26
формула в данном конкретном частном
00:03:28
варианте запишется вот эти вот образом
00:03:30
то есть одна вторая вот это вот
00:03:32
расстояние плюс 1 2 вот это вот
00:03:34
расстояние и минус одна вторая а то
00:03:37
модуля разности этих расстояний почему
00:03:40
именно так почему вот эта запись
00:03:43
соответствует расстоянию ближнего соседа
00:03:46
смотрите из мы раскроем этот модуль и
00:03:48
все аккуратно распишем то оказывается
00:03:51
что мы получаем либо расстоянии 1 раз
00:03:54
вот эта вот если оно минимально либо
00:03:56
расстояние rs если она минимальная то
00:04:00
есть как раз получаем расстояние
00:04:02
ближнего соседа между двумя taxonomy
00:04:05
после того как мы с вами вычислили вот
00:04:07
эти вот расстояние rws между вот эти вот
00:04:09
объединенным так сонам w и всеми
00:04:12
остальными которые состоят из одного
00:04:14
объекта мы на следующей итерации работа
00:04:17
алгоритма сможем вычислить расстояние по
00:04:20
аналогия и для более крупных таксонов
00:04:23
например если вот к этому w затем
00:04:26
добавится еще один таксон состоящий из
00:04:28
одной точки то есть вот этот аксон у то
00:04:31
для вычисления расстояния между вот этим
00:04:32
крупным так сонам стоящей из трех
00:04:34
элементов и так сонам с состоящим из
00:04:37
одного элемента мы можем воспользоваться
00:04:40
абсолютно той же самой формулой только
00:04:42
здесь вот это вот расстояние рвсн как
00:04:45
раз rws который было вычислено на
00:04:48
предыдущем этапе работы алгоритма между
00:04:50
вот эти вот так сонам из двух элементов
00:04:52
и всеми остальными стоящему из одного
00:04:55
объекта то есть вот этот расстоянии r
00:04:57
вес у нас есть а р с это обычное
00:05:00
расстояние между двумя точками в
00:05:01
соответствие заданной метрикой в итоге
00:05:04
используя ту же самую формулу мы
00:05:06
получаем же расстояние между так сонам
00:05:08
из трех объектов и всеми остальными
00:05:10
taxonomy состоящими из одного объекта
00:05:13
или из нескольких объектов потому что
00:05:15
будет не принципиально так как у нас
00:05:17
будет расстояние между этими аксоном и
00:05:19
вот этим вот мы также можем вычислить
00:05:22
расстояние и между двумя крупными
00:05:24
taxonomy то есть формула нс и уильямса
00:05:26
позволяет рекуррентно вычислять
00:05:29
расстояние между объединяем my
00:05:31
кластерами и на каждой итерации работа
00:05:33
алгоритма мы имеем полную информацию о
00:05:35
расстояниях между любыми парами
00:05:38
сформированных кластеров вот это
00:05:40
ключевой момент работы алгоритма оглы
00:05:42
нора тивной иерархической кластеризация
00:05:44
но по аналогии работает и все остальные
00:05:46
метрики с другими значениями
00:05:48
коэффициентов альфа бета и гамма в
00:05:51
результате вам приходим к следующему
00:05:52
алгоритму
00:05:53
иерархическая кластеризация в начале у
00:05:56
нас множество 1 или медных кластеров
00:05:59
затем мы вычисляем расстояние попарно и
00:06:01
расстояние между всеми объектами и
00:06:04
запускаем цикл начинаю 2 и заканчивай
00:06:07
количеством элементов выборки затем мы
00:06:10
среди множества объектов которые у нас
00:06:12
есть находим те у которых расстояние
00:06:15
минимальная объединяемых и формируем
00:06:18
новые множество из полученных кластеров
00:06:20
затем вы здесь вот по форме ли ланс
00:06:23
уильямса пересчитываем все попарно и
00:06:25
расстояние между новом сформированным
00:06:28
кластером и всеми остальными вот такой
00:06:31
достаточно простой алгоритм ключевое
00:06:33
здесь это использование вот этот formula
00:06:35
one сулимов ну а реализовать его на
00:06:38
python можно с помощью пакета скольки
00:06:40
тлен для этого мы должны импортировать
00:06:43
вот такой класс андриса агломерационной
00:06:46
кластеризация и затем используете его
00:06:49
вот эти вот образом мы здесь передаем
00:06:51
несколько параметров это количество
00:06:53
максимальное количество кластеров
00:06:55
которые мы хотим получить потом
00:06:57
расстояние между кластерами здесь задано
00:06:59
как расстояние оорта ну и вот эта вот
00:07:02
метрика между точечными объектами пусть
00:07:04
от будет обычно евклидова расстояния
00:07:06
затем для вот этого нашей выборки для
00:07:09
множества точек на плоскости мы как раз
00:07:12
применяем вот этот около мира тивно
00:07:14
кластеризацию но и отображаем результат
00:07:17
давайте посмотрим что у нас получится
00:07:18
запускаем эту программу и смотрите у нас
00:07:21
для множества точек как раз получилось 3
00:07:24
кластера но есть один кластер здесь 2 и
00:07:27
здесь 3 как раз три кластера мои задули
00:07:30
а вот это вот так называемая дэн до
00:07:32
грамма эта последовательность того как
00:07:35
вот эти вот точки объединялись то есть
00:07:37
смотрите здесь надо на грани по
00:07:40
вертикали откладывается минимальное
00:07:42
расстояние между кластерами а по
00:07:44
горизонтали исходные данные объекты и
00:07:47
грязь вот на этот график а мы сразу
00:07:49
видим в каком порядке происходило
00:07:51
объединение вот этих вот данных в группы
00:07:53
и насколько сильно кластеры отделены
00:07:56
друг от друга вот поэтому минимальному
00:07:58
расстоянию зачем вообще нужна эта
00:08:00
диаграмма вот глядя на нее мы можем
00:08:03
сделать анализ работы алгоритма
00:08:06
иерархическая кластеризация датаграммы
00:08:08
не должна иметь внутренних пересечений и
00:08:11
иметь как можно больше вот эти вот
00:08:13
минимальная отступ и конечно при выборе
00:08:15
разных метрик и способов вычисления
00:08:17
расстояние между кластерами данда грамм
00:08:20
бой тоже меняться и кроме оценки
00:08:22
качества этот график показывает нам где
00:08:24
можно провести уровень чтобы на выходе
00:08:26
получить строго определенное количество
00:08:29
кластеров например я сама проведем о и
00:08:31
вот на этом уровне то получим идет один
00:08:33
кластер здесь второй кластер а здесь у
00:08:36
нас будет 3 класс стр причем вот в этом
00:08:39
кластере у нас будут объекта x 8 x 6 x 7
00:08:43
вот они здесь представлены на этом
00:08:46
кластере у нас будут объекты x4 x5 вот
00:08:49
они ну и наконец вот на этом третьем
00:08:52
кластеры все остальные вот эти вот
00:08:54
объекты то есть вот так вот можно
00:08:56
интерпретировать этот график и так общее
00:08:58
заключение который здесь можно сделать
00:09:00
следующее дэн диаграмм должно иметь
00:09:02
монотонный характер что из не иметь
00:09:04
внутренних пересечений это за что
00:09:06
расстояние между объединяемые кластерами
00:09:08
постоянно должны увеличиваться и
00:09:11
существует теорем великана который
00:09:13
утверждает что dino гром будет
00:09:14
удовлетворять вот это вот условия если
00:09:16
коэффициенты будут соответствовать вот
00:09:19
этим вот условиям далее если у нас
00:09:21
имеется сжимающие расстояние то есть
00:09:23
когда на каждой последующей ты рация
00:09:25
расстояние между центрами кластеров
00:09:27
уменьшаются мы будем получать внизу
00:09:29
датаграммы разреженной кластеры а выше
00:09:32
корью более густые обычно практике все
00:09:34
же использует растягивающие расстояния
00:09:37
когда наоборот внизу образовывается
00:09:39
густые кластера а выше корни о более
00:09:41
разреженное так что это лучше
00:09:43
согласуется с представлением работы
00:09:45
алгоритма кластеризация но и общие
00:09:48
рекомендации который может дать по
00:09:49
использование около мира тивной йерархии
00:09:51
ческой кластеризации они следующие при
00:09:53
выборе метрики расстояния между
00:09:55
кластерами лучшая часть расстояния уорда
00:09:57
а затем попробую и другие например часто
00:10:00
берут расстоянию дальнего соседа потом
00:10:02
строит и несколько вариантов
00:10:04
кластеризации с раза метриками и патента
00:10:07
грамме выбирает лучший вариант ну и
00:10:09
наконец результирующий число кластеров
00:10:11
определяет по уровню где максимально
00:10:13
изменение минимального расстояния
00:10:16
[музыка]

Описание:

Виды иерархической кластеризации. Агломеративная иерархическая кластеризация. Формула Ланса-Уильямса. Реализация агломеративной иерархической кластеризации на языке Python. Понятие дендограммы. Рекомендации по использованию агломеративной иерархической кластеризации. Инфо-сайт: https://proproprogs.ru/ml Телеграм-канал: https://t.me/machine_learning_selfedu machine_learning_35.py: https://github.com/selfedu-rus/machine_learning

Готовим варианты загрузки

popular icon
Популярные
hd icon
HD видео
audio icon
Только звук
total icon
Все форматы
* — Если видео проигрывается в новой вкладке, перейдите в неё, а затем кликните по видео правой кнопкой мыши и выберите пункт "Сохранить видео как..."
** — Ссылка предназначенная для онлайн воспроизведения в специализированных плеерах

Вопросы о скачивании видео

mobile menu iconКак можно скачать видео "#35. Агломеративная иерархическая кластеризация. Дендограмма | Машинное обучение"?mobile menu icon

  • Сайт http://unidownloader.com/ — лучший способ скачать видео или отдельно аудиодорожку, если хочется обойтись без установки программ и расширений. Расширение UDL Helper — удобная кнопка, которая органично встраивается на сайты YouTube, Instagram и OK.ru для быстрого скачивания контента.

  • Программа UDL Client (для Windows) — самое мощное решение, поддерживающее более 900 сайтов, социальных сетей и видеохостингов, а также любое качество видео, которое доступно в источнике.

  • UDL Lite — представляет собой удобный доступ к сайту с мобильного устройства. С его помощью вы можете легко скачивать видео прямо на смартфон.

mobile menu iconКакой формат видео "#35. Агломеративная иерархическая кластеризация. Дендограмма | Машинное обучение" выбрать?mobile menu icon

  • Наилучшее качество имеют форматы FullHD (1080p), 2K (1440p), 4K (2160p) и 8K (4320p). Чем больше разрешение вашего экрана, тем выше должно быть качество видео. Однако следует учесть и другие факторы: скорость скачивания, количество свободного места, а также производительность устройства при воспроизведении.

mobile menu iconПочему компьютер зависает при загрузке видео "#35. Агломеративная иерархическая кластеризация. Дендограмма | Машинное обучение"?mobile menu icon

  • Полностью зависать браузер/компьютер не должен! Если это произошло, просьба сообщить об этом, указав ссылку на видео. Иногда видео нельзя скачать напрямую в подходящем формате, поэтому мы добавили возможность конвертации файла в нужный формат. В отдельных случаях этот процесс может активно использовать ресурсы компьютера.

mobile menu iconКак скачать видео "#35. Агломеративная иерархическая кластеризация. Дендограмма | Машинное обучение" на телефон?mobile menu icon

  • Вы можете скачать видео на свой смартфон с помощью сайта или pwa-приложения UDL Lite. Также есть возможность отправить ссылку на скачивание через QR-код с помощью расширения UDL Helper.

mobile menu iconКак скачать аудиодорожку (музыку) в MP3 "#35. Агломеративная иерархическая кластеризация. Дендограмма | Машинное обучение"?mobile menu icon

  • Самый удобный способ — воспользоваться программой UDL Client, которая поддерживает конвертацию видео в формат MP3. В некоторых случаях MP3 можно скачать и через расширение UDL Helper.

mobile menu iconКак сохранить кадр из видео "#35. Агломеративная иерархическая кластеризация. Дендограмма | Машинное обучение"?mobile menu icon

  • Эта функция доступна в расширении UDL Helper. Убедитесь, что в настройках отмечен пункт «Отображать кнопку сохранения скриншота из видео». В правом нижнем углу плеера левее иконки «Настройки» должна появиться иконка камеры, по нажатию на которую текущий кадр из видео будет сохранён на ваш компьютер в формате JPEG.

mobile menu iconСколько это всё стоит?mobile menu icon

  • Нисколько. Наши сервисы абсолютно бесплатны для всех пользователей. Здесь нет PRO подписок, нет ограничений на количество или максимальную длину скачиваемого видео.