Скачать "GRAD: Администрирование Greenplum / Arenadata DB - День 1.2"

Обложка аудиозаписи

Подождите немного, мы готовим ссылки для удобного просмотра видео без рекламы и его скачивания.

Предыдущее видео: KAFKA: Администрирование кластера Kafka_День 2.4 Следующее видео: KAFKA: Администрирование кластера Kafka_День 2.1

KAFKA: Администрирование кластера Kafka_День 2.1

KAFKA: Администрирование кластера Kafka_День 2.1

Канал: Школа Больших Данных

KAFKA: Администрирование кластера Kafka_День 2.4

KAFKA: Администрирование кластера Kafka_День 2.4

Канал: Школа Больших Данных

KAFKA: Администрирование кластера Kafka_День 3.1

KAFKA: Администрирование кластера Kafka_День 3.1

Канал: Школа Больших Данных

KAFKA: Администрирование кластера Kafka_День 1.4

KAFKA: Администрирование кластера Kafka_День 1.4

Канал: Школа Больших Данных

GRAD: Администрирование Greenplum / Arenadata DB - День 2.1

GRAD: Администрирование Greenplum / Arenadata DB - День 2.1

Канал: Школа Больших Данных

школа больших данных

большие данные

курсы по big data

курсы Hadoop

курсы Kafka

курсы Spark

курсы по NoSQL

курсы для администраторов Hadoop

курсы NiFi

курсы Machine Learning

курсы Data Schience

курсы для инженеров данных

курсы Apache Flink

00:00:02

думаю что вы будете его сильно

00:00:04

пересматривать А вот Ну тогда собственно

00:00:08

говоря начнем

00:00:14

Я очень люблю рисовать поэтому мы здесь

00:00:17

с вами будем постоянно что-то рисовать

00:00:19

Слава Богу у нас визуально

00:00:23

все прекрасно

00:00:26

так коллеги еще один момент То есть я

00:00:31

надеюсь что в процессе нашего курса То

00:00:34

есть вы все-таки в течение сегодняшнего

00:00:37

дня набросаете вопрос

00:00:38

в телеграммский Почему Потому что это

00:00:42

важно то есть нужно понимать что вас

00:00:44

больше всего интересует то есть какие

00:00:46

темы Вот именно в программе нашего курса

00:00:50

вам интересно то есть отказа

00:00:52

устойчивость

00:00:54

партиционирование

00:00:59

импорт экспортан их и так далее

00:01:03

масштабирование добавлением и так далее

00:01:06

именно как-то

00:01:10

сфокусироваться на определенных темах то

00:01:13

есть допустим если все из вас скажут что

00:01:15

вот нас вообще это не интересует Ну

00:01:18

тогда это конечно печаль постарайтесь

00:01:20

написать 123 вопроса на который для вас

00:01:23

будут живы трепещущий на которые вы

00:01:27

хотели бы получить ответ Я постараюсь

00:01:29

обязательно на них ответить

00:01:32

переходим собственно говоря презентации

00:01:36

Итак код курса у нас называется Град

00:01:40

сокращенно грим план Арена дата диби на

00:01:45

самом деле план администрирования То

00:01:48

есть если говорить правильно У нас есть

00:01:49

забавные курсы такие Как детки

00:01:53

код курса он означает

00:01:59

просто раньше были девка один девка два

00:02:02

а потом стали девки когда мы их

00:02:04

объединили

00:02:05

то есть по сути дела Град означает план

00:02:09

администратор и

00:02:11

начнем мы с вами собственно небольшого

00:02:16

введения план и в технологии больших

00:02:18

данных немножко зайдем

00:02:21

значит что я хотел бы сразу же сказать

00:02:26

конечно за время профессиональная

00:02:29

деятельности я столкнулся с многими

00:02:31

вещами в том числе

00:02:36

определенных

00:02:38

терминов Я не говорю что я это не

00:02:41

приемлем но это не всегда оправданные не

00:02:45

всегда интересно и не всегда

00:02:48

адекватно поэтому гринпла мне называю

00:02:53

гринплавом они Грин плюмом или чем-то

00:02:55

еще

00:02:56

зеленые сливы есть зеленые сливы первая

00:02:59

моя знакомство с этой технологией

00:03:01

состоялась наверное в 2015 году Вот

00:03:05

когда я работал тренером компании

00:03:09

и компании MC через какое-то время

00:03:14

приобрело соответственно компании

00:03:18

сам продукт но большинство компаний они

00:03:21

так или иначе размножаются поглощением

00:03:25

слиянием и соответственно технологии

00:03:28

появилась

00:03:30

То есть я не скажу что на тот момент я

00:03:32

вплотную ей занимался то есть Врать не

00:03:35

буду и в большей степени я тогда

00:03:38

занимался сторожами то есть системами

00:03:41

хранения данных интерфейс уровня

00:03:44

Ну и Безопасность но при этом как бы

00:03:48

этой технологии у меня постоянно была на

00:03:51

слуху и мы использовали ее Вот именно

00:03:55

в прикладном уровне то есть мы

00:03:59

использовали план на том оборудование

00:04:02

которое используется компании сейчас

00:04:05

сама уже исчезла то есть на место

00:04:11

и соответственно линейка продуктов тоже

00:04:14

соответственно изменилась к этому мы еще

00:04:18

Давайте попробуем с позиционировать Что

00:04:21

из себя представляет Green

00:04:24

а какое место он занимает и что

00:04:27

собственно говоря мы встретим можем

00:04:29

сделать для примера Давайте узнаем что

00:04:33

же такое Носки то есть носки L это на

00:04:37

самом деле но английский то есть

00:04:39

некоторые говорят что это не таскерею на

00:04:41

самом деле это SQL но иногда он

00:04:43

ограниченный или немножко

00:04:47

урезан

00:04:49

и не обязательно Следуйте аннотациям

00:04:52

которые присутствуют в реляционном мире

00:04:56

поэтому все решения Их достаточно сложно

00:05:01

классифицировать существует большое

00:05:03

количество

00:05:04

всевозможных хранилищ которые так или

00:05:07

иначе подпадают под определение на

00:05:09

русский То есть это Киеве истории

00:05:13

и документные хранилище типа

00:05:17

графовые базы данных типа неофаджи это

00:05:23

допустим Тарантул или Аэро Спайк или

00:05:27

поисковую базу данных такие как

00:05:30

эластик Syoss доллар все что партнеры

00:05:36

и соответственно

00:05:40

носки Это очень-очень большой кусок

00:05:44

всевозможных технологий То есть я вот к

00:05:48

сожалению даже не вставил это слайд но я

00:05:51

сейчас постараюсь показать

00:05:53

одну Это не совсем презентация это

00:05:56

просто кусочек документа

00:06:04

покажу

00:06:07

ладно Это не так важно а вот есть

00:06:12

один документ я вам тоже его предоставлю

00:06:15

Ой не то дернул

00:06:18

вот есть такая инфографика

00:06:34

такая инфографика это так называемый

00:06:37

дата и artificial intelligence То есть

00:06:41

сейчас Я увеличу с тем чтобы было более

00:06:44

понятно То есть вот он называется дата и

00:06:47

артефакт что лежит здесь по сути дела

00:06:51

каталогизированные и структурированные

00:06:54

десятки можно сказать даже сотни

00:06:57

всевозможных инструментов более свежая

00:07:00

версия можно попытаться поискать Вот на

00:07:02

этом сайте Но насколько я знаю они не

00:07:04

обновляли не знаю связи с чем связано с

00:07:07

к видом еще с чем-то то есть сайт моторг

00:07:12

и вот этот слайдик и вот этот документ я

00:07:16

собственно говоря вот прямо сейчас кладу

00:07:19

соответственно нашу папочку Я кстати

00:07:22

забыл что у нас есть Папочка которую мы

00:07:25

с вами будем использовать И куда я буду

00:07:28

выкладывать материал чуть позже

00:07:31

предоставлю к ней доступ с тем что вы

00:07:34

почувствовали себя полноправным членом

00:07:36

нашего курса так и я ее уже положил и

00:07:41

соответственно здесь что мы можем с вами

00:07:44

посмотреть но здесь все инструменты

00:07:47

которые так или иначе используются в

00:07:50

больших данных или же они поделены на

00:07:54

группы то есть Вот пример здесь есть

00:07:56

большая группа которая относится к мосту

00:07:59

данных вот мы если можем сюда посмотреть

00:08:02

вы увидите там разные типы науки или

00:08:05

решения отдельно находится нее решение

00:08:09

то есть вот вы здесь видите опять же там

00:08:15

собственно говоря

00:08:18

дальше и есть графы базы данных отдельно

00:08:24

есть MP3 база данных то есть вот вы

00:08:28

видите

00:08:29

и так далее и тому сервер лес кластерные

00:08:33

сиси и так далее То есть есть большое

00:08:36

количество решений так или иначе которые

00:08:39

предназначены для выполнения

00:08:41

определенных целей то есть напрямую

00:08:44

здесь Грин плама вы не видите но если

00:08:46

перейти чуть ниже то у нас есть опять же

00:08:50

Open Source и вот здесь мы можем с вами

00:08:55

попробовать поискать соответственно те

00:08:58

решения которые у нас здесь опять же

00:09:01

если Вы посмотрите Кассандра монго тебе

00:09:06

и так далее То есть вы опять же не

00:09:10

увидите

00:09:11

по какой-то причине он перестал здесь

00:09:15

присутствует хотя в принципе он

00:09:18

относится

00:09:20

Ну не знаю Я кстати

00:09:23

вот это как раз один из вариантов

00:09:26

экспромта когда я пытался его здесь вот

00:09:30

вытащить из

00:09:32

шапки а не получилось Здесь вы нет но

00:09:36

здесь зато есть пил пива то это компания

00:09:40

которая

00:09:41

собственно оригинально владел акрила мы

00:09:44

об этом еще немножечко поговорим и

00:09:47

данное решение относится к низким базам

00:09:50

данных и в том числе

00:09:53

условно это подразделение оно достаточно

00:09:57

условное поэтому не цепляйтесь за

00:10:00

позиционирование данного продукта Мы о

00:10:03

нем еще будем много говорить Ну и еще

00:10:07

один момент который я хотел бы вам

00:10:09

показать

00:10:13

есть на амазоне специально для этих

00:10:18

целей Я здесь сделал вот такую ссылочку

00:10:21

сейчас ее попытаюсь открыть прямо отсюда

00:10:25

до замечательно то есть определение что

00:10:28

такое новый SQL то есть

00:10:30

высокопроизводить не реляционные базы

00:10:32

данных с гибкими моделями данных и здесь

00:10:35

описаны вот по версии Amazon

00:10:39

5 возможных вариантов баз данных которые

00:10:43

относятся к новске То есть это база

00:10:46

данных на основе ключ значение

00:10:48

это документные базы данных базы данных

00:10:52

памяти и поисковой и соответственно

00:10:55

здесь очень подробно рассказано чем же

00:10:58

отличаются носки или решение

00:11:02

разного типа

00:11:03

то есть гибкость масштабирования список

00:11:06

производительность какие-то

00:11:08

дополнительные функциональные

00:11:09

возможности То есть если кому-то

00:11:11

интересно то обязательно посмотрите Этот

00:11:14

документ Тем более что написано на

00:11:16

русском языке то есть его достаточно

00:11:18

просто можно будет соответственно

00:11:21

посмотреть и получить некое

00:11:24

представление о том что же из себя

00:11:26

представляет мир новый сквель то есть по

00:11:29

сути дела гринплан относится к ноускиным

00:11:32

решениям Почему Потому что он ограничено

00:11:35

поддерживает

00:11:39

он не является полностью реляционным то

00:11:43

есть отсутствует некоторые особенности

00:11:46

которые присущие реляционному миру

00:11:49

поэтому и можно выделить данное решение

00:11:53

в раздел носки

00:11:56

то есть его сложно позиционировать и вы

00:11:59

видели что на той самой диаграмме

00:12:01

которую я вам показывал то есть гринплан

00:12:04

сам по себе не относится вот к той или

00:12:09

иной технологии Хотя это достаточно Странно

00:12:12

то есть совсем недавно

00:12:14

он был я постараюсь разобраться что же

00:12:18

здесь произошло Но на самом деле Вот

00:12:20

незаметен что он счастье

00:12:23

но что такое это массив параллельного

00:12:28

процессинг база данных

00:12:31

которую мы с вами сейчас будем изучать

00:12:35

если говорить про мир массив параллело

00:12:39

процессе то существует решение которое

00:12:41

относится так или иначе к данному миру и

00:12:45

Мы это с вами видели Если вы вернетесь

00:12:48

на данное на данный слайд вы увидите 10

00:12:52

рода вертит системе

00:12:57

там другие менее известные но по крайней

00:13:01

мере на нашем сегменте Давайте поговорим

00:13:03

немножко об этом дело в том что все

00:13:08

базы данных Если

00:13:11

попробовать порисовать

00:13:13

существует некий подход

00:13:21

классический Когда у нас есть база

00:13:24

данных

00:13:26

и данная база данных установлено

00:13:29

каком-либо сервере в данном случае мы

00:13:32

используем

00:13:39

процессинг

00:13:41

мультипроцессинг smp систему

00:13:44

которую представляет из себя

00:13:48

оперативная память процессор

00:13:51

соответственно дисковые подсистему

00:13:55

и сеть

00:13:57

и соответственно мы используем все

00:14:00

ресурсы в пределах одного сердца

00:14:03

собственно весь процессинг он

00:14:05

осуществляется

00:14:07

в том объеме оперативной памяти которая

00:14:10

принадлежит данному сервере И если нам

00:14:14

необходимо то есть увеличить

00:14:15

производительность то нам предстоит

00:14:20

увеличивать

00:14:25

наш сервер потому как на нашем сервере

00:14:29

существует ограниченный объем

00:14:30

оперативной памяти количество слотов там

00:14:33

определенные модели процессоров с

00:14:36

определенной платформой количество

00:14:37

рейзеров для подключения дисков

00:14:39

соответственно Razer для плат То есть

00:14:42

это вариант масштабирования который

00:14:44

присущ skyle in системам то есть который

00:14:48

масштабируется вертикально То есть если

00:14:50

вам не хватает мощности вашего сервера и

00:14:54

соответственно объемы оперативной памяти

00:14:56

Когда вы помещаете все необходимые

00:14:59

данные для последующего процесса нам

00:15:01

нужно масштабироваться с помощью

00:15:03

вертикального масштабирования то есть

00:15:06

такой подход используется в компьютерах

00:15:08

сотовых телефонах соответственно войти

00:15:11

технологии То есть это масштабирование

00:15:14

в тех ситуациях когда объем данных

00:15:17

который вы хотите обрабатывать

00:15:19

значительно превышает ваши возможности

00:15:21

то есть по сути дела реляционная система

00:15:25

Как используют

00:15:27

существующие возможности То есть к

00:15:29

примеру У вас есть некая объем данных

00:15:32

который Вам нужно обрабатывать то есть

00:15:35

этот объем данных по идее для

00:15:38

эффективного процессинга нужно поместить

00:15:40

в оперативную память

00:15:42

но объем оперативной памяти он не

00:15:46

бесконечен да у вас может быть несколько

00:15:48

оперативной памяти особенно в дорогих

00:15:51

системах то есть там где еще

00:15:53

используется

00:15:56

горячее резервирование

00:15:58

все равно достаточно дорогая и в

00:16:02

результате для того чтобы уменьшить этот

00:16:04

объем мы переходим как раз нормализации

00:16:08

данных что мы делаем мы стараемся

00:16:12

уменьшить избыточность

00:16:15

разбить Вот это большое

00:16:17

пространство данных на несколько таблиц

00:16:21

То есть у нас есть таблица фактов и у

00:16:25

нас есть всевозможные мелкие справочники

00:16:27

которые используются для того чтобы

00:16:29

устранить избыточность в этих для того

00:16:32

чтобы уменьшить ту информацию которую мы

00:16:35

пытаемся поместить в оперативную память

00:16:38

для процессов и это как раз реляционный

00:16:42

мир Когда у нас есть десятки сотни

00:16:44

таблиц которые ссылаются друг на друга с

00:16:49

помощью праймеринг ключей составных

00:16:51

ключей и за счет этого уменьшается объем

00:16:54

и устраняется те ограничения которые

00:16:56

существуют

00:16:57

в реляционном Да эта система работает

00:17:01

очень быстро

00:17:03

Но работает Они за счет того что у нас

00:17:06

есть оперативная память и весь процесс

00:17:10

по существу определяется через

00:17:13

оперативную в мире больших данных Где

00:17:17

процессинг должен осуществляться на

00:17:19

Очень большом объеме То есть когда речь

00:17:22

идет о китабайтах информации

00:17:25

использование вертикальной

00:17:27

масштабируемых систем оно ограничивает

00:17:30

аналитики больших данных и в данном

00:17:34

случае мы должны переходить немного

00:17:36

другого подхода что для этих целей

00:17:39

предлагает мир

00:17:41

или других подобных систем то есть эта

00:17:45

технология которая

00:17:49

относится к технологиям Screen Out

00:17:54

то есть масштабирование горизонтальных

00:17:56

как правило У нас есть некий пул

00:17:59

ресурсов

00:18:01

который позволяет объединить ресурсы

00:18:04

процессора оперативной памяти дисковые

00:18:07

подсистемы сети я не говорю что мы

00:18:10

объединяем это именно в

00:18:13

технологии

00:18:14

используются разные то есть допустим

00:18:16

есть технологии массив параллело

00:18:18

процессинга который используется в

00:18:20

технологиях ходуба есть та же самая

00:18:23

Кафка То есть она не относится к системе

00:18:27

но так или иначе используют примерно

00:18:29

такой же подход к масштабированию то

00:18:32

есть большие данных речь идет о больших

00:18:35

объемах то есть мы должны обрабатывать

00:18:37

китобайты десятки петабайт возможно

00:18:39

сотни за байка информации и для того

00:18:42

чтобы это сделать То есть мы не можем

00:18:45

основываться именно на объеме

00:18:48

оперативной памяти для того чтобы

00:18:50

обеспечить процесс большого объема то

00:18:52

есть мы должны

00:18:55

то есть условно говоря тот объем который

00:18:58

у нас есть

00:19:00

порезать на шарды и каждый из этих шагов

00:19:04

обрабатывать своим сервер

00:19:08

то есть вот она технология MPV

00:19:12

эффективность MP3 технологии возникает в

00:19:15

том случае когда вы храните данные на

00:19:18

своих серверах

00:19:21

и там же находится и процессинговый

00:19:24

мощности то есть процессор и оперативная

00:19:28

память

00:19:30

то есть Виртуально это один и тот же Пул

00:19:34

То есть вы объединяете возможности

00:19:36

десятков и сотни компьютеров или

00:19:38

серверов для того чтобы обрабатывать

00:19:40

пита байты информации но физически

00:19:44

каждый из физических процессоров или

00:19:48

логических виртуальных процессоров

00:19:50

обрабатывать свой чат информации то есть

00:19:54

Поэтому мы можем большую объем

00:19:57

обрабатывать на большем количестве то

00:20:01

есть нам не нужно покупать сверх дорогие

00:20:03

решения для этих целей подходит

00:20:11

типовое оборудование которое не обладают

00:20:16

достаточно высокой надежностью

00:20:17

быстродействие и

00:20:20

в том числе стоимость То есть это

00:20:23

обыкновенные типовые решения с помощью

00:20:26

которых Вы можете собрать кластер

00:20:28

который будет характеризоваться высокой

00:20:30

степенью надежности производительности и

00:20:34

то есть в нескольких словах это именно

00:20:37

то чем

00:20:43

значение я стараюсь отключаться Что

00:20:47

такое предупредить и вот мир массив

00:20:51

параллел Processing subd он как раз

00:20:53

включает себя ряд решений которые

00:20:56

позволяют это реализовать но естественно

00:20:58

данный мир не обошелся без проникновения

00:21:02

туда больших игроков то есть вот вы

00:21:04

видите ороков Реал Application Classic

00:21:06

коллеги У кого из вас есть опыт работы с

00:21:10

данным

00:21:15

вот Монстр стоит очень очень дорого но

00:21:19

уроков сам по себе всегда думал есть

00:21:21

Hewlett packardire дата вертика есть IBM

00:21:26

и так далее То есть вы платите Pur CPU

00:21:29

percore то есть лицензирование идет по

00:21:32

количеству процессоров на самом деле

00:21:35

Реал Application кластер это конечно

00:21:38

Замечательная вещь вообще орковские

00:21:40

продукты они не идут ни в какое

00:21:42

сравнение с миром Open Source с тем же

00:21:44

самым но это не касается

00:21:46

производительности Дело в том что сделал

00:21:49

Application кластер не очень хорошо

00:21:50

масштабируется То есть вы не можете

00:21:54

создать

00:21:56

массив параллельном процессе больше 10

00:21:59

узлов насколько я знаю

00:22:02

по тем данным которые у меня есть И

00:22:04

причем Это решение стоит очень дорого То

00:22:08

есть просто очень очень дорого Ну тем

00:22:12

более что сейчас мы находимся под

00:22:14

санкциями поэтому связываться с нами

00:22:17

вряд ли кто сможет

00:22:18

Microsoft escale есть возможность массив

00:22:22

параллело процессинга появилась она

00:22:24

будем так не совсем давно и собственно

00:22:29

говоря позволяет выполнять некое

00:22:31

масштабирование но тоже очень-очень

00:22:33

небольшой есть решение applience то есть

00:22:38

это вертика тире дата и другие

00:22:40

технологии которые при этом используют

00:22:43

технологии массив параллельном процессе

00:22:45

Но это апланец опять же для нас сейчас

00:22:48

наверное недоступен

00:22:51

а и есть опытные решения такие как

00:22:54

грин-план в частности который позволяет

00:22:57

реализовать механизм массив правил

00:23:00

процессинга и мы с вами будем его

00:23:02

изучать в качестве движка используется

00:23:06

достаточно популярная база постгрей SQL

00:23:09

которые не является массив параллельного

00:23:12

процесса тут сразу же вам стоит понять и

00:23:16

уяснить и принять

00:23:17

То есть постгрейски это основной движок

00:23:21

который используется Green и в данной

00:23:24

версии используется 94 версия постгре то

00:23:27

есть насколько актуальная сейчас это 10

00:23:30

11 которые Если Вы посмотрите на курс

00:23:34

греческий но нужно понять что под

00:23:36

капотом Green clama работает

00:23:38

обыкновенный постгрейский то есть на

00:23:41

всех вашего кластера будет обыкновенный

00:23:44

по-английски это

00:23:51

здесь условно говоря массив параллел

00:23:53

процессе Database которая использует

00:23:56

движок подгрешный для того чтобы

00:23:59

обеспечить вот

00:24:01

функционал массив параллел парацетинга

00:24:03

То есть гринпан это настройка которая

00:24:05

позволяет за счет использования по сгреб

00:24:08

Engine то есть обеспечить массив

00:24:11

параллел Processing

00:24:13

Кроме этого условно можно отнести к миру

00:24:18

массив параллельного процессинга и такие

00:24:20

решения которые базируются на базе

00:24:23

ходупа Кто из вас

00:24:33

Отлично Так ходуп это собственно говоря

00:24:39

файловая система То есть это фреймворк

00:24:42

правильно сказать Она не пайловая

00:24:45

система это фреймворк который позволяет

00:24:47

Вот то есть организовать структуру для

00:24:51

процессинга больших данных на основе

00:24:54

файловой системы но не только насчет

00:24:56

файловой системы Но в основном то есть

00:24:59

по дефолту это файловая система hdf и на

00:25:02

базе ходуба работают такие технологии

00:25:05

Хаев Спарк импала Престо куду и другие

00:25:11

технологии которые позволяют вот

00:25:13

использовать возможности масштабирования

00:25:15

ходуба то есть ходу это вот тот слайд

00:25:20

который я вам рисовал

00:25:21

создание общего пола это в принципе

00:25:24

можно сказать что

00:25:26

мы опять же используем некий слой

00:25:29

абстракции в ходу

00:25:31

hdfs файловая система она не существует

00:25:34

она виртуальной Она позволяет из

00:25:37

отдельных линстонцев Linux операционной

00:25:40

системы То есть за счет виртуального Да

00:25:42

я драйвера объединить это в единую

00:25:45

файловую систему и распределить

00:25:48

процессинг на отдельные узлы то есть

00:25:51

сделать его

00:25:52

размазанной для того чтобы обеспечить

00:25:55

массив концепцию стратегию массив

00:25:59

параллел процессинг то есть благодаря

00:26:01

тому что мы разбиваем большое на мелкие

00:26:04

части то есть мы можем их обрабатывать в

00:26:06

параллеле и за счет этого мы можем

00:26:08

обрабатывать любой объем информации

00:26:11

концепция MP3 Понятно дамы и господа

00:26:20

то есть Представьте если к нам нужна

00:26:22

была пицца Мы хотели бы взять и

00:26:25

накормить вас всех в обед за счет

00:26:28

заведения то есть мы купили бы несколько

00:26:31

больших больших пицц или одну

00:26:32

очень-очень большую пиццу нас с вами 6

00:26:36

плюс Я плюс Ксения то есть 8 человек

00:26:40

идеально

00:26:41

вот и пиццу порезать на 8 кусков очень

00:26:45

просто то есть пополам пополам и еще

00:26:47

пополам каждый кусок в результате у нас

00:26:50

появилась бы 8 кусочков но у нас две

00:26:55

дамы соответственно я уже поел кто-то не

00:27:00

любит такую пиццу и в результате

00:27:02

производительность наша немножко разные

00:27:04

то есть мы взяли пиццу не порезано то

00:27:08

обработать ее восьмеры Было бы очень

00:27:11

сложно представьте себе

00:27:13

вгрызли с нее со всех сторон толкались

00:27:16

бы мешали друг другу то есть наш

00:27:18

производительность есть до конца была бы

00:27:20

не очень впечатляющей поэтому мы Режем

00:27:23

на кусочки на слайс

00:27:26

а и Если учесть что производитель нашей

00:27:30

не одинаковая

00:27:33

то было бы даже удобнее что те кто

00:27:36

работает более быстро

00:27:38

съели бы еще по одному кусочку то есть

00:27:42

результате мы можем разбить это еще на

00:27:44

несколько кусочков сделать не 8 кусочков

00:27:47

допустим 16 то есть кто-то съел два

00:27:50

кто-то съел три кто-то съел один в

00:27:52

результате мы очень быстро можем

00:27:54

обрабатывать эти

00:27:56

и время поедания более мелкого кусочка

00:28:00

она практически уменьшается в два раза

00:28:02

То есть если вместо 8 экземпляров

00:28:05

которые будут осуществлять процессе у

00:28:08

нас будет 16 то мы по сути дела

00:28:09

практически линейно

00:28:15

линейно увеличиваем производительность

00:28:17

нашего решения вот эта концепция mpp то

00:28:21

есть во-первых мы можем обрабатывать

00:28:23

любые какие угодно объемы данных

00:28:26

во-вторых мы обрабатываем их значительно

00:28:30

быстрее то есть Если сравнивать

00:28:32

производительность 40 и грин-клама то на

00:28:36

больших объемах то есть очень сильно

00:28:40

проигрывает именно за счет технологии

00:28:42

массив параллельного процесса мы раньше

00:28:45

даже делали стенд на простом ноутбуке то

00:28:48

есть с четырьмя институтами

00:28:51

работает в разы быстрее именно за счет

00:28:54

массив параллело процентов

00:28:56

и соответственно в ходубе есть решение

00:28:59

такие как хайв с парком пола который

00:29:02

использует вот этот ходу фреймворка для

00:29:05

массив параллел процесса

00:29:07

с тем чтобы обрабатывать с помощью

00:29:09

стандартных запросов

00:29:13

данные которые лежат файловой системе и

00:29:16

по сути дела greenplan Это

00:29:21

еще один инструмент который позволяет

00:29:23

это делать

00:29:25

и если задавать себе вопрос почему же

00:29:28

собственно говоря чем он так хорош а во

00:29:33

первых из всех этих решений но условно

00:29:36

говоря если мы не Обращаемся к файловой

00:29:38

системе

00:29:40

то это решение может быть для вас

00:29:42

абсолютно бесплатно потому что это Open

00:29:45

Source решения оно доступно для

00:29:47

скачивания Вы можете его поставить и

00:29:49

использовать

00:29:50

все решения из данного сектора стоит

00:29:53

миллионы долларов по лицензии если вам

00:29:56

нужно обрабатывать достаточно большие

00:29:58

объемы и Кроме того для нас этот мир на

00:30:03

сегодняшний день немножко перед закрытой

00:30:06

а что общего между всеми этими решениями

00:30:12

которые мы с вами обсуждали

00:30:39

но для начала Давайте посмотрим

00:30:42

какие у нас есть аббревиатуры которые мы

00:30:45

хотели бы с вами использовать

00:30:48

при изучении данного материала Здесь вы

00:30:53

видите что у нас есть

00:30:58

так называемый массив параллельно

00:31:00

процессинг то есть массив

00:31:05

Прошу прощения массив

00:31:10

полностью он говорит массив или и у нас

00:31:13

есть симметрик

00:31:17

мультипроцессинг

00:31:21

симметрии правда с двумя м

00:31:24

мульти Processing системы здесь

00:31:28

симметрик мультипроцессинг это как раз

00:31:30

та самая классическая система о которой

00:31:33

мы с вами говорили то есть у нас есть

00:31:35

база данных У нас есть некое количество

00:31:38

процессоров

00:31:40

который использует

00:31:43

одну и ту же оперативную память

00:31:46

и соответственно в параллели то есть

00:31:50

симметрично обрабатывает данные то есть

00:31:52

всю информацию которую вы можете

00:31:54

поместить в оперативную память Вы можете

00:31:56

обработать то есть это технология

00:31:59

использует единый объем оперативной

00:32:02

памяти и работает в рамках одной

00:32:05

операционной системы в случае там Реала

00:32:07

плителем есть возможность организовать

00:32:10

некий кластер

00:32:12

массив параллельного процессинг в данном

00:32:15

случае распределяет процессинг между

00:32:17

несколькими сущностями между несколькими

00:32:20

узлами

00:32:21

и в основном основные вопросы которые у

00:32:25

нас возникают при работе с параллельными

00:32:28

базами данных это Каким образом мы будем

00:32:31

хранить данные то есть вопрос такой

00:32:34

простой как она резать данные это как мы

00:32:36

их собираемся хранить

00:32:39

И как мы в последующих будем их

00:32:41

обрабатывать то есть процесс

00:32:44

по большому счету Весь процесс он всегда

00:32:48

состоит из двух частей то есть где-то

00:32:50

нужно хранить это и потом обрабатывать

00:32:52

потому что для того чтобы обрабатывать

00:32:54

данные нужно сначала где-то взять

00:32:56

сохранить и возможно накопить в течение

00:32:59

определенного периода времени а потом

00:33:02

уже приступить соответственно

00:33:05

и вот параллельные Они как раз этим

00:33:08

отличаются то есть симметрии

00:33:11

мульти процессинг системы и есть массив

00:33:15

параллельно в процессе системы Это

00:33:17

основные тенденции которые в данный

00:33:20

момент существует на рынке но кроме

00:33:22

этого существует также системы и алакс

00:33:25

системы

00:33:27

это онлайн транзакция системы которые

00:33:31

предназначены для работы с транзакциями

00:33:34

мы здесь не говорим о транзакции

00:33:39

То есть ацид это атомисити консистенции

00:33:44

isolation и durability для того чтобы на

00:33:47

слух это не сильно воспринималось не все

00:33:50

это воспринимает именно так ацид давайте

00:33:53

коротко на этом остановлюсь То есть

00:33:56

транзакционность это

00:33:58

следование данным принципам атомить и

00:34:03

отомстить и означает что каждая

00:34:05

транзакция должна быть атомарной

00:34:08

неделимой то есть в данном случае Вы

00:34:12

определяете что вот эта транзакция она

00:34:14

должна быть выполнена либо полностью

00:34:15

либо не выполнена вообще дальше

00:34:19

по завершению транзакции данные должны

00:34:23

быть консистенции

00:34:25

[музыка]

00:34:28

и до начала транзакции данные тоже

00:34:32

консистентные То есть когда Мы выполняем

00:34:34

какую-либо транзакцию данные до и после

00:34:37

всегда остаются в конце то есть они

00:34:40

целостные

00:34:43

каждая транзакция изолированы друг от

00:34:46

друга и залейших

00:34:50

то есть во-первых они атамара вспоминают

00:34:53

атомарное означает что неделимый

00:34:56

соответственно и они находятся в

00:34:59

изоляции друг от друга поэтому

00:35:01

транзакции не пересекаются ну и плюс еще

00:35:04

есть принцип дуробилити

00:35:09

означает что если транзакция не может

00:35:11

быть выполнена то по причине того что

00:35:15

она атомарная Вы должны вернуться в

00:35:17

предыдущее состояние То есть это

00:35:19

возможность рекавери то есть

00:35:21

восстановление в предыдущее состояние с

00:35:23

тем чтобы данные были в консистентном

00:35:26

состоянии То есть то что присутствовал

00:35:28

то есть вот это четыре основополагающих

00:35:30

принципы которые относятся к

00:35:33

транзакционным системам

00:35:35

но когда мы говорим об системы Это не

00:35:39

всегда отцы

00:35:40

а ЦИТ нужен в тех ситуациях Когда вы

00:35:43

работаете с бизнес критиком системой и

00:35:46

требуется Вот именно поддержка

00:35:49

транзакционность транзакция - это

00:35:53

какая-то последовательность операции

00:35:56

которая определяется

00:35:58

начальной системой то есть примеру если

00:36:01

Я произношу предложение Мама мыла раму

00:36:05

точка Вот это транзакция то есть точка

00:36:09

начало предложения конец предложения Вот

00:36:11

это транзакции То есть то что я

00:36:13

попытался передать в одном сообщении

00:36:18

и исходная система определяет начало и

00:36:22

конец транзакции то есть когда я начинаю

00:36:25

какую-то свою мысль Я говорю товарищи

00:36:28

студенты дамы и господа Сейчас расскажу

00:36:30

важное сообщение начало поехали и по

00:36:36

завершению данной мысли я ставлю точку

00:36:38

говорю конец мысли Вот это и ltp система

00:36:43

в данном случае это транзакционный базу

00:36:46

данных который предназначены для

00:36:48

поддержки

00:36:49

ежедневных бизнес операций то есть

00:36:52

частности Если вы работаете в банке то

00:36:54

это может быть какая-то финансовая

00:36:55

транзакция то есть примеру проводка или

00:36:58

оплата мной сотового телефона Допустим

00:37:02

или

00:37:05

что-то

00:37:06

выполнение транзакции

00:37:09

в магазине То есть я пришел к примеру в

00:37:12

Пятерочку и

00:37:15

Магнит на корзину продуктов и оплатил их

00:37:20

на кассе то есть вот транзакция это то

00:37:22

что я купил за один заход в магазин то

00:37:25

есть если я вернусь домой распакую

00:37:28

продукты положу в магазин и пойму что я

00:37:31

не взял селедку то я обойду снова в

00:37:34

магазин но это будет уже вторая

00:37:35

транзакция То есть это некая

00:37:38

последовательность действий которые

00:37:40

выполнив в течение одной сессии так вот

00:37:43

у scp-системы это особая системы которые

00:37:48

обычно используют нормализацию то есть

00:37:52

устраняется избыточность в этих системах

00:37:54

Почему

00:37:58

Потому что если мы не будем устранять

00:38:01

избыточность там будет очень-очень много

00:38:04

лишней информации данных которые мы не

00:38:07

сможем очень быстро обрабатывать Дело в

00:38:10

том что

00:38:11

проблема реляционных систем и не

00:38:14

реляционных систем то есть они очень

00:38:17

хорошо работает в одних сценариях и

00:38:20

плохо работают других то есть мир

00:38:22

больших данных предназначен в большей

00:38:24

степени для аналитики

00:38:27

Почему Потому что аналитика она

00:38:31

зиждется назову такой странное страшное

00:38:34

и старое слово основывается на

00:38:38

исторических данных то есть сделать

00:38:41

аналитику на Real Time данных

00:38:43

проблематично

00:38:45

ну к примеру коллеги Я произношу слово

00:38:48

зеленый

00:38:50

обработайте это слово

00:39:00

какие есть предположения о чем я говорю

00:39:05

Ну хорошо зеленые тапочки

00:39:12

контекста нет

00:39:14

то есть обработать зеленые тапочки

00:39:16

невозможно

00:39:17

купить зеленые тапочки найти зеленые

00:39:20

тапочки Где мои зеленые тапочки то есть

00:39:23

нужен контекст а для этого нужна

00:39:24

предыстория Поэтому в мире больших

00:39:27

данных это мир больше степени аналитики

00:39:30

который касается процессинга

00:39:33

исторических И для этого мы должны

00:39:37

обрабатывать очень-очень большой объем

00:39:39

информации теперь представьте себе мир у

00:39:43

ncp то есть примеру мы записываем все

00:39:47

транзакции финансовые транзакции клиента

00:39:49

я прихожу со своей карточкой и допустим

00:39:53

пытаясь снять ее деньги или перевожу

00:39:56

деньги там на свой аккаунт допустим в

00:40:00

другом банке или оплачиваем услуги МТС

00:40:02

ЖКХ и плачу

00:40:05

алименты

00:40:07

то есть транзакции которую я провожу

00:40:11

должна присутствовать чаще всего

00:40:14

небольшое объем информации

00:40:16

то есть примеру это идентификатор

00:40:18

транзакция транзакция ID

00:40:22

дальше это отметка времени

00:40:27

это собственно говоря там какой-то тип

00:40:30

транзакции Ну и сама транзакция если я

00:40:33

Оплачиваю что-то С какого счета

00:40:40

сколько

00:40:44

и кому

00:40:48

там какая-то еще дополнительная

00:40:50

информация все больше собственно говоря

00:40:52

ничего не надо но этот счет принадлежит

00:40:56

мне

00:40:58

а соответственно у меня есть аккаунт

00:41:01

Возможно не один мне принадлежат там

00:41:05

какие-то карточки Меня зовут

00:41:07

комиссаренко Николай Викторович

00:41:10

такого-то года рождения

00:41:13

Проживающий по такому-то адресу до этого

00:41:16

проживал по такому-то У меня есть

00:41:17

договор У меня есть кредитный договор у

00:41:19

меня допустим есть ипотека У меня есть

00:41:21

кредитные карточки Я работаю там-то

00:41:24

там-то там-то у меня такой-то номер

00:41:26

телефона и если бы это был мир больших

00:41:30

данных то вот в этой транзакции должна

00:41:32

была присутствовать вся необходимая мне

00:41:34

информация

00:41:37

Почему

00:41:39

теперь немножко порисуем Почему эта

00:41:43

информация должна присутствовать

00:41:44

обязательно там

00:41:46

Я уже арестовал данный слайд вот он нас

00:41:50

большой объем данных который мы Режем

00:41:53

наш шарды

00:41:57

вот это один шаг 2 3 4 5 и к примеру

00:42:04

здесь у нас находится вся информация

00:42:06

которую мы собираемся анализировать мы

00:42:09

Передаем одному из серверов

00:42:12

который из себя представляет

00:42:16

некий сервер

00:42:20

большим количеством дисков

00:42:24

процессора памяти

00:42:27

и он должен обработать эту информацию То

00:42:30

есть он получает вот этот шаг

00:42:32

в котором находится строчка транзакции с

00:42:37

большим количеством полей

00:42:41

соответственно эта информация находится

00:42:44

здесь на диске

00:42:46

и когда мы ее начинаем обрабатывать

00:42:52

принципы массив параллело процессинга

00:42:54

основывается на том что данные

00:42:59

располагаются там где они обрабатываются

00:43:05

То есть если этих данных здесь нет то

00:43:09

нам придется обращаться

00:43:11

к другому

00:43:14

и копировать данные по сети с тем чтобы

00:43:17

мы смогли объединить их и получить общую

00:43:21

картину То есть если вы не сможете из

00:43:24

этой транзакции извлечь имя фамилию

00:43:26

Отчество как меня так и получатели то

00:43:29

есть вспоминаем что на данном слайде мы

00:43:32

с вами рисовали здесь есть кому и у него

00:43:35

тоже есть фамилия имя отчество

00:43:38

год рождения

00:43:41

и так далее Все считают Сколько у меня

00:43:44

на счете денег с кем он живет Где живет

00:43:47

Где работает то есть

00:43:51

системы которые работают массив паралел

00:43:54

процессинге основывается на локальном

00:43:57

хранении и локальном процессе гида и в

00:44:01

той ситуации когда им нужно обрабатывать

00:44:04

данные хранящиеся на другом узле то есть

00:44:07

они становятся менее эффективными

00:44:10

а эти системы чаще всего относятся к

00:44:13

реляционному миру Когда у нас есть

00:44:16

денормализованное хранилище информации

00:44:19

состоящей из таблицы фактов

00:44:23

и справочников

00:44:27

то есть допустим Зачем мне хранить

00:44:31

информацию об адресах

00:44:34

я просто-напросто буду держать эту

00:44:37

информацию в справочнике То есть у меня

00:44:39

есть справочники контрагентов У меня

00:44:42

есть справочники адресов У меня есть

00:44:45

справочники там контактной информации и

00:44:47

так далее То есть я могу всю информацию

00:44:51

о том кто это получить из справочника

00:44:56

президентов

00:44:57

физических юридических лиц и так далее

00:45:00

То есть соответственно Мне нужно только

00:45:03

таблица фактов которые будет

00:45:05

денормализоваться то есть

00:45:07

нормализованная и содержать Только

00:45:09

нужное мне информацию Вот и за счет

00:45:12

этого я могу поместить в оперативную

00:45:14

память и выполнять теперь процессинг

00:45:19

значительно эффективней защите

00:45:21

значительно быстрее чем массив паралим

00:45:24

процессе то есть теперь системы они

00:45:27

построены немножко по другим принципам и

00:45:30

они как правило очень сильно

00:45:32

нормализованы

00:45:33

а за счет устранения избыточности А

00:45:37

избыточность мы устраняем за счет

00:45:39

вынесения отдельных справочников в

00:45:42

отдельные таблицы и связи между ними вот

00:45:45

те самые реляционные связи которые мы

00:45:48

при этом используем То есть у нас

00:45:49

появляется большое количество таблиц

00:45:52

которые связаны друг с другом

00:45:56

и в каждой из этих таблиц содержится

00:45:59

небольшое количество и в том случае если

00:46:03

нам нужно выполнить какой-то запрос по

00:46:05

анализу данный транзакции мы всегда

00:46:07

можем за счет обращения

00:46:11

к этим таблицам получить всю необходимую

00:46:14

информацию То есть те самые мир джойнов

00:46:16

которые

00:46:17

работают в ulcp-система

00:46:21

причем

00:46:23

данная система оптимизированы для

00:46:26

выполнения операции записи то есть мы

00:46:29

можем вставлять обновлять и удалять

00:46:31

информацию то есть примеру я провел эту

00:46:34

транзакцию и из моего счета снялась там

00:46:37

53 рубля 43 копейки

00:46:41

следующий транзакции я отменил

00:46:44

предыдущую транзакцию сказала ой это

00:46:47

была фродулинтная транзакция то есть

00:46:49

меня обманули то есть сняли деньги

00:46:51

пожалуйста отзовите То есть если это там

00:46:53

кредитная операция я могу это сделать

00:46:55

или я делаю следующую транзакцию

00:46:59

снимается 158 тысяч рублей 39 копеек и

00:47:03

так далее То есть такие операции очень

00:47:07

легки Почему Потому что у нас есть

00:47:10

таблица фактов

00:47:12

которая оптимизирована для выполнения

00:47:14

райт операции мы спокойно сюда в конец

00:47:17

добавляем те транзакции которые

00:47:20

расширяют объем хранимой информации То

00:47:24

есть это свойство или Типи систему в

00:47:27

мире alab все немножко по-другому Дело в

00:47:31

том что у нас очень большой объем

00:47:32

информации и мы стараемся

00:47:35

денормализировать эту информацию Потому

00:47:38

что в мире MP3

00:47:40

Желательно чтобы данные хранились там же

00:47:43

где они обрабатываются то есть Иначе мы

00:47:47

не сможем порезать эту пиццу и каждый

00:47:50

получил бы свой кусок представьте себе

00:47:52

ваша пицца была бы просто кусок теста

00:47:55

дальше банка с оливками банка палка с

00:47:59

салями там кусок сыра не протертый и так

00:48:03

далее То есть Вам пришлось бы каждому

00:48:05

для того чтобы съесть кусок пиццы

00:48:07

отрезать кусочек теста

00:48:10

раскатать его помазать испечь

00:48:13

индивидуальные и так далее То есть это

00:48:15

совсем другой вариант

00:48:19

а соответственно для лап системы

00:48:21

идеальный мир это когда Существует одна

00:48:25

большая таблица с полной избыточностью

00:48:27

коллеги это понятно

00:48:37

только Алексей

00:48:42

вот совсем другое дело Будем

00:48:44

ориентироваться на квору то есть нас с

00:48:47

вами 6 человек значит три поднятых руки

00:48:49

Это уже значит все понятно И вы на месте

00:48:52

А то вдруг там какая-нибудь непонятный

00:48:55

вирус

00:48:57

вот так вот мир больших данных он чаще

00:49:02

всего

00:49:04

предназначен для

00:49:07

где нормализованной хранение

00:49:09

нормализованной информации То есть если

00:49:12

я считывает транзакцию

00:49:15

строку А обычно массив параллел

00:49:19

процессинг системы они заточены на

00:49:22

использование рулориентин формата то

00:49:25

есть срочно Почему

00:49:27

Давайте посмотрим Почему

00:49:30

Все очень просто

00:49:33

вот представьте себе У вас есть таблица

00:49:40

одна единственная таблица которая

00:49:43

прописаны все транзакции

00:49:45

и вот она строчка с этой транзакцией

00:49:49

то есть здесь есть номер

00:49:52

здесь есть дата

00:49:55

здесь есть фамилия имя отчество

00:49:58

здесь есть компания

00:50:00

это та самая информация которая у меня

00:50:03

есть про вас что допустим

00:50:06

имя рек такой-то такой-то из компании

00:50:09

МТС с номером телефона таким-то с e-mail

00:50:13

таким-то то есть пришел на курс который

00:50:16

будет проходить 17 по 21 число и плюс к

00:50:21

этому Если необходимо я могу также иметь

00:50:24

всю необходимую для обучения информацию

00:50:27

Если она мне нужна Почему она должна

00:50:30

быть в этой строчке Потому что когда мы

00:50:33

вот этот большой объем данных примеру

00:50:36

здесь 100 миллиардов записей

00:50:41

мы порежем на шарды и в каждом шарге

00:50:45

чанки информации будет находиться

00:50:47

допустим 500 тысяч записей и вот этот

00:50:50

чанк уйдет на какой-то сервер один

00:50:54

И когда вы вычитываете данные вы должны

00:50:57

получить всю необходимую информацию

00:50:59

которая позволит вам выполнить процессе

00:51:03

именно по этой причине Дело в том что

00:51:07

если рядом будет находиться еще одна

00:51:09

табличка

00:51:11

маленькая справочник

00:51:14

то когда мы вот этот массив разбили на

00:51:20

чанке мы распределили его одним образом

00:51:23

А когда мы теперь возьмем

00:51:26

эту маленькую табличку и разрежем ее на

00:51:30

чанке

00:51:31

то они распределятся совсем другим

00:51:33

образом

00:51:34

И если мы захотим их объединить с

00:51:37

помощью

00:51:39

то нам придется копировать Все

00:51:42

недостающие чанки на ту систему которая

00:51:46

осуществляет процессинг этих данных и

00:51:49

эффективность нашей системы будет

00:51:51

очень-очень слабый то есть мы будем

00:51:55

обрабатывать данные очень-очень потому

00:51:58

что все наши системы которые мы

00:52:00

используем для массив параллельного

00:52:02

процессинга сейчас я все это дело

00:52:08

то есть мы используем Open Source

00:52:13

и плюс к этому комодики hardway

00:52:18

Что такое коммунити это обыкновенные

00:52:21

простые системы без каких-то

00:52:23

навороченных высокоскоростных компаний

00:52:26

то есть обыкновенные диски SATA

00:52:31

ID

00:52:33

обыкновенные сетевые адаптеры пускай

00:52:35

будет два Можно четыре поставить и не

00:52:39

самый мощный CPU сила в большом

00:52:44

количестве

00:52:45

то есть за счет этого мы можем

00:52:48

обрабатывать петабайты информации

00:52:51

но при этом у нас слабая дисковая

00:52:54

подсистема и чаще всего слабая

00:52:57

Ну про процессор и память в зависимости

00:53:00

от того Типа нагрузки которую вы хотите

00:53:02

получить То есть это не

00:53:05

хайпи форманс компьютер Это массив

00:53:10

паралил процессинг сила именно в большом

00:53:14

количестве компании вот эта идея до вас

00:53:17

должна дойти Я надеюсь

00:53:19

так возвращаемся к тому что мы здесь

00:53:22

начертали я вот это сейчас немножко

00:53:24

сотру а то это мешает значит

00:53:27

ultip системы так как они поддерживают

00:53:29

транзакционность они должны быть

00:53:31

оптимизированы для выполнения операции

00:53:33

записи то есть инсуртов апдейтов и

00:53:35

диллитов А вот системы которые

00:53:38

предназначены для алаб процессинг для

00:53:42

аналитики я вам сказал ключевое слово

00:53:44

что они должны хранить данные в течение

00:53:46

длительного периода времени для того

00:53:48

чтобы накопить историю так вот история

00:53:50

чаще всего относится к хранению

00:53:54

информации которая потом не меняется

00:53:56

историю нельзя переписывать

00:53:59

то есть вот то что произошло допустим

00:54:01

пять лет назад То есть это история и

00:54:05

соответственно это информация должна

00:54:08

быть ритмли поэтому система когда они

00:54:13

проектировались они проектировались

00:54:14

исходя из каких-то Ну принципов

00:54:18

процессинга и для того чтобы обеспечить

00:54:22

На вот этом кому этих hardway

00:54:24

производительность

00:54:25

и проектировали системы

00:54:28

таким образом чтобы это можно было

00:54:31

сделать То есть

00:54:32

принимались какие-то технологические

00:54:34

решения которые позволяли вот на вот

00:54:37

этом тепло дешевом оборудовании достичь

00:54:40

оптимальной производительности в том

00:54:43

числе и делать это за счет того что

00:54:45

понимали что данные нужно хранить долго

00:54:48

а значит они должны они скорее всего

00:54:51

должны быть то есть их нельзя

00:54:53

модифицировать и эта концепция

00:54:56

называется по-другому

00:54:58

коллеги Кто знает что такое

00:55:01

Кто хочет пятерку

00:55:17

вором Нет это не болото вором это на

00:55:22

самом деле но если английский язык это

00:55:25

червячок Но это неправильно была такая

00:55:28

замечательная игра но это не к тому

00:55:31

относится так вот ворон концепции это то

00:55:35

что коллеги вы компакт-диски записывали

00:55:39

DVD

00:55:49

было дело так вот была концепция cd-r и

00:55:54

CD RV То есть cdr это

00:55:58

однакратная запись То есть когда вы

00:56:01

сидите Рид

00:56:03

сиди рекорд и сиди

00:56:06

райт Рид то есть концепция ворон это

00:56:10

брайтованс

00:56:11

один раз записали много раз читаем

00:56:15

устройство это когда вы единожды

00:56:18

записываете данные потом только их

00:56:20

читать и так как технологии больших

00:56:23

данных чаще всего относятся к

00:56:26

историческим данным то соответственно Мы

00:56:28

один раз это записываем это становится

00:56:30

оригиналом А дальше мы на протяжении

00:56:32

долгого периода времени читаем эту

00:56:35

информацию поэтому а лап системы они

00:56:39

чаще всего оптимизированы для выполнения

00:56:41

этой операции

00:56:42

и редко поддерживает апдейты и делит

00:56:48

Понятно концепция

00:56:51

ну и соответственно для улицы писистема

00:56:54

характерные большое количество мелких

00:56:57

запросов простые запросы допустим

00:56:59

сколько Пупкин купил пластмассовый

00:57:02

тазиков в этом году или продал

00:57:03

пластмассовую тачку по сравнению с

00:57:05

периодом прошедшего года или

00:57:08

Назовите всех тех которые купили там

00:57:15

пиво Балтику

00:57:17

в магазине расположенным там на

00:57:21

Череповецкой Street и так далее и тому

00:57:23

подобное в период с такого-то по

00:57:25

такой-то время то есть это простые

00:57:27

достаточно транзакции но и достаточно

00:57:29

много потому что у lcp он чаще всего

00:57:33

анализирует данные за небольшой период

00:57:35

времени то есть они горячие актуальные

00:57:37

данные и за счет большого количества

00:57:40

обращений вот к этому небольшому периоду

00:57:42

мы можем их сконцентрировать в небольшом

00:57:45

объеме оперативной памяти то есть

00:57:47

транзакция работает с горячими

00:57:52

чаще всего работают все таки стеклами

00:57:56

либо с холодными то есть аналитика она

00:58:00

чаще всего касается

00:58:03

ретроспективы

00:58:04

поэтому для аналитики характерны более

00:58:07

сложные запросы и это как раз написано

00:58:10

здесь комплексные запросы которые

00:58:13

вовлекают агрегации То есть те самые

00:58:16

джойны и нормально используется с

00:58:18

большим количеством строк то есть нам

00:58:20

нужно найти какие-то профили допустим

00:58:23

всех клиентов банка или всех клиентов

00:58:26

телекома или всех покупателей онлайн

00:58:30

магазина то есть мы стараемся

00:58:32

анализировать что же в них общего и вот

00:58:36

это как раз аналитика которая

00:58:39

Замечательно работает вот массив

00:58:42

параллельного процесса

00:58:44

соответственно

00:58:45

так как мы здесь чаще всего работаем с

00:58:50

транзакциями по записи то нам требуется

00:58:55

целостность этих данных потому что мы

00:58:58

работаем с транзакционными системами и

00:59:01

целостность должна быть ссылочная

00:59:03

целостность особенно должна быть

00:59:05

соблюдена то есть мы не можем снять

00:59:07

миллион долларов со счета если до этого

00:59:10

мы не положили туда миллион долларов

00:59:12

плюс один копейка

00:59:15

поэтому А здесь данные чаще всего

00:59:18

являются отказоустойчивым они записаны

00:59:21

То есть это вид операции и мы

00:59:25

обеспечиваем

00:59:26

устойчивость этих данных то есть чаще

00:59:29

всего это несколько экземпляров данных

00:59:31

которые хранятся в разных частях и

00:59:34

относительная целостность этих данных

00:59:36

она не всегда соблюдается то есть могут

00:59:39

быть небольшие разношения потому что это

00:59:41

аналитик это не транза систем это

00:59:45

основные отличия которые

00:59:47

существуют в мире oltp и который нам

00:59:51

нужно четко себе понимать Почему Потому

00:59:54

что существует разные категории систем

00:59:57

которые мы с вами должны использовать Ну

01:00:00

и я вам оставлю прекрасный прекрасную

01:00:03

картину горного озера мы вернемся к ней

01:00:07

после небольшого перерыва пока есть

01:00:10

вопросы

01:00:26

кофе

01:00:29

до сейчас у нас время

01:00:36

Так 1139 ну плюс 15 минут соответственно

01:00:41

до 5

01:00:43

11 55

Описание:

По вопросам обучения на курсах машинного обучения приглашаем в нашу "Школу Больших Данных" Обращаться по телефону: +7 (495) 41-41-121 +7 (995) 100-45-63 Чтобы не пропустить информацию о новых курсах, акциях и других событиях Школы Больших Данных, рекомендуем подписаться на нас в социальных сетях: Телеграм-канал: https://t.me/BigDataSchool_ru Вконтакте: https://vk.com/bdschool_mck LinkedIn: https://www.linkedin.com/company/bigdataschoolru/ Twitter: https://twitter.com/BigdataschoolR Подписывайтесь и будьте в курсе всех интересных новинок мира Big Data вместе со Школой больших данных - https://bigdataschool.ru/

Готовим варианты загрузки

Популярные

HD видео

Только звук

Все форматы

* — Если видео проигрывается в новой вкладке, перейдите в неё, а затем кликните по видео правой кнопкой мыши и выберите пункт "Сохранить видео как..."

** — Ссылка предназначенная для онлайн воспроизведения в специализированных плеерах

Вопросы о скачивании видео

Как можно скачать видео "GRAD: Администрирование Greenplum / Arenadata DB - День 1.2"?

Сайт http://unidownloader.com/ — лучший способ скачать видео или отдельно аудиодорожку, если хочется обойтись без установки программ и расширений. Расширение UDL Helper — удобная кнопка, которая органично встраивается на сайты YouTube, Instagram и OK.ru для быстрого скачивания контента.
Программа UDL Client (для Windows) — самое мощное решение, поддерживающее более 900 сайтов, социальных сетей и видеохостингов, а также любое качество видео, которое доступно в источнике.
UDL Lite — представляет собой удобный доступ к сайту с мобильного устройства. С его помощью вы можете легко скачивать видео прямо на смартфон.

Какой формат видео "GRAD: Администрирование Greenplum / Arenadata DB - День 1.2" выбрать?

Наилучшее качество имеют форматы FullHD (1080p), 2K (1440p), 4K (2160p) и 8K (4320p). Чем больше разрешение вашего экрана, тем выше должно быть качество видео. Однако следует учесть и другие факторы: скорость скачивания, количество свободного места, а также производительность устройства при воспроизведении.

Почему компьютер зависает при загрузке видео "GRAD: Администрирование Greenplum / Arenadata DB - День 1.2"?

Полностью зависать браузер/компьютер не должен! Если это произошло, просьба сообщить об этом, указав ссылку на видео. Иногда видео нельзя скачать напрямую в подходящем формате, поэтому мы добавили возможность конвертации файла в нужный формат. В отдельных случаях этот процесс может активно использовать ресурсы компьютера.

Как скачать видео "GRAD: Администрирование Greenplum / Arenadata DB - День 1.2" на телефон?

Вы можете скачать видео на свой смартфон с помощью сайта или pwa-приложения UDL Lite. Также есть возможность отправить ссылку на скачивание через QR-код с помощью расширения UDL Helper.

Как скачать аудиодорожку (музыку) в MP3 "GRAD: Администрирование Greenplum / Arenadata DB - День 1.2"?

Самый удобный способ — воспользоваться программой UDL Client, которая поддерживает конвертацию видео в формат MP3. В некоторых случаях MP3 можно скачать и через расширение UDL Helper.

Как сохранить кадр из видео "GRAD: Администрирование Greenplum / Arenadata DB - День 1.2"?

Эта функция доступна в расширении UDL Helper. Убедитесь, что в настройках отмечен пункт «Отображать кнопку сохранения скриншота из видео». В правом нижнем углу плеера левее иконки «Настройки» должна появиться иконка камеры, по нажатию на которую текущий кадр из видео будет сохранён на ваш компьютер в формате JPEG.

Сколько это всё стоит?

Нисколько. Наши сервисы абсолютно бесплатны для всех пользователей. Здесь нет PRO подписок, нет ограничений на количество или максимальную длину скачиваемого видео.