Лучшая лекция по Data Vault, что встретилась на просторах интернета.
@paleface_brother2 жыл бұрын
Да, будет интересно послушать про Data Vault 2.0 and Anchor.
@alesyuzefovich1152 жыл бұрын
Огромное спасибо, лекция ну очень дельная!
@user-rw3vi3et3w2 жыл бұрын
Лекция супер, огромное спасибо! Побольше бы таких материалов
@sergeystrikanov23022 жыл бұрын
Очень круто, большое спасибо!
@igor-policee2 жыл бұрын
Крутое объяснение, спасибо!
@pahsarpa2 жыл бұрын
С нетерпением ждём продолжения.
@eujc9009 Жыл бұрын
Николай классно объясняет
@user-fg6ng7ej6w Жыл бұрын
оличные лекции у Голова. спасибо
@DataCourse2 жыл бұрын
очень интересно, спасибо!
@paleface_brother2 жыл бұрын
Большое спасибо! А то я всё никак не мог найти внятное-простое-доступное объяснение, зачем нужен Data Vault. Как его строить - есть информация, а вот в каких случаях использовать и в чём преимущество перед звездой/снежинкой - нету :)
@Niarlototep
2 жыл бұрын
Обращайтесь :) ... Любые вопросы за разумные деньги.
@pahsarpa2 жыл бұрын
Супер объяснение, спасибо большое! Жалко что не было сказано о ситуации, когда части данные о сущности приходят из нескольких источников.
@Niarlototep
2 жыл бұрын
Как не было? :) ... Я же упоминал, что ключ хаба может формироваться с учетом исходной системы. Думаю, в следующей лекции я постараюсь описать этот кейс - половина данных о хабе из одной системы, а половина из другой, и как сопоставлять ключи. Если вкратце, как минимум, тут понадобиться более мелко дробить сателиты... Это будет одной из проблем Data Vault, которая впоследствии породила Anchor Modeling.
@vakrokodil Жыл бұрын
спасибо большое)
@igormelin40232 жыл бұрын
Молодец и спасибо! Чувствуется что ты разбираешься в предмете! Кстати, sap bw это использовала еще с начала 2000х.
@joma0305
Жыл бұрын
+
@user-ko4me4zz6z2 жыл бұрын
Спасибо!
@alexanderlazutkin8822 жыл бұрын
Любопытно было бы услышать о секционировании в DV
@user-hr4me7ei3v2 жыл бұрын
Прикрепляйте ссылки в первом комментарии или описании, пожалуйста. А так -- всё очень круто, спасибо большое
@user-dn5ct8of5z2 жыл бұрын
огромное спасибо!) лучше описание дата вольт)
@user-dw6vd9xf7r11 ай бұрын
Подача и примеры отличные. Подскажите, пожалуйста, когда реально нужны bridge или это больше полу-декоративные вещи, как и pit?
@user-ei9co3fv7h2 жыл бұрын
Не знаю когда это придумали, но в Парусе8 это было реализовано ещё в 2007 году и я думаю раньше. Любой бизнес ложился на архитектуру базы
@BUZyYyes2 жыл бұрын
Николай, спасибо за доклад, В конце затронули тему дат, хотелось бы для себя закрепить, как лучше сделать, если дат много: дата захода клиента на сайт, дата приезда клиента, дата оплаты, дата отгрузки, дата производства, дата резерва, дата возврата и тд… Каждую дату вещать сателлитом на подходящий хаб??
@Niarlototep
2 жыл бұрын
Каждая дата - это атрибут типа "дата", полный аналог атрибутов типа "текст" или "число". Их можно и нужно добавить в подходящие сателиты соответствующих хабов.
@andrewkhomich80852 жыл бұрын
К вопросу Hadoop + DV. В Hadoop (Hive, Spark) ключевой момент, как вы партицируете данные. На мой взгляд BIgData не может обойтись без партицирования по датам. Если sql-запрос затрагивает только ограниченное количество партиций, то join в Hive и тем более в Spark уже не проблема. Если у вас появляется очень большая (терабайты) таблица, которую нельзя эффективно партицировать по датам, если эта таблица в sql-запросах читается целиком, то вот тут проблема. Причем это проблема как для классической РСУБД с поддержкой join на индексах, так и тем более для NoSQL без поддержки полноценных индексов (в формате дерева поиска). Здесь уже надо погружаться в специфику задачи и как-то нетривиально оптимизировать хранение данных.
@user-sdcs9 ай бұрын
Подскажите пжлст, как будет устроена запись о клиенте в Хабе Клиенты, если данные о клиенте есть в разных системах - допустим CRM и ДБО ? При этом, ИД 1 системы не равен ИД 2 системы. В Хабе будет только 1 запись, или допускаются 2 записи из разных источников для 1-го физического клиента? PS Отсылка к 16-17 мин видео
@pahsarpa2 жыл бұрын
А есть ли что-то еще кроме 3NF, Star/Snowflake, Data Vault и Anchor modeling? Или это все, что человечество смогло придумать для моделирования данных?
@Niarlototep
2 жыл бұрын
Это очень хороший вопрос :) Потому что человечество, научное сообщество, конечно же, придумало много чего еще. Но в публичное пространство попадает только то, про что были сделаны усилия по популяризации (видео, книги, выступления). Например, про Anchor Modeling вы знаете из-за успеха в Авито. А иначе методология могла бы остаться в списке таких методологий как: Hyperagility Focal Point Ensemble Modeling
@vor6758Ай бұрын
Схема на 22:25 Если мы просто от схемы звезды переместим в сателлиты атрибуты сущности, то при добавлении нового хаба мы добавляем новый столбец в ссылку. Я правильно понял?
@DzhigurdaAnton9 ай бұрын
Смотрю и удивляюсь как это хорошо ложится на DDD
@sergeysukharev4939 Жыл бұрын
Есть пара, тройка вопросов - (1) - что является ключом распределения для таблиц DV в MMP архитектуры? (2) каждый сателлит по сути является медленно меняющейся размерностью 2-го типа, если у вас сателлит в несколько терабайт, то что бы найти строку изменения для сравнения по HDIFF нужно сканировать всю таблицу каждый раз на загрузке, как это обойти? (3) ничего не сказано о саталлитах линков, меняются не только данные но и отношения между сущностями, сколько должно быть ключей драйверов в линке как выбирать поле для ключа драйвера?
@vadimosipov89822 жыл бұрын
Был вопрос про удаление данных в Data Vault. У меня вопрос к решению. Как определить, когда удаление сущности реализовывать через атрибут, а когда через атрибуты from_date, to_date сателита ?
@Niarlototep
2 жыл бұрын
Через даты from_date/to_date реализуется кейс "значение/линк заменено отсутствием". Опять же, сейчас часто используют однодатную историчность, только from_date, тогда запись нельзя закрыть апдейтом to_date. про это будет в следующем видео. Атрибут удаления нужен для пометки записей, которые пришли по ошибке, т.е. их не должно было быть, но на их основе уже были приняты какие-то решения. В общем, редкий случай, в большинстве случаев такое вообне не нужно.
@vadimosipov89822 жыл бұрын
Если такие атрибуты пол, дата рождения могут менять, то на что можно опираться при выделении атрибутов на изменяемые и неизменяемые ?
@Niarlototep
2 жыл бұрын
Этот момент прозвучал в начале - финалом развития Data Vault 1.0 стало понимание, что подлинно неизменным является только бизнес-ключ, идентификатор сущности, лежащей в хабе. Т.к. изменение бизнес ключа = другая сущность, автоматическая защита от изменений... PS... И продолжая анонс второй серии, про Data Vault 2.0 и Anchor Modeling - одной из причин рождения новых методологий было понимание того, что, на самом деле, меняется даже бизнес-ключ.... Но в Data Vault мы такой мысли не допускаем :)
@vadimosipov2147
2 жыл бұрын
@@Niarlototep , ха-ха, прикольно. Про business key я себе отметил, смотря вебинар. Мне стало интересно про другие атрибуты. К примеру, load_sys. Что ж ) буду ждать вашего следующего вебинара про Data Vault 2.
@Niarlototep
2 жыл бұрын
@@vadimosipov2147 , load_sys это не атрибут, это техническое поле, для отладки. Маркер первой системы, откуда прилетело значение хаба. ПРо технические поля я не рассказывал из-за временных ограничений вебинара.
@The0050052 жыл бұрын
Смотрю я на картинку с хабом "чеки" и вижу чистую 3НФ. Особенно если отдельным хабом добавлять строки чека. Все точно также - есть сущности, есть аттбрибуты, есть связи. Так в чем же все таки отличие ? В том что Дата Волт не обязует к строгости и позволяет строить смешанные линки ? Сложилось впечатление, что 3НФ - предельная форма Дата Волт
@Niarlototep
2 жыл бұрын
Это и есть 3НФ :) ... Я про это упоминал в видео. Data Vault - это способ быстро и понятно объяснить обычному человека, как проектировать модель данных в 3НФ. Алгоритм.
@vadimosipov89822 жыл бұрын
Как сильно увеличение числа хабов, линков и сателитов может приводить к удорожанию поддержки ?
@cardinalerror1
2 жыл бұрын
если про ETL-поддержку, то не сильно что-то меняется, процесс ETL не меняется, плюс код загрузки однообразен. Бизнес-поддержка увеличивается пропорционально при любой методологии.
@vadimosipov89822 жыл бұрын
А есть способ для быстрого нахождения всех сателитов клиента ? Есть гипотеза, что это можно делать через "S_" + + "_" + . И все же хочется узнать мнение специалистов.
@Niarlototep
2 жыл бұрын
"S_" + + "_" + - это моя стратегия нейминга, линстэдт эту тему не уточняет, насколько я знаю. В принципе, в Data Vault полезно делать документацию со списком атрибутов каждого сателита.
@vadimosipov2147
2 жыл бұрын
@@Niarlototep , спасибо!
@kushalsenlaskar9 ай бұрын
do you have any presentation on English ?
@atlant17072 жыл бұрын
Если чека нет, например на старте продаж- то нет связи?
@Niarlototep
2 жыл бұрын
Конечно. Товар есть, его свойства есть. Продажного линка нет, но, возможно, есть линк на склад (поставка на склад).
@fedorgulin3112 жыл бұрын
А есть ли полу-практический пример. вот чем мне нравилаь книжка Кимбалал там была куча примеров (пусть упрощенных) ну воти и вопрос : допустим кефир Кефирный : в 0.5л и, 0.2 пакетах и в бутылках - я так понимаю это 3 разных товара но с ОДНИМ каким то общим атрибутом (Кефирный ) по которому и можно подбить все итоги по нему в независимости от тары ? зы Не уверен что такие примеры есть (копирайт )- но вдруг
@Niarlototep
2 жыл бұрын
Может быть на сайте Линстедта, но, как показывает практика, лучше консультировать индивидуально, чем собирать примеры в книжку... никто больше не читает толстых книжек.
@Niarlototep
2 жыл бұрын
По сути примера - я не понял, в чем вопрос? ... Да, это 3 разных товара, у них разные штрихкоды. Но они в одной товарной группе, в кисломолочке, и у них названия похожие. и производитель один.
@fedorgulin311
2 жыл бұрын
@@Niarlototep ага понял собирать инфу можно по другим атрибутам (названия похожие - типа name like '' , а по произвдоителю == ) да хотелось бы послушать такую же лекцию по Data Vault 2.0 and Anchor.
@Niarlototep
2 жыл бұрын
@@fedorgulin311 пора снимать, факт
@atlant17072 жыл бұрын
Есть ли отличия в запросах Data volt?
@Niarlototep
2 жыл бұрын
В каких запросах? :)
@denisporplenko7214
2 жыл бұрын
Конечно) Теперь запросы в гугле нужно изменить с "Star scheme for dummies" на "Data volt for dummies" ))
@Niarlototep
2 жыл бұрын
@@denisporplenko7214 , data Vault
@user-ie3zj8rw5r Жыл бұрын
не понял по последнему комментарию по типам и отношениям Есть кто понял и может прокомментировать.
@user-lt1ul9cn5c27 күн бұрын
Почему всегда говорят про хабы, линки, сателлиты, но забывают про рефы?!
@GrigoriySokolik2 жыл бұрын
Вот, кстати, интересный доклад про то как и зачем подниать уровень нормировки kzread.info/dash/bejne/g41kzdKCe5Xac7w.html
@Niarlototep
2 жыл бұрын
ага, отличная тема, спасибо :) ... а то у моих знакомых создается ощущение, что за Anchor Modeling только я топлю.
Пікірлер: 62
Лучшая лекция по Data Vault, что встретилась на просторах интернета.
Да, будет интересно послушать про Data Vault 2.0 and Anchor.
Огромное спасибо, лекция ну очень дельная!
Лекция супер, огромное спасибо! Побольше бы таких материалов
Очень круто, большое спасибо!
Крутое объяснение, спасибо!
С нетерпением ждём продолжения.
Николай классно объясняет
оличные лекции у Голова. спасибо
очень интересно, спасибо!
Большое спасибо! А то я всё никак не мог найти внятное-простое-доступное объяснение, зачем нужен Data Vault. Как его строить - есть информация, а вот в каких случаях использовать и в чём преимущество перед звездой/снежинкой - нету :)
@Niarlototep
2 жыл бұрын
Обращайтесь :) ... Любые вопросы за разумные деньги.
Супер объяснение, спасибо большое! Жалко что не было сказано о ситуации, когда части данные о сущности приходят из нескольких источников.
@Niarlototep
2 жыл бұрын
Как не было? :) ... Я же упоминал, что ключ хаба может формироваться с учетом исходной системы. Думаю, в следующей лекции я постараюсь описать этот кейс - половина данных о хабе из одной системы, а половина из другой, и как сопоставлять ключи. Если вкратце, как минимум, тут понадобиться более мелко дробить сателиты... Это будет одной из проблем Data Vault, которая впоследствии породила Anchor Modeling.
спасибо большое)
Молодец и спасибо! Чувствуется что ты разбираешься в предмете! Кстати, sap bw это использовала еще с начала 2000х.
@joma0305
Жыл бұрын
+
Спасибо!
Любопытно было бы услышать о секционировании в DV
Прикрепляйте ссылки в первом комментарии или описании, пожалуйста. А так -- всё очень круто, спасибо большое
огромное спасибо!) лучше описание дата вольт)
Подача и примеры отличные. Подскажите, пожалуйста, когда реально нужны bridge или это больше полу-декоративные вещи, как и pit?
Не знаю когда это придумали, но в Парусе8 это было реализовано ещё в 2007 году и я думаю раньше. Любой бизнес ложился на архитектуру базы
Николай, спасибо за доклад, В конце затронули тему дат, хотелось бы для себя закрепить, как лучше сделать, если дат много: дата захода клиента на сайт, дата приезда клиента, дата оплаты, дата отгрузки, дата производства, дата резерва, дата возврата и тд… Каждую дату вещать сателлитом на подходящий хаб??
@Niarlototep
2 жыл бұрын
Каждая дата - это атрибут типа "дата", полный аналог атрибутов типа "текст" или "число". Их можно и нужно добавить в подходящие сателиты соответствующих хабов.
К вопросу Hadoop + DV. В Hadoop (Hive, Spark) ключевой момент, как вы партицируете данные. На мой взгляд BIgData не может обойтись без партицирования по датам. Если sql-запрос затрагивает только ограниченное количество партиций, то join в Hive и тем более в Spark уже не проблема. Если у вас появляется очень большая (терабайты) таблица, которую нельзя эффективно партицировать по датам, если эта таблица в sql-запросах читается целиком, то вот тут проблема. Причем это проблема как для классической РСУБД с поддержкой join на индексах, так и тем более для NoSQL без поддержки полноценных индексов (в формате дерева поиска). Здесь уже надо погружаться в специфику задачи и как-то нетривиально оптимизировать хранение данных.
Подскажите пжлст, как будет устроена запись о клиенте в Хабе Клиенты, если данные о клиенте есть в разных системах - допустим CRM и ДБО ? При этом, ИД 1 системы не равен ИД 2 системы. В Хабе будет только 1 запись, или допускаются 2 записи из разных источников для 1-го физического клиента? PS Отсылка к 16-17 мин видео
А есть ли что-то еще кроме 3NF, Star/Snowflake, Data Vault и Anchor modeling? Или это все, что человечество смогло придумать для моделирования данных?
@Niarlototep
2 жыл бұрын
Это очень хороший вопрос :) Потому что человечество, научное сообщество, конечно же, придумало много чего еще. Но в публичное пространство попадает только то, про что были сделаны усилия по популяризации (видео, книги, выступления). Например, про Anchor Modeling вы знаете из-за успеха в Авито. А иначе методология могла бы остаться в списке таких методологий как: Hyperagility Focal Point Ensemble Modeling
Схема на 22:25 Если мы просто от схемы звезды переместим в сателлиты атрибуты сущности, то при добавлении нового хаба мы добавляем новый столбец в ссылку. Я правильно понял?
Смотрю и удивляюсь как это хорошо ложится на DDD
Есть пара, тройка вопросов - (1) - что является ключом распределения для таблиц DV в MMP архитектуры? (2) каждый сателлит по сути является медленно меняющейся размерностью 2-го типа, если у вас сателлит в несколько терабайт, то что бы найти строку изменения для сравнения по HDIFF нужно сканировать всю таблицу каждый раз на загрузке, как это обойти? (3) ничего не сказано о саталлитах линков, меняются не только данные но и отношения между сущностями, сколько должно быть ключей драйверов в линке как выбирать поле для ключа драйвера?
Был вопрос про удаление данных в Data Vault. У меня вопрос к решению. Как определить, когда удаление сущности реализовывать через атрибут, а когда через атрибуты from_date, to_date сателита ?
@Niarlototep
2 жыл бұрын
Через даты from_date/to_date реализуется кейс "значение/линк заменено отсутствием". Опять же, сейчас часто используют однодатную историчность, только from_date, тогда запись нельзя закрыть апдейтом to_date. про это будет в следующем видео. Атрибут удаления нужен для пометки записей, которые пришли по ошибке, т.е. их не должно было быть, но на их основе уже были приняты какие-то решения. В общем, редкий случай, в большинстве случаев такое вообне не нужно.
Если такие атрибуты пол, дата рождения могут менять, то на что можно опираться при выделении атрибутов на изменяемые и неизменяемые ?
@Niarlototep
2 жыл бұрын
Этот момент прозвучал в начале - финалом развития Data Vault 1.0 стало понимание, что подлинно неизменным является только бизнес-ключ, идентификатор сущности, лежащей в хабе. Т.к. изменение бизнес ключа = другая сущность, автоматическая защита от изменений... PS... И продолжая анонс второй серии, про Data Vault 2.0 и Anchor Modeling - одной из причин рождения новых методологий было понимание того, что, на самом деле, меняется даже бизнес-ключ.... Но в Data Vault мы такой мысли не допускаем :)
@vadimosipov2147
2 жыл бұрын
@@Niarlototep , ха-ха, прикольно. Про business key я себе отметил, смотря вебинар. Мне стало интересно про другие атрибуты. К примеру, load_sys. Что ж ) буду ждать вашего следующего вебинара про Data Vault 2.
@Niarlototep
2 жыл бұрын
@@vadimosipov2147 , load_sys это не атрибут, это техническое поле, для отладки. Маркер первой системы, откуда прилетело значение хаба. ПРо технические поля я не рассказывал из-за временных ограничений вебинара.
Смотрю я на картинку с хабом "чеки" и вижу чистую 3НФ. Особенно если отдельным хабом добавлять строки чека. Все точно также - есть сущности, есть аттбрибуты, есть связи. Так в чем же все таки отличие ? В том что Дата Волт не обязует к строгости и позволяет строить смешанные линки ? Сложилось впечатление, что 3НФ - предельная форма Дата Волт
@Niarlototep
2 жыл бұрын
Это и есть 3НФ :) ... Я про это упоминал в видео. Data Vault - это способ быстро и понятно объяснить обычному человека, как проектировать модель данных в 3НФ. Алгоритм.
Как сильно увеличение числа хабов, линков и сателитов может приводить к удорожанию поддержки ?
@cardinalerror1
2 жыл бұрын
если про ETL-поддержку, то не сильно что-то меняется, процесс ETL не меняется, плюс код загрузки однообразен. Бизнес-поддержка увеличивается пропорционально при любой методологии.
А есть способ для быстрого нахождения всех сателитов клиента ? Есть гипотеза, что это можно делать через "S_" + + "_" + . И все же хочется узнать мнение специалистов.
@Niarlototep
2 жыл бұрын
"S_" + + "_" + - это моя стратегия нейминга, линстэдт эту тему не уточняет, насколько я знаю. В принципе, в Data Vault полезно делать документацию со списком атрибутов каждого сателита.
@vadimosipov2147
2 жыл бұрын
@@Niarlototep , спасибо!
do you have any presentation on English ?
Если чека нет, например на старте продаж- то нет связи?
@Niarlototep
2 жыл бұрын
Конечно. Товар есть, его свойства есть. Продажного линка нет, но, возможно, есть линк на склад (поставка на склад).
А есть ли полу-практический пример. вот чем мне нравилаь книжка Кимбалал там была куча примеров (пусть упрощенных) ну воти и вопрос : допустим кефир Кефирный : в 0.5л и, 0.2 пакетах и в бутылках - я так понимаю это 3 разных товара но с ОДНИМ каким то общим атрибутом (Кефирный ) по которому и можно подбить все итоги по нему в независимости от тары ? зы Не уверен что такие примеры есть (копирайт )- но вдруг
@Niarlototep
2 жыл бұрын
Может быть на сайте Линстедта, но, как показывает практика, лучше консультировать индивидуально, чем собирать примеры в книжку... никто больше не читает толстых книжек.
@Niarlototep
2 жыл бұрын
По сути примера - я не понял, в чем вопрос? ... Да, это 3 разных товара, у них разные штрихкоды. Но они в одной товарной группе, в кисломолочке, и у них названия похожие. и производитель один.
@fedorgulin311
2 жыл бұрын
@@Niarlototep ага понял собирать инфу можно по другим атрибутам (названия похожие - типа name like '' , а по произвдоителю == ) да хотелось бы послушать такую же лекцию по Data Vault 2.0 and Anchor.
@Niarlototep
2 жыл бұрын
@@fedorgulin311 пора снимать, факт
Есть ли отличия в запросах Data volt?
@Niarlototep
2 жыл бұрын
В каких запросах? :)
@denisporplenko7214
2 жыл бұрын
Конечно) Теперь запросы в гугле нужно изменить с "Star scheme for dummies" на "Data volt for dummies" ))
@Niarlototep
2 жыл бұрын
@@denisporplenko7214 , data Vault
не понял по последнему комментарию по типам и отношениям Есть кто понял и может прокомментировать.
Почему всегда говорят про хабы, линки, сателлиты, но забывают про рефы?!
Вот, кстати, интересный доклад про то как и зачем подниать уровень нормировки kzread.info/dash/bejne/g41kzdKCe5Xac7w.html
@Niarlototep
2 жыл бұрын
ага, отличная тема, спасибо :) ... а то у моих знакомых создается ощущение, что за Anchor Modeling только я топлю.
Спасибо!