[S02E09] Проектирование поискового робота | BookClub DOTNET

- Псс, парень! Инфа есть? А если найду?
- Ну попробуй достаёт из кармана robots.txt
- Упс, простите, извините, мне мама сказала такое не брать
Ведущие:
- Роман Гашков
- Григорий Кузьмин
- Роман Щербаков
Дизайн и иллюстрации:
- Серафима Лебедева
Выпуск на KZread: • [S02E09] Проектировани...
Выпуск на других платформах: bookclub-dotnet.mave.digital/...
Канал книжного клуба: t.me/bookclubdotnet
Сайт книжного клуба: bookclub.dotnet.ru
Книга
System Design. Подготовка к сложному интервью (www.piter.com/product/system-...)
The following music was used for this media project:
Music: Ambient Corporate by WinnieTheMoog
Free download: filmmusic.io/song/6188-ambien...
License (CC BY 4.0): filmmusic.io/standard-license
Ключевые слова: архитектура, системный дизайн, алгоритмы, паттерны, программирование, собеседование, книга, книжный клуб, architecture, system design, algorithms, patterns, programming, interview, book, bookclub

Пікірлер: 5

  • @user-ix9vk5if5b
    @user-ix9vk5if5bАй бұрын

    думаю что то типа dig определяем IP адреса для A записей. Затем прогоняем их через какую либо открытую базу гео определения например maxmind

  • @AEF23C20
    @AEF23C20Ай бұрын

    самый крутой "краулер" реализован в церне, ну потому что там валит __в__ __секунду__ 40 __терабайт__ данных с детекторов, однако же оптимизация позволяет отфильтровывать [и отбрасывать] большинство поступающих данных, при этом остаётся всё равно нереально много, и уже этот "остаток" размещается в дата-центрах, и набор дата-центров церна - самый большой продвинутый и самый быстрый в мире, и ни одной канторке до дата-центров церна - никогда не дотянуться

  • @AEF23C20

    @AEF23C20

    Ай бұрын

    нужно добавить, зачем сие церну? дата-центры церна обслуживают естественно большой адронный коллайдер, события бак-а, т.е. всё то что называется столкновениями частиц, и результаты этих самых столкновений частиц как раз и хранятся в дата-центрах церна, и это самая манструозная айтишечка из имеющихся в мире в принципе, ничего более крутого чем в церне пока не существует

  • @AEF23C20
    @AEF23C20Ай бұрын

    базовые урлы берутся не из интырнетов, для базовых урлов достаточно локального дампа чего бы то ни было, например достаточно локального дампа википедии, и весьма многие подобного рода "агрегаторы" имеют готовый дамп, который можно скачать большими кусками и перемусолить локально вообще не лазя в интырнеты, плюс ко всему подобного рода дампы - __инкрементальные__ , т.е. скачивать и перепарсивать по-новой дамп не нужно, нужно подкачивать дамп изменений например за последний месяц, и этот инкрементальный дамп за месяц перемусоливать итд итп

  • @AEF23C20
    @AEF23C20Ай бұрын

    ребята, у вас с требованиями сразу беда, потому что требования изначально не верны суть краулера вовсе не в сборе каких то данных, это никому не нужно, суть краулера - это __динамический__ сбор данных ["динамический" - изменяемый по времени], и нужен именно такой краулер, который следит за __динамикой__ __изменения__ данных, а не сборщик данных как таковых

Келесі