Иван Бегтин - Common Data Index. Строим аналог Google Dataset Search, но проще и быстрее

Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
Подробности и билеты: jrg.su/KFFBS7
- -
В мире существует немного поисковых систем по наборам данных. Самая известная из них - это Google Dataset Search, также существуют китайский проект FindData.cn, поиск по научным данным в DataCite и ряд экспериментальных проектов.
Большая часть поисковых систем по данным построены или вокруг поиска по научным данным, или универсального поиска любых датасетов, опубликованных по стандарту Schema.org. Так работает Google Dataset Search, например.
Однако в реальности данных гораздо больше, существуют тысячи порталов открытых данных, геоданных, данных для машинного обучения и многих других данных. Далеко не все эти данные попадают в существующие поисковые системы и это существенно ограничивает их использование
Доклад Ивана - о создании проекта построения поисковой системы по всем доступным данным в мире путем нескольких шагов: создания каталога порталов данных, сбора метаданных, их анализа и построения единого индекса.
Скачать презентацию с сайта SmartData - jrg.su/GH83NB

Пікірлер: 1

  • @user-pv8dx4kb6n
    @user-pv8dx4kb6n24 күн бұрын

    Крутейший проект, странно что так мало интереса

Келесі