Открытая лекция по Efficient Attention

#deeplearning #nlp #llm #ai
Обсудим быстрые механизмы внимания с точки зрения простых инженерных решений.
Без математики тоже не обойдётся, но объясним всё простым языком и ответим на все вопросы, которые возникнут.
Наш курс "Ускорение нейросетей": deepschool.ru/...
Лекцию проведёт Саша Гончаренко:
- CTO стартапа по ускорению моделей enot.ai
- автор статей, в том числе про low-power/precision вычисления
- спикер конференций (NAS, трансформеры, инференс на смартфоне)
- хэдлайнер нашего курса по ускорению
Саша расскажет про:
- Group Query Attention - сделаем KV-кеш поменьше.
- Pattern Attention - простой способ сократить вычисления с помощью паттерна
- Linear Attention - ряд Тейлора is all you need

Открытая лекция по Efficient Attention

Пікірлер

Келесі