Виталий Кулиев

2 жыл бұрын

Imagen: новейшая нейросеть-художник от google

Пікірлер

@user-gy6cn7nw6n23 сағат бұрын

Отлично) Postgre SQL

@Oris_m5 күн бұрын

А что можете сказать про Arc770 от Интел, лучше или хуже чем 3060 12гб, или 4060 16гб? Просто она гораздо дешевле 4060 на 16, и новее 3060

@kuliev.vitaly5 күн бұрын

На рынке ИИ доминирует нвидиа. Весь софт поддерживается и работает стабильно. Железо других компаний может быть дешевле, но у него хуже поддержка со стороны софта.

@Oris_m5 күн бұрын

@@kuliev.vitaly Спасибо, софт то может и не весь поддерживаться, но как обстоят дела с производительностью этих карт в машинном обучении , нейросетях, если допустить, что нужный софт поддерживает

@user-ml5dv2zm8r6 күн бұрын

Огромное спасибо за огромный труд! Можно еще добавить к тестам мониторинг загрузки процов по потокам, для разных архитектур, а также загрузка оперативки в зависимости от количества запросов. Интересно оптимальное сочетание проц-гпу-оператива для разных задач.

@kuliev.vitaly6 күн бұрын

Процессор и оперативка минимально используются. Все вычисления идут на видеокарте и данные между картами по pcie передаются.

@dyukel7 күн бұрын

Виталий, а позволяет ли LLM Studio работать с изображениями? В частности, интересует работа со спутниковыми снимками. Или может быть встречал готовые сервисы по обработке и разметке спутниковых снимков?

@kuliev.vitaly7 күн бұрын

Да может. Для большинства vision нейросетей есть image адаптеры. Можно закинуть картину и спросить вопрос.

@dyukel6 күн бұрын

@@kuliev.vitaly спасибо, попробую потестить Но было бы интересно и твой обзор посмотреть на этот тул

@adammartin74778 күн бұрын

Коллеги, у меня простой вопрос. Для учебы и работы, нужна платформа уровня обработки взаимодействия с `codestral 22b`, со скоростью - не менее 100 токенов в секунду. Комбинация "железа": * две rtx-2080ti через nvlink, * intel 13700kf Какую материнку выбрать? * как пример ASUS PRIME Z790-P D4 взлетит комбинация?

@kuliev.vitaly8 күн бұрын

Должно заработать. Nvlink в задаче инференса мало влияет на производительность. Можно по PCI e подключить

@kuliev.vitaly8 күн бұрын

Если важна скорость могу рекомендовать карту 3090/4090. Она быстрее должна работать.

@stanislavk56099 күн бұрын

Отличная работа!

@galandec200010 күн бұрын

Виталий, а что с сервисом? будут ламы в народ? мне по тестить надо ламу3 для бота.. арпи надо.. ищу. как скоро свое запустите?

@kuliev.vitaly7 күн бұрын

rus-gpt.com/ Сервис запущен в тестовом режиме. Есть 70b и 8b версии лламы-3. Пока можно использовать бесплатно. Планирую более детальное видео записать.

@galandec200010 күн бұрын

Вииталий, а можно еще видос по сборке вашего варианта ПК. что как подбирали, как собрали все в кучу и остальное. мне не сложно собрать свой ПК, сто раз собирал. НО! пока соберешь то что надо до кучи в плане разгребешься что брать а что нет,ю что подойдет а что нет.. было бы шикарно такое видео как по мне. я сам разраб, FullStack, Python хорошо знаю пишу на нем очень давно и темой ИИ периодический интересуюсь как хобби.😁 у вас превосходные видео! большое спасибо за ваши труды!

@kuliev.vitaly10 күн бұрын

Да планирую записать видео о сборке сервера.

@whoareyouqqq10 күн бұрын

Лучшая локальная это Phi3-medium. А llama3 делает отвратительные ошибки при работе на русском.

@kuliev.vitaly10 күн бұрын

llama 8b да. Llama 70b корректно отвечает на русском. Phi3-medium имеет в 2 раза большще весов, чем llama 8b.

@astroiLL201010 күн бұрын

Спасибо за обзор и тесты. Теперь понятно как выбирать. Буду изучать таблицы, считать что выгоднее. Пока юзаю RTX3060-12Gb (купленную на Авито у дизайнера) на XEON 22 ядра, 190Гб оперативки. Думал в какую сторону расширяться. Купить игровую видюху мощнее, профкарту или проще арендовать? Аренда создаёт гибкость в работе, если работаешь из разных мест и нет заморочек с оборудованием. Если используешь самосборный сервер, то кроме траты на покупку оборудования, надо делать VPN в свою сеть, да и трата электроэнергии, нагрев, деградация оборудования. И устаревание. Ну все как было когда-то с майнингом. ASICS или аренда мощностей? Всё-таки думаю, что когда эта видюха перестанет справляться с моими задачами (а похоже к этому идёт), перейду на аренду. Спасибо за обзор.

@kuliev.vitaly10 күн бұрын

Я решил, что лучше иметь свое железо и всегда иметь к нему доступ. Можешь попробовать использовать мое апи к ллама 70б. Пока нагрузка маленькая предоставляю всем его бесплатно. rus-gpt.com/

@astroiLL201010 күн бұрын

@@kuliev.vitaly Пока использую ollama run llama3:8b и оболочку WEB-UI с удаленным доступом к компу через VPN. Ну и другие модели, что помещаются в видяху. Попробую твой доступ, спасибо.

@nikitayarkin827111 күн бұрын

Сейчас уже 10-15к стоит

@kuliev.vitaly11 күн бұрын

Сейчас новые версии уже вышли

@user-eo4ec1uk5x12 күн бұрын

какие-то странные обои клеят в Таиланде, внахлёст 🤣

@user-fw8yw1ce1y14 күн бұрын

Спасибо

@Rassvet515 күн бұрын

Модели llama3 плохо дружат с русским языком, даже если в системном промте прописать мол пиши всегда на русском, все равно проскакивают английские слова там где это не уместно, что с этим делать? Модели на хагинфейсе дообученные на русских датасетах работают очень криво

@kuliev.vitaly15 күн бұрын

Встречал проблемы с русским при использование квантизации. 70b awq, которая тестируется в этом видео работает корректно с русским.

@user-uf2ur4bw7m15 күн бұрын

Я сам использовал Saiga в huggyface видел, но мало ее использовал

@kuliev.vitaly15 күн бұрын

зафайнтюненные версии ламы на другой язык или длинный контекст могут показывать плохие результаты. оригинальная версия с системным промптом должна хорошо отрабатывать

@astroiLL201010 күн бұрын

Что приводит к мысли (меня во всяком случае убедило окончательно), что надо применять английский. Пока не появятся нормальные прокси-транслейт для того, чтобы писать на родном языке, прокси-транслейт переводил (адекватно) на английский, подавал в модель и ответ пройдя через прокси выдавал обратно на родном языке. Чтобы переводом занималась не каждая модель как она худо-бедно может, а специальная, которая идеально под это заточена. Технически это реализовать вроде уже не сложно. А пока дуолингво нам всем в помощь.

@MikeMike-zf9up15 күн бұрын

Вы уверены, что у обоих карт pci x8? На чипсетах для амд под am4 я только asus pro art видел, чтобы второй слот выдавал тоже х8.

@kuliev.vitaly15 күн бұрын

Да. Две карты x8 подключены, третья по x4. Это можно посмотреть в свойствах карты. Платформа ам4, чипсет x570.

@MikeMike-zf9up14 күн бұрын

@@kuliev.vitaly здорово! Спасибо за ответ!

@1234mifa16 күн бұрын

Вот бы ролик по настройке среды тенсрр флов и пайторч для обучения на видеокартах. Но без привязки к конкретной видеокарте. Так сказать универсальный метод) насколько это возможно

@mux871716 күн бұрын

Подскажите, а каким образом память видеокарт на Вашем сервере суммируется? Используется мостик NVLink ?

@kuliev.vitaly16 күн бұрын

nvlink не используется. В задаче инференса он мало полезен. Все данные передаются по pcie x8 gen4. Нейросеть запускается в режиме tensor parallel. Видео с деталями сборки сервера будет одно из ближайших.

@FotonPC16 күн бұрын

Возможны ли тесты 2080ti с модификацией на 22гб? Также, пожалуй при выборе 3090\3090ti надо учитывать надежность карт (память с обратной стороны у 3090)

@kuliev.vitaly16 күн бұрын

У меня нет 2080ti с такой модификацией. Да есть такая проблема у 3090. Еще они начали продаваться на пару лет раньше, чем 3090ti и застали эпоху майнинга. 3090ti сейчас более перспективны - лучше немного доплатить и ее взять.

@si6arit16 күн бұрын

С Обновками)

@kuliev.vitaly16 күн бұрын

Спасибо)

@felix_co19 күн бұрын

У меня вопрос: А эта ллама она может выводить какой-то формат данных, например указать ей, чтобы json был, чтобы затем его положить куда-то/сделать что-то или надо делать прослойку которая отформатирует ответ?

@kuliev.vitaly19 күн бұрын

Да. Можно в инструкции указать, чтобы ответ был в json формате и задать структуру. 70b почти всегда отвечает корректно. 8b отвечает примерно в 85% случаев коректно и в 15% добавляет еще коментарии вне структуры.

@felix_co19 күн бұрын

@@kuliev.vitaly спасибо!

@niter4316 күн бұрын

@@felix_co если нужно гарантированно валидный json, то погугли про возможность установки formal grammar в используемом interference engine. Это позволяет описать правила синтаксиса и движок будет выбирать только из тех токенов, что не нарушают корректность синтаксиса. Например у llama.cpp есть GGNF (GGML BNF), для json в исходниках уже есть готовые правила в grammars/json.gbnf

@user-ug4ss9hr8l20 күн бұрын

спасибо за инфу

@ilnarkhusainov316420 күн бұрын

Добрый вечер. Какое приложение скачать?

@si6arit21 күн бұрын

Запустил llama 3 7b 8Q. На видеокарте 3070. 5-7 токенов/сек, при этом не 100% загрузка видеокарты. Как я понял нельзя что бы llama начала кушать сверх 8 гб видеопамяти но как это сделать я не понял. Экспериментировал со слоями - не помогло. Вырубал доп мониторы, снижал разрешение до 640х. Разгонял видеокарту..

@kuliev.vitaly21 күн бұрын

8гб требует нейросеть c квантизацией 8q. Еще нужна память для хранения контекста и операционную систему. С такой точностью не получится полностью загрузить видеокарту. Выгрузи часть слоев на процессор или попробуй q6 квант.

@user-rc6ze3ue3v21 күн бұрын

Привет Виталий ! Я новенький в таких делах , буквально недавно загорелся данной темой , програмистом ни разу небыл , но понял сразу , твои видео зачетные ! Хочу также разбератся в нейронках , многое из видео осталось не понятным ) блин, может запилиш краткий курс для новечков , без знания програмирования , чтоб хотябы в теме быть ) по делу самое актуальное что нужно знать на сегоднешней день, так как все это быстро развивается что только диву даешься , благодарю за выложеные ролики ! Я даже новый мини комп купил для такого дела ) в общем настроен решительно !!! )

@mrx831222 күн бұрын

Здравствуйте! print(torch.cuda.get_arch_list()) возвращает [] Почему пусто?

@kuliev.vitaly21 күн бұрын

торч не поддерживает видеокарту. переустанови торч

@mrx831221 күн бұрын

@@kuliev.vitaly У меня ноутбук старенький, может быть из-за этого?

@kuliev.vitaly21 күн бұрын

это неважно. команда возвращает список поддерживаемых архитектур видеокарт для установленной версии торч. Хотя если ноутбук старый, то поддержка видеокарты неактуальна.

@mrx831212 күн бұрын

@@kuliev.vitaly "команда возвращает список поддерживаемых архитектур видеокарт для установленной версии торч" А для RTX 4070 какая версии торч подойдет?

@desantovih25 күн бұрын

странно када на своем микроте подымал варегуард сервер а потом с ведра подключался то ключи обменивался, то есть при создании пиров на микроте я брал ключ с ведра и туда копировал и так же паблик кей с севера с вставлял в ведро

@bulgakovafashionbrand479725 күн бұрын

Добрый день. Подскажите пожалуйста Llama работает с анализом таблиц, сводными таблицами , с анализом большого массива цифр загруженных из разных таблиц?

@kuliev.vitaly25 күн бұрын

Привет. Такого опыта у меня нет. По идее должна работать. Нужно учитывать, что оригинальная llama 3 имеет контекст в 8к токенов - этим ограничивается размер запроса.

@bulgakovafashionbrand479724 күн бұрын

@@kuliev.vitaly Благодарю за ответ.

@Metalbender77728 күн бұрын

при оплате услуг, прошу учитывать возможность оплаты в криптовалюте. Так как есть интересанты (Я) без возможности оплаты в рублях.)

@InjenusАй бұрын

нужна инструкция для outline! а ещё расскажите, пожалуйста, про vless

@kuliev.vitaly27 күн бұрын

ютуб блокирует новые видео о впн. vless протокол уже давно доступен в hour-vpn. Дальнейшая информация доступна в телеграм боте.

@alex_great23Ай бұрын

Я не пойму почему эта модель меньшего размера у меня быстрее генерируется? 5700x + 3080ti и 32г оперативки.

@kuliev.vitalyАй бұрын

Скорее всего ты запускаешь квантизованную версию. Она меньшего размера и заметно хуже качество ответов. У меня запущена llama-3-8b-instruct fp16. Файл модели должен занимать около 16гб.

@galandec2000Ай бұрын

получается можно свою Llama3 развернуть на ПК и туда подставить? тестил ее даже на древнем железе, железо даже не ощущает что она вообще есть.😁так что развернуть на буке или ПК, кодеру свою Llama-3 и пробросить в редактор, шикарная тема. API вопросов нет, идея огонь! но там надо хотя бы 34B и выше.. 8B тоже огонь, но локально проще.😁 спасибо! а видосик по дообучить Llama3 на своих данных не хотите запилить? такого вообще толком не нарыть, или слишком поверхностно или бред..

@kuliev.vitalyАй бұрын

8b для примера выложил. планирую в сервисе перейти на 70b. Промежуточных размеров 3 ламы нет. Дообучать пока не пробовал, но планирую.

@amanboronbaev6478Ай бұрын

Привет. Какие будут примерно в будущем цены? Просто было бы прикольно старым юзерам дать чуть больше доступности. Также хотелось бы новое виде на тему как запушить свой проект(тг бота )на ВМ и как интегрировать туда (в проект тг бота) ламу используя твой сервис

@kuliev.vitalyАй бұрын

Насчет цен пока решил, но планирую сделать доступнее, чем другие решения. Сейчас интересно получить обратную связь от пользователей.

@antongonov1811Ай бұрын

Просьба рассказать о работе LMstudio, пройтись по всем параметрам, особенно про ембендинг в playground. Как файнтюнить сеть в лм. Как загружать файлы для анализа как чате гпт.

@mkkmmmАй бұрын

а почему не использовать тот же ollama и веб интерфейсы от ollama чтоб допилить под нужды будет легче по моему так как если с нуля писать то очень многое нужно сделать и до того как сделаешь!

@mkkmmmАй бұрын

эт я для веб интерфейса чем с ботом что то крутить и создавать велосипед который уже создовали командой

@kuliev.vitalyАй бұрын

Чатов с поддержкой gpt-4 есть несколько, причем бесплатные и работают без впн. С апи в этом плане хуже ситуация. Плагин codeGPT позволяет удобнее взаимодействовать с кодом. Тоже самое можно сделать и через веб чат(типа chatgpt), но придется вручную копировать много кода и дополнительнх данных - я так пробовал и это неудобно.

@alexanderkorolev8567Ай бұрын

Супер, спасибо

@Ubili-negraАй бұрын

Незнаю про что тут но парень ВПН помог поднять, досих пор работает))) лайк обязательно, думаю Виталий знает о чем говорит))

@Metalbender777Ай бұрын

Извините за мой французский, я немного староват, какое практическое применение лама 3? Заранее благодарю.

@kuliev.vitalyАй бұрын

Сфера применения такая же, как у chatgpt. Я использую для программирования и обработки текстов. В этом видео есть примеры использования: kzread.info/dash/bejne/oJOTyLyaY7mWZNY.html

@PubgSpeed-wl8yoАй бұрын

Сколько вы платите в месяц за сервер ,на котором лама лежит? И было бы интересно посмотреть видео как вы это все кладете на сервер и настраиваете API, что это работало так же как у вас

@kuliev.vitalyАй бұрын

Нейросеть запущена на моем компьютере, выделенном дя этой задачи. Стоимость аренды аналогичного сервера для запуска llama-3-8b составляет 50-100к рублей в месяц.

@PubgSpeed-wl8yoАй бұрын

@@kuliev.vitaly дорого, дешевле тогда пользоваться опенай, или антропик на данном этапе

@mkkmmmАй бұрын

@@PubgSpeed-wl8yo ага я пробовал на гугловском a100 на 40г но он с легостю запускает на 8b но с 70b уже тормозить там а100 только видюха стоит 3млн рублей аналогичный а сейчас работаю через huginface там бесплатно доступен модел на llama3:70b-instruct

@kuliev.vitalyАй бұрын

У openai есть проблемы с оплатой и впн для России. Пользуйся моим сервисом, сейчас он бесплатный, в будущем будет недорого стоить.

@PubgSpeed-wl8yoАй бұрын

@@kuliev.vitaly у меня нет с этим проблем в плане опенай, и эту ламу можно поставить к себе на компьютер и пользоваться, не совсем понял зачем мне ваш сервер?

@nikolaydd6219Ай бұрын

1:15 Ты хотел сказать 15 триллионов токенов

@kuliev.vitalyАй бұрын

да)

@user-yg5io2xx8pАй бұрын

конечно интересно

@galandec2000Ай бұрын

автору спасибо! дальше я не автору, а вообще, мало ли кто не занает этого.)) мультипроцессинг это не про ядра! это про экземпляры программы! а будут ли они выполнены параллельно на ядрах, ни кто не знает.😁 точнее ОС знает.🤣 мультипроцесинг весит не слабо под задачи ожиданий, лучше генераторы использовать или asyncio. asyncio очень опасен! чуть где ошиблись, им самая быстрая рука за западе вас поимеет в раз.🤣 купит 10 видеокарт 4090 у вас по 1$, или 100шт. и сразу помете что такое асинхронность.🤣 и помните самое главное! Python медленный только при первом запуске!!! поверьте, это очень важно знать и понимать!

@galandec2000Ай бұрын

спасибо! очень годные видео! что думаете насчет 3060 на 12гиг памяти? достаточно такой для Llama 34B или дообучить Llama 7B? и еще, что насчет процессоров amd? заранее большое спасибо за ответ! я думаю сейчас собрать себе на RTX 3060 12G, RAM 128G DDR5, AMD Ryzen 7 - 8 ядер или если найду то 12 ядер.

@kuliev.vitalyАй бұрын

Для нейросетей процессор и оперативка мало важны. У меня 3950x 128gb - узким местом они редко являются. 3060/12 - хороший бюджетный вариант.

@galandec2000Ай бұрын

а в какую цену влетит развертывание в облаке такой махины, я про 70B? может считали. спасибо! чисто спортивный интерес. я хочу себе развернуть 34B, но не знаю как просчитать стоимость... Вообще есть доступ к ним без VPN и много. я с РБ, нас тоже блочат, тоже с VPN живу.))

@kuliev.vitalyАй бұрын

clore.ai - тут дешево можно арендовать комп с видеокартами. 50-100к рублей в месяц начальная цена для запуска квантизованной llama 70b.

@galandec2000Ай бұрын

@@kuliev.vitaly спасибо большое за ответ.

@user-kdhc5g4gksАй бұрын

Спасибо!

@rawrex5610Ай бұрын

Здравствуйте, такой вопрос, при аренде сервера выдаётся один статичный айпи на всех подключенных пользователей, если есть к примеру сервис, который запрещает пользователю подключаться с одного айпи более чем с 2 устройств, как быть в таком случае? аренда второго сервера или можно внести какие-то настройки в самом Outline?

@florizelusАй бұрын

Есть вопрос по локализации и поиску данных в своей библиотеке с помощью ии. Как пошагово сделать и что для этого надо с демонстрацией результата. Управлять конечно лучше голосом на русском.

@kuliev.vitalyАй бұрын

Это уже не первый запрос. Почитай про RAG. Llama 3 должна хорошо работать на этой задаче.

@florizelusАй бұрын

@@kuliev.vitaly Спасибо. В сети есть авторы на тему. Смотрел канал "Выпусит джуна из лампы" выпуск"100% локальный и приватный gpt", и Serge_AI "Обучение личного AI на книгах". Спрашиваю для того, что мне, как пользователю , сложновато и надо понять какое оптим.оборудование понадобится и каков результат в конечном итоге. Стоит ли игра свечь - над этим тоже думаю.

@antongonov1811Ай бұрын

@@kuliev.vitaly с удовольствием посмотрел бы ваше видео на эту тему)

@YbivanKenobyАй бұрын

Для андроид есть?

@kuliev.vitalyАй бұрын

в браузере

@romanbolgarАй бұрын

Я тоже хотел сделать свой серве с ssh туннелем Но в этом не сильно разбираюсь промучился ничего не получилось

@meroniussАй бұрын

Спасибо большое за столь подробное видео. Пойду ковырять!)

@Musicnotforf.nrelaxsleep-ih6ivАй бұрын

Есть смысл 8B ставить на компе с i5-12400 со встройкой и 32Гб оперативки?

@kuliev.vitalyАй бұрын

На процессоре сможешь ее запустить. Попробуй, например через lm studio

@Musicnotforf.nrelaxsleep-ih6ivАй бұрын

@@kuliev.vitaly вопрос не в этом )) если она мне будет выдавать один токен в секунду, зачем мне такое?

@EvgenMo111114 күн бұрын

@@Musicnotforf.nrelaxsleep-ih6iv ну как, попробовал?

Виталий Кулиев

rus-gpt.com сервис для инференса llama 3. Программируем с CodeGPT плагином в pycharm.

Llama 3 - лучшая открытая нейросеть. Узнай как использовать эту модель.

Тестируем 5G интернет. Какая скорость?

Dreame l20 ultra. Распаковка и первое включение.

Из голоса банка - в фильмы 18+

Регистрируем ChatGPT в России. Краткая инструкция.

Обход блокировок VPN в России. Outline в телеграм боте Hour VPN

Выбор видеокарты для ML: Nvidia compute capability

Новости ML. Nvidia VSR, генерация видео, языковые модели.

Аналог chatGPT работает на ноутбуке! Выложили нейросети LLaMA и Alpaca. Инструкция по установке.

Метод Монте Карло в Data Science. Численно решаем вероятностные задачи.

Где арендовать VPS сервер в 2023 году?

Не используйте асинхронный python!

Видеокарты RTX 4090/4080 для тренировки нейросетей. Сравнение с конкурентами.

Тестируем быстродействие python 3.11

Новости ИИ октябрь 2022. Stable diffusion, nvidia RTX 4090, CPU AMD/intel, Ethereum POS.

Hour VPN публичный запуск

Основы работы с базами данных в python. Postgresql, Sqlalchemy, PgAdmin.

Модуль pexpect и pysftp.

Мой VPN сервис. Hour vpn.

4 обязательные части любого ИИ проекта

Code Royal 2022 - соревнование по созданию искуственного интеллекта. Russian AI cup 2022.

Imagen: новейшая нейросеть-художник от google

Развитие технологии VR. Популярный шлем Oculus Quest 2.

Где зимовать в Азии? Мой опыт проживания на Шри-Ланке 2022.

Ответы на частые вопросы про VPN.

Настраиваем VPN WireGuard для iPhone и MacBook.

Свой WireGuard VPN сервер. Настройка VPN для windows 10 и Android. Подробная инструкция.

Создаем свой VPN сервер в условиях санкций. OpenVPN

Пікірлер