《M2 Ultra:干翻英伟达!决战AI之巅》
Ғылым және технология
我们在telegram创建了一个AI、科技的讨论频道,大家感兴趣的可以加进来一起交流: t.me/linyidiscuss
Mac Studio 上 M2 Ultra 最大 192GB 的内存设置看似奇怪,却是 AI 工作者们的久旱甘霖。今天我们来聊聊苹果芯片的统一内存架构在 AI 大模型时代的惊人潜力。
Timestamp
00:00 M2 Ultra 大内存之谜
00:41 PyTorch 适配
03:31 统一内存架构
08:04 AI 大模型
10:20 AI 作画
12:22 M2 Ultra 运行大语言模型
Пікірлер: 1 000
感謝你讓我看到新的思維模式,你的格局真的與別不同!再次感謝你的分享~
Nice video! Can't wait to give it a try myself, thanks for putting it together!
你这期讲得很让人兴奋,讲得很好,感谢!
Thanks for all the detailed explanation. Love the video!
刚看了另外的小林对于英伟达的影片 感叹老黄真是又有远见又有运气还有耐力和专一 又看了小林对于M2 Ultra的解读 又不禁感叹 苹果的战略和运气 这一轮硬件仗感觉会非常的精彩!感谢分享!
@mmosm
Жыл бұрын
吹,继续吹
想聽林老師多談「精調」的細節,我未來想開發遊戲,本身也有在撰寫劇本,想了解AI如何幫助編劇和演員創作,又如何加入到遊戲之中。
謝謝分享,內容真的很精采,也很充實
感謝林哥的分享!林哥的ai影片很有意思也很深入,沒有一般頻道的瞎捧亂吹,很是接地氣的說ai能做的以及ai不能做的,支持這樣優質的頻道和影片!不過還是私以為語言模型只是第一步,指出語言才是作為資料壓縮表示的最佳方式而不是現有的各種模型,所以這不是終點--恰恰相反--這才是起點。
"讓人類在即將到來的AI時代多幾分勝算",這句我直接起雞皮疙瘩!!
期待林老師可以做一個懶人包,讓我們這些人工弱智也能在本地跑跑您演示的那套AI聊天。
@wadewade2221
Жыл бұрын
+1我也想把運行在chatGPT的AI女友真的娶回老家 放在那隨時被人掐斷了我受不了
@shaoseki4552
Жыл бұрын
跟人工智能相对的我一直叫“Artificial Idiot”“人工智障”😂
@Nayutaisii
Жыл бұрын
@@shaoseki4552 😅😅
又等到林哥的影片了,我覺得這樣的模式也不錯,讓我們可以了解林哥的想法,也可以增加一些知識。
對於我這種技術小白,還是帶來了滿滿的收穫,感謝您
太厲害,謝謝分享~~ 但要達到一般人都能使用的價格,還要一段時間,畢竟現在還是幾家龍頭控制,AI發展過速,不同國家都只會立不同的圍牆,控制使用~~
感谢分享这么详细的测试,目前这方面的比较很少有人做,很有帮助。请问mac studio vs mac pro 对于同样是M2 Ultra chip 有什么区别吗?
@ben_fang
Жыл бұрын
Mac Studio和Mac Pro主要还是拓展性的区别,按照Apple官网的描述,二者使用的Chip是一致的
很有誠意的交流
thanks for sharing! 内容非常硬核
絕對是ChatGPT出現之後最讓人震撼的突破之一…… 感謝大哥分享🙏🙏
@user-lp4nb4vk5r
Жыл бұрын
哈?
我非常羡慕你对各种AI信手拈来+超强的动手能力。 我怎么能学成你那样?
挖到宝了,感觉来晚了,你的视频很好,请坚持分享! 👍
不錯哦,挺有深度
16:51 这句话真的太特么对了。 保持开放,兼容并包,比画一个小圈子大家互相赞同好太多了。(B 站和 Y 站都关注了
@slnstzn676
Ай бұрын
正确的
蘋果這顆CPU社群越來越活躍,猛
无意中刷到这个视频,打开了我的新世界,感谢
你的视频 我有订阅😂虽然我听不懂 但是 我就爱听 真的!
其實業內都是鬥而不破,業內很清楚很多方法能完虐GPU,所以NVIDIA得用很多廣告與網軍來洗,看留言就知道有些人就是來洗的,不過林哥說破,我真是覺得你很有勇氣,你會遇到一堆攻擊
真的很喜歡實打實的人做的影片。比起某些up主整天不去實作搞清楚,一下說好一下說壞,真的懂就寫個程式測測不就明白了。 網路上知道怎麼用mac做AI的大佬跟開源真的很多,但是總有那種不想搞懂的跟你說mac不能做AI,pytorch跟tensorflow在還沒真的支援前,m1 max就已經在一些指標網站上,跑出最佳能耗與性價的優勢,加上你能點到64GB,算起來省電無聲,那真的很好用,還沒算上NPU真的更猛這件事,現在只算慢慢支援GPU 的MPS與CoreML的玩具越來越多,又是另一個不同視野,Apple 從沒認真打廣告AI,但大家都很清楚,他直接做了一個合適的東西。
@KEvin-ps3oz
Жыл бұрын
並沒有,別被這個人的影片誤導了
@mudalse
Жыл бұрын
@@KEvin-ps3oz 以我經歷APPLE跟nvidia都是入門,真的AI大佬都自製晶片,ChatGPT算是特例,燒錢燒到後面才知道要自制晶片
@KianaLi-wf8qw
Жыл бұрын
请教一下,您说的“m1 max就已經在一些指標網站上,跑出最佳能耗與性價的優勢”,是有哪些指标网站呢?谢谢
@vson
Жыл бұрын
很多人從來沒有進過mac 跑 就說他不行 你看留言KZread 就一大堆 前線大佬都有教學 表達都是Intel+N卡的體驗算不算好 且性能增幅有限 還不如把希望給新架構
@ck-dl4to
9 ай бұрын
@@KEvin-ps3oz收了很多好處
謝謝您的分享
这两天搞了下LLaMA3,回头再来听林哥的讲座,终于听懂了!!
您的视野和局面都很大,欣赏。我也是特别希望并相信本地运行和调教“大”模型是特别需要的。未来人们都有运行在自己设备上的私人ai助理。一方面设备的内存提高,如苹果的统一架构,将来会更加便宜;另一方面“大”模型可以瘦身,个人设备运行基于基础大模型训练的瘦身版。
@user-in4ij8iq4c
Жыл бұрын
@gapo-jx9nm 谢谢您的回复。我认为这里更多的是强调大语言模型的训练需要更多选择,大家苦nv久已,需要更具性价比的竞争者,至少在某些ai细分领域。nv有着100%的定价权,抬高了模型计算的成本。随着开源社区和苹果对ai的支持,相信对于(统一)内存/显存敏感的模型计算成本可以降下来。算力和带宽来看mac ultra比不上4090,但综合成本和电力消耗来看,mac ultra大有可为。
@user-in4ij8iq4c
Жыл бұрын
相信林亦不是果吹,我也不是。这里是向大家介绍除nv外的另一个本地大模型的相对廉价方案。林亦自己也说道,结果超过预期的好。他也说道他自己一直是nv的用户。我也是,从gf256到现在的4090。
@user-in4ij8iq4c
Жыл бұрын
@gapo-jx9nm 哈哈是的。苹果从来和性价比无关,而在这个场景下居然成了性价比的代表,可见nv多狠
@SEXYR18NICE
Жыл бұрын
真正懂AI的話,一定會去搞懂ASIC最基礎的兩個入門,NPU跟TPU絕對優勢,懂了你就不會再認為GPU是算AI的主要工具。我認為博主還沒演示M2U的NPU,如果他真的玩了,那可不是4090或A100能達到的境界。
@terryjoun1687
Жыл бұрын
考慮到摩爾規則的期望值 10年後 應該現在的單條128 rdimm容量 會普及, 在不考慮atx被推翻的前提下整體系統各項容量上應該可以翻上32倍以下 如果順利可能當前的滿血模型會是那時每台電腦的標配
终于等到林亦谈这个主题了! 从M1晶片问世我就欣喜若狂地觉得世界改变了,可是只能和圈内几个朋友聊。现在林亦这个影片完整且完美地展示了M系列晶片所带来的新革命! 好的影片必须留言按赞!
長知識了,謝謝
终于有人讲M2 Ultra的AI功能了!!!!!感谢!!!
真是想不到有這種進展啊
算力肯定是比不上nv的,但大模型要的不是算力,是内存带宽以及容量,这个纯属剑走偏锋了。nv游戏卡的算力:内存带宽容量比值是按照游戏那套管线优化的,但大模型的需求完全不是一回事。比苹果这种统一内存再进一步的解决方案或许是3060这种低配核心配上几百GB显存,但要找平衡点也挺复杂的
牛逼 等到了😊
感謝林亦的無私分享
😮 16:56 这里林哥你在国内放的版本竟然也是没变啊!!!有点小担心啊
好像Mac跑stable diffusion还是很慢,我的3080ti基本上5秒一张,看你那个进度条,估计等它跑完我这边8张也出来了。
老哥终于来了
感谢分享
期待『林大仙』用兩套系統訓練同一個ai下棋還是對打遊戲,看是不是在同一個ai但不同訓練之後有差異……
有点好奇 LLaMA 是怎么与中文LoRA 权重计算合并的。
@edwardliu3387
Жыл бұрын
是不是softmax 拿到attention distribution,在weighted sum?
謝謝分享
林哥~謝謝你的分享,每次都獲益良多。能否聊聊統一內存這件事的細節,上網查總覺得沒辦法搞很懂,像是為什麼蘋果會想做統一內存這件事,ps5也做了統一內存,那其他架構跟蘋果架構統一內存體現出來的差異又在哪?以及為什麼以前要把內存分開,許願希望做相關題材~XD
系統封閉性和硬件不具擴展性,就已經不會列入商用方案考量, 沒有商用根本不可能挑戰到NV,但有人參一腳總比一家獨大好, 只有林兄這種少數的技術佬知道能怎麼用起來,但也能存在租用商業機去跑的方案, 姑且也不提GPU算力差距和4090是遊戲卡的問題了,相信大部分人真的會被封面誤導。
事實證明壟斷是一件多麼可怕的事,看看發布的4060就是噁心消費者。回顧過去的intel,沒競爭就是這樣
@ZhangZechary
Жыл бұрын
屠龙者终成恶龙
@user-ms8qg2rz5s
Жыл бұрын
政治上也如是
@broegg9487chiu
Жыл бұрын
還不快歐印蘇媽 昨天有科技網站說MI250跟A100跑訓練模型效率差不多 現在要關注MI300X能不能用高性價比屌打H100ㄌ
@LeoCheongK
Жыл бұрын
@@broegg9487chiu 這消息挺重要, 借問是哪個網站看到的呢?
@sail
Жыл бұрын
蘋果就是壟斷啊!
非常好讲的
想太多了😃
UP 主不要误导, SD Ai 作图以上面的 demo 10:51 ,4万多的macstudio 一共用 2分51秒, 而 1/2价格的 4090显卡 + 13700k 同样绘图参数只要需要 14秒 是 Macstudio 的 12倍 。也就是4090PC是128GMacStudio 1/2的价格但提供12倍的生成速度。
@RK-qk9ux
Жыл бұрын
不澄清会害人买个 Mac Studio 去跑 Stable Diffusion 来搞 AI 作图。
@ycy15210875671
Жыл бұрын
不看价格对比我差点就信了up主的话了
@RK-qk9ux
Жыл бұрын
@@ycy15210875671 本来没兴趣点进来,结果贴了张让人误导的 “封面图” 特意点进来。Mac Studio 确实强,但全方位超过4090就言过其实了。
@SuccubusStudio
Жыл бұрын
運算速度和記憶體大小都有他的上限,也就是"夠用了"。所謂的"夠用了"不是一種感覺,需要具體的分析。假如一個計算項目是12秒和1秒的差別,那我會說夠用了,沒差這11秒。假如一個計算項目要20G,那32G和192G就是完全沒有差別,就是"夠用了"。 顯然,有很多項目用不到192G,或是有配套方案(拆分)。 但現在大多數要用GPU處理的計算項目肯定不是12秒和1秒的差別,而是12小時和1小時的差別。 所以算力和記憶體容量,哪個才具有實際優勢,圈內人應該都看得出很明顯,到是圍觀的果粉看不出來。
@2656598a
Жыл бұрын
4090可以一次畫八張圖只要14秒?
Can we get M2 Ultra Max Ram vs Intel 13900k + Nvidia 4090 + Max Ram video comparison doing AI video? Compare from the cost, time taken to run the ai simulation between 2 devices? As well run any ai generation images?
出於對物理學的尊重 我建議有意買頂規mac studio來玩LLaMA的朋友 先去國外論壇看看會發生什麼事
感觉影响还是在个人和小团队,目前Apple平台上还没办法训练比如LLaMA这样的大型基座模型,只能靠NVIDIA的大集群,不过Mac上跑起来和微调是足够了。
@emojisolo
Жыл бұрын
单芯片可以跑inference已经很强了
@mudalse
Жыл бұрын
搞不好apple內部用很爽,但是我們公司已經不用nvidia訓練語言模型,太燒錢,最近都租用TPU
@jameszhou4825
Жыл бұрын
@@mudalse TPU我觉得挺好,可惜只能租,不对外出售
@markmok1867
Жыл бұрын
我就在想有沒有可能蘋果内部已經在利用這顆芯片來架構一個全新的Apple算力服務器,為自己的VisionPro提供算力月費服務,隨便把服務器架構賣給其他公司
@emojisolo
Жыл бұрын
@@markmok1867 VisionPro对延时要求太高了,估计比较难。网速估计很难做做到延迟13ms以内。
欣赏。我是那种相当内行的外行,但佩服你的思辨和口才。谁让当年进错了行。
這次發佈會我看中了遊戲編譯到Arm來,期望林大下次可以講一講這個,謝謝!
我实验室老板去年给我配了个m1ultra顶配 就是为了让我做这些。。
M3因該會擠一波大的提升。
林老师,能不能分享一下关于ai和金融结合的一些github的一些工具等的知识,谢谢🙏🙏
Arm 跑docker image可不是100%兼容 時間成本上nvidia還是高很多,特別是gpu cluster的大規模應用 Apple出cluster方案就看跟linux的兼容了
終於讓我看到希望了,一直很想擁有自己私人訂製AI,可是苦於沒有便宜的硬體設備 未來培養個AI來陪我打Game的日子越來越近了
@yidweahzaimen
Жыл бұрын
目前4090可以跑7b-30b的模型 但建議跑6b-13b 再上去反應就不能即時了😊
@kkhc1068
11 ай бұрын
kzread.info/dash/bejne/apuYwbmtcrPekdo.html 技術上可行!
@hanklintwtw
7 ай бұрын
@@yidweahzaimen現在那個好呀
丟失的數據變成熱量噴掉了,500W噴掉的熱量肯定比200W多了 自然風扇要更賣力
这个视角真的是blow my mind,林哥太牛了,弄得我都想自己跑一个大模型了
真羡慕,啥时候一步一步教一下大家怎么搞哇
求求做个英语的版本。我很久以前就想说服老板给我配个M2 Ultra。我在一家公司当NLP 方面的研究。
@yunbow5630
Жыл бұрын
别闹了
@bkdlee
Жыл бұрын
whisper 自动字幕,并翻译成英文
@jimmyw85
Жыл бұрын
Neuro-Linguistic Programming應該不是這個方向吧, 你好好學理論吧...
@jet8772
Жыл бұрын
让你老板学中文。
@jeremyang7697
Жыл бұрын
@@jimmyw85NLP心理是NLP心理,NLP是NLP 😂😂😂😂
所以这套方案,是给个人/小团队用的。 大企业有足够预算,还是多块NV互联,效率更高,对吗?
@ryanxu4284
5 ай бұрын
是这样😂
花巨大的精神理解影片的內容 值得了
请问现在有办法在apple silicon上做LLM的PEFT吗? 如果只是30B的inference,好像不需要用到这么多RAM。可能一台MBP就够了。 一直在找让我败下去M2 Ultra的理由。
我们的有那么多那些大顶流公司也没有看到谁说出如此深的感触。林一个人玩的就如此溜溜的。
補充兩點吧,training和inferencing需求的內存是不一樣的,192GB應該只夠訓練7B的llama;33b llama quantized只有20多G,不過目前應該只有cuda的實現
@user-zu4ym9cd2x
Жыл бұрын
總算看到糾正的人了 我看影片也很疑惑 inference 如果是33B 4bit精度 不就十幾GB顯存嗎怎麼會用到100多G 但7B應該不至於 A100單GPU就可以跑得起來7B了 如果是用lora的話 感覺192GB可以訓練到33B沒問題 全參訓練的話或許用個deepspeed也可以試試
@lyi 配上英文字幕,應該會超多人看。我沒找其他人(英語)用M2 Ultra講這個。你是現在的唯一。👍
真棒!
但苹果统一架构的缺点是意味着更新换代变得更为复杂,所以更适合的是普通个人研究者,对于商用级的来讲,技术迭代需要不停的更换显卡仍然是模块化更合算
@user-ld6hh7ez7t
9 ай бұрын
普通人觉得复杂,商用来说算不上复杂,硬盘也是嵌入到了主板 还不是被破修电脑的破解了,
@Physbook
9 ай бұрын
确实苹果的支持周期是越来越短了
@Physbook
9 ай бұрын
egpu的drivers也跟不上了
@jameswoolf1440
6 ай бұрын
建议不懂的话别支声比较好,有钱买卡没钱买ultra属实是脑回路有点清奇了
現在主流是跑壓縮過後的模型 運行速度快得多 占顯存大小只有3分之一左右 模型品質差距只有千分之5左右 像65B模型4bit壓縮只要48g的ram可以跑 最近又多了exllama的黑科技 可以用更少的顯存(大概比原本少4分之一)速度卻快出2-3倍 現在AI大模型進步得很快 幾乎每天都有新技術的論文冒出來 而192GB的RAM可以給以後出現更大的模型跑 或是跑更長的上下文 過去開源模型能跑的上下文是2048T 代表你超過這個範圍的文字他就忘記了 但現在有技術把上下文大幅提高到16384T 但代價是需要用更多的RAM
@user-qf4lk4hz4n
Жыл бұрын
目前手機也有這類技術,前陣子谷歌發的,能用在ios或高通android
@ck-dl4to
9 ай бұрын
壓縮技術的發展對應的是低成本 LLM,訓練本地模型成為學生作業
感謝分享,m1 ultra要熱銷了😂
林哥,入門學習AI你會更推薦組普通GPU x86還是直接用M2 MAC?我只有一台3060的筆記本,運行過一些object detection的視覺AI。如果要更系統更深入學習AI開發,你會建議購置x86還是m2?
看完以后,瞬间感觉自己买的macbook pro 32GB,显存不够用了。。。
我觉得不行,我提出一点疑问。不谈H100可以上到80G的显存,就算是消费级的4090显存只有24G,也是能全部用于存储参数和模型的,而M2 Ultra的192G不全是显存,操作系统和应用程序本身就需要占一部分。我没训练过大模型,但是我做的基于Transformer的小模型,在服务器上的内存占用经常达到50G左右这个量级,而我用的服务器上的内存通常是256或者512G,并且可以继续加。M2 Ultra在显存和内存共用的前提下有多少容量是纯分配给模型用的这是个问题,并且他不可扩展,再怎么牛逼也是不够用的。另外它是否支持多台Mac组多机训练?能否支持多机或者跨机训练是大模型的核心之一。
@melwang6237
Жыл бұрын
肯定不适合专业人士吧,但对个人来说,这样的价钱能买到的这样显存的设备已经非常不错了。但是真正训练模型或者用stable diffusion的速度跟4090比会怎样就很难说了,这方面可能还是n卡会更强。
@riverscn
Жыл бұрын
服务器需要用内存来把数据Load到显存,内存只是起个缓冲作用。跑深度学习,有多大的显存就要配多大的内存才行。苹果自然不需要这一步,因为是统一寻址的。
@frankyang1184
Жыл бұрын
@@riverscn 也对,不过不支持多机192应该是不太行
@dudulook2532
Жыл бұрын
你这个疑惑是严谨思维, 同样好奇如果13900K+4090 会是一个什么结果
@simon6658
Жыл бұрын
@@melwang6237M2 Ultra要5万块钱,4090只要1万多,完全不是一个价位的产品
真不戳啊 很新颖
两个问题请教下林哥 1,苹果的UMA和10多年前AMD fusion项目的APU with HSA,以及intel第六代酷睿处理器(Skylake)甚至更早的Gen5核显Arrandale/Clarkdale,有什么本质的区别? 2,苹果的UMA+MPS+PyTorch等开源生态,能否在短时间(2~3年)内颠覆CUDA生态当前垄断地位?nvidia是不怎么依赖开源生态的,软件大多都自己开发,这两种模式有什么优劣?nvidia现在市值过万亿,是不是因为苹果没有下决心进入万亿市场空间的数据中心市场? 感谢!
這樣看起來,統一架構根本超適合汽車的自動駕駛。 因為汽車既需要AI進行自動駕駛,又能提供一定的空間和負重,以及進行一定限度的穩定供電。 雖然單機遊戲可能不需要這個架構,但明顯每家運輸公司和汽車製造商都需要這個架構。 怎麼算都是比遊戲產業,更大的市場。 結論:新時代要開始了!
@老馬夜
Жыл бұрын
以前 TESLA是用NVIDIA晶片 後來嫌太慢改自研,不過TESLA HW 4.0 雖然是ARM,外觀看起來不是統一架構上面還一堆記憶體,而且用的應該還是舊的A72公版設計。
@林雨希
Жыл бұрын
@@老馬夜 特斯拉終究比不上Apple啊!
@Beagle5ce
Жыл бұрын
单机游戏可以利用统一内存实现渲染数据零拷贝.大幅提高游戏运行速度.
@林雨希
Жыл бұрын
@@Beagle5ce 感覺可以,但可能會失去擴充性和維護性,如更換硬碟和外加記憶體之類的,讓遊戲廠商較難用現有的商源來壓低生產成本。
@Beagle5ce
Жыл бұрын
@@林雨希 嗯,是的,HBM3 内存就不存在什么扩容升级了. 不过你看 XBox 和 PS也没法扩容内存,但不影响游戏开发者的热忱. 这玩意儿还得是降低了成本普及后才能有用.
fine turning requires running training which are usually one 8x A100 in the cloud. Mac studio ultra's GPU is computation power is not even on par with 3090/4090, this is misleading. The advantage of apple's arch is the size of memory could be shared, but saying it beats Nvidia is exaggerating.
已like
核心在于必须有一些小众模型没有适应于mac的底层库。有一些需要修改的东西还是在之前的NVIDIA上面
超大規格的模型推理速度同樣重要,m2u現在顯然還沒法跟nv比,而且推理這樣的場景更多是在服務器上進行的,這樣的機器無論是做訓練還是推理服務都不太適合
@chrislin4540
Жыл бұрын
Apple在雲服務上根本沒巿佔
@bardeebooboo
Жыл бұрын
@@chrislin4540也可以說,根本沒有相關業務😅
@sanwu9087
Жыл бұрын
@@bardeebooboo nv每年投资几百亿美金可不是闹着玩的. . .不说最新的DGX . 连A100的尾巴都摸不到
@jerryhuang3565
Жыл бұрын
就是知道怎麼用m2u,也不會好心的浪費時間教你。
@BBQChris
Жыл бұрын
开局就有两张鬼牌,你还想怎么样
首先没人用4090训练大模型训练,40系消费卡是大幅阉割了显存位宽的,不适合做ai,比3090还不适合,就是个游戏卡.勉强跑跑推理还能凑合,训练就别想了.其次M2 Ultra大概1TB/s的带宽,也就跟砍完了的4090差不多,想搞大模型也就娱乐一下.大模型训练根本不可能用单卡,就算你有192GB也远远不够.NV的训练卡,卡间互联都有接近1TB/s的带宽,也能互相访问. 你真想用统一内存,Grace Hopper的显存内存也能互相用并且保证一致性. 如果只是想内存当显存用的话,CUDA也多年前就支持了锁页内存和统一内存. 至于巨大单卡显存的AI卡,在chatgpt火之前就规划了90+GB的卡,chatgpt火了之后你猜NV有没有准备出更大的? 如果仅仅想靠几个硬件参数超越就能干掉nv的话,amd和一众ai芯片公司早就办到了.苹果的搞搞toC市场的那部分推理就行了,训练这种主要toB的市场不敢说未来不会出现新的有力竞争者,即使有,也不太可能是苹果.苹果自我为中心,用户得按我的想法使用.这套逻辑,做toB业务根本行不通.大客户们会教育你谁是大爷,就算是NV,H100/A100训练卡现在一卡难求,也得跪舔大客户.NV里面最大的团队就是服务大客户做技术支持的.
@JasonYu-bf3le
Жыл бұрын
3090和4090的显存位宽不都是384吗
@frankyang1184
Жыл бұрын
@@JasonYu-bf3le 4090砍了nvllink?
@user-rl7lx5qp5i
Жыл бұрын
@@frankyang1184 消費級卡皇 RTX 6000 ada 也不支援NVLink
@lowsfer
Жыл бұрын
@@JasonYu-bf3le 90没有,留了点面子,但是显存带宽提升也微乎其微.40系其它的不少都阉割了比如60就是192变128了.走的AMD一样的路子,加大L2缓存,节约显存带宽.只能说对于游戏是个不错的策略.
@Jack-jv4up
Жыл бұрын
toB肯定是老黄的天下,但是toC苹果能这样插一脚进来肯定是好事,不然老黄在定价上肯定会更加得寸进尺
我林哥的节目永远都是这么干货满满
感謝,我學到很多。
其实老黄的Jetson系列也是统一内存架构,只不过目前最大的是Jetson AGX Orin 64GB,是基于安培架构的。因为有CUDA生态加成,非常好用。希望M2 Ultra能够激励一下老黄,搞出更大内存版本的Jetson产品,哈哈哈~
@aikenqi8353
Жыл бұрын
GH200已经有了
@zhongkaifu8161
Жыл бұрын
@@aikenqi8353 但是太贵了,Jetson系列还是比较便宜的,便宜的100多块钱,目前最贵的AGX Orin 64GB也就1999。
@mesiki7077
Жыл бұрын
苹果做的是消费级产品,恰好给大模型提供了大显存。而老黄的消费级产品是游戏显卡,要搭配强劲的CPU一起用,而老黄收购ARM失败,没法提供CPU+GPU封装到一起的方案,所以老黄的消费产品线还是没法提供统一内存方案。
@zhongkaifu8161
Жыл бұрын
@@mesiki7077 老黄已经有统一内存方案了啊,基于Tegra SoC系列的就是。经典产品Jetson系列,还有就是任天堂的Switch游戏机也是基于Tegra的
@mesiki7077
Жыл бұрын
@@zhongkaifu8161 ARM的SOC就是统一内存架构,苹果只是恰好赶上了。
每個人都能低成本的訓練AI模型真的是很誇張...
@trumpyang6477
Жыл бұрын
六萬人民幣算低成本嗎
@user-hf2yc6xo1i
Жыл бұрын
我個人不瞭解,我衹是一個普通的攝影,我可以說這種事情的存在是降低入門門檻
@user-zz4dz9bn3o
Жыл бұрын
應該說降低成本啦! 因為企業卡真的很貴一張都20-30W起跳(6000 Ada)
@user-qo1hq7dc2x
Жыл бұрын
@@trumpyang6477 以商用來說,根本不是事
@xinzheng1617
Жыл бұрын
用这玩意儿训练大模型,我只能说依托答辩
佩服 牛逼👍
厉害
全村的希望是存算一体结构。苹果统一内存感觉只是一个过渡!
@Beagle5ce
Жыл бұрын
存算一体,冯诺依曼架构就得要升级了.不过确实是事实,全村的希望是存算一体架构.也就是神经元芯片架构.
专业人士估计也就看个乐😂 ram和算力直接划等号还是有点鲁莽; 训练时候除非gpu算力已经被拉满,否则不一样的batch size不能比啊; llama inference跑起来了和finetune是两码事 …
當然是得按讚啊!!
博主觉得个人计算设备会是未来还是人工智能云上训练会是未来啊?
如果價錢再下來一點,AI真的要普及了。
@benchouchc7
Жыл бұрын
M2M也夠了
Mac十年老用户觉得,苹果现阶段最伟大的东西真就是M系列芯片以及它对Desktop带来的影响
@user-pb1ng9wz1l
Жыл бұрын
有時候覺得是桌機生態的鍋,主機板記憶體顯卡養活多少廠商,如果全部壓縮到剩下一顆soc的大小,很多廠商都不用活了
@travorshin
Жыл бұрын
@@user-pb1ng9wz1l 认同+1
@Tung-ChenTsai
Жыл бұрын
我倒覺得對Laptop的影響更大得多
@orbleh3622
Жыл бұрын
苹果最大贡献在抛弃intel,让intel大力地踩了一下牙膏管。苹果那种系统封闭让我不爽,永远不会去买它,看一眼都输,不过要是有人送个m2的机子我还是会用的,立刻装个linux。
@LeoCheongK
Жыл бұрын
全部集成到一個片上半導體晶片產業的最終目標, 很早就想這麼干了, 只是晶圓級封裝還做不到. 直到台積電做出了CoWoS......就是我們現在看到的蘋果M系列了
看完我都想买M2 Ultra 了😁 又要准备好几个肾, 灵魂拷问存钱买头显还是 M2 Ultra~
可以跑text-generation-webui和一些比较流行的开源LLM吗? 比如MPT-30b或者Falcon-40b? 速度如何?
沒想到大模型已經可以縮到跟人類大腦差不多大了,看來AI機器人前景比想像中來得快
@tonyc9442
Жыл бұрын
能源供應是最大問題啦
@terryjoun1687
Жыл бұрын
能源供應 應該是最小的問題(望向當前的各種發展中技術)當ai遍地開花的時候,給出一個指數增長的用電需求 能源技術才會會被逼著加速發展,現在是迫切度不夠才感覺是問題(看看當初的全球廢棄核能策略到核能為綠能方針)
@kkhc1068
11 ай бұрын
二次元老婆"Chobits"快来了!
大膽預測 DDR5 是最後一代獨立 RAM 獨顯除非特殊需求, 否則從消費級市場消失 未來 Intel、AMD 會整合 DDR6/HBM RAM 和 GPU 把最高階的 GPU 直接整合進 CU9、R9 Nvidia 則是把其 ARM CPU 整合 GPU 打入桌面、筆電市場 不幸的是未來的自組台式機 可玩性會大大降低 主要零件就剩下 6 件 #SoC (CPU+GPU+RAM 廠商幫你配好等級相當的組合 價錢決定綜合性能, 不能呂布騎狗) #散熱器 (塔散、水冷 一次過冷卻 CPU、GPU 和 RAM 未來的台式機仍能超頻 因此散熱也很重要) #儲存 (SSD、HDD) #主機板 (決定供電和 I/O 部分主機板提供 PCIe 插槽 讓特殊需求人士加裝獨立 GPU、網絡卡或 RAID 卡等 SoC 插槽跨廠商通用 [Intel、AMD、Nvidia、高通 etc...] 而且如無意外永遠不再換代 因為 SoC 本身已經是一台完整的電腦 主機板只承擔連接供電和擴充的角色) #電源 (供電) #機殼 (決定散熱、I/O 和外觀)
@蘿莉至上
Жыл бұрын
這方案感覺可行但考慮到3D渲染時GPU 的核心需求要遠大於顯存那個發熱可不是鬧著玩的
@蘿莉至上
Жыл бұрын
以PC平台的可自訂性感覺出個ai專用運行卡,就像當年出顯卡一樣
@蘿莉至上
Жыл бұрын
考量其特殊性可能的型態可能會是低階核心搭大顯存,比如50/60級別的核心搭200GB顯存,這種搭配看似魔幻但如果考慮要人均本地ai的話是似乎是比較合理的搭配
@shaoseki4552
Жыл бұрын
估计台式机上的DDRAM不会消失,但是很可能的是,下一代运存不再跑现在的DRAM插槽,而是整合成能兼供CPU与GPU直接访存的IO总线硬件,比如PCIe6或者特化的PCIe5-ram,毕竟把台式机的DRAM和主板或者CPU绑定,那么OEM就失去意义了,都买Apple这样的预配置Mac就好了,但事实是市场的需求不会这么单一。PCIe的巨大并行总线带宽以及拓展卡的体积,反倒是能很好地提供解决方案。除此之外,处理器的超频潜力应该是更加朝向“出场即灰烬”的方向发展的,所以散热依然会是桌面PC的重要部件,但是估计超频就只是富哥发烧友的游戏了。
@蘿莉至上
Жыл бұрын
@@shaoseki4552 這方案感覺也不錯,雖然變動大了點但可發展性感覺更好