An artificial intelligence doctoral student tells you how the SORA diffusion model generates videos?

Ғылым және технология

一位来自清华的人工智能博士生，日常思索和科普。
An artificial intelligence doctoral student from Tsinghua University who likes to delve into thinking and science popularization.
喜欢我的内容欢迎订阅、评论、点赞^_^
Welcome to subscribe, like, and leave comments under my videos^_^
打开小铃铛🔔获取频道最新动态
Turn on the little bell🔔 to receive my latest updates
--------------------------------------------------------------------------------------
#科学 #科普 #知识 #物理 #数学#ai #sora #openai #chatgpt

Пікірлер: 90

@yesweet3 ай бұрын
看过不少科普都是直接说通过图片到散点模糊训练，之后反向散点模糊图片到清晰图片输出，没有一个如你开头的路径比方剖析细节且易于理解，佩服感谢
@peterxiau3 ай бұрын
敝人也是念這個的，我的理解跟你一模一樣，我的腦海裡面的畫面也是你影片一般，我跟朋友說明的時候也是這樣描述，不過你把影片很傳神的做了出來，覺得超級厲害的，我以後直接給我朋友看你的影片就好了 XD
@radio05293 ай бұрын
你真的太厲害了不僅有本科的專業知識，還有如何轉化知識的教育專業，以及掌握影片節奏的腳本編排、剪輯能力
@可爱的世界World
3 ай бұрын
！？好熟悉
@radio0529
3 ай бұрын
@@可爱的世界World 我也覺得好熟悉w
@nikoy4266
3 ай бұрын
因為他不只是本科，是清華博士。five minutes paper 也是一樣前緣的研究人員
@PhantomMan-kn8l
2 ай бұрын
抓到野生收音機
@hayron87673 ай бұрын
感謝漫士，默默的追蹤了半年，很期待這種底層技術內容的更新!!
@nickyma4409Ай бұрын
好久没看到这么有知识，趣味和科普的视频，一连看了几个，争取每个都看。谢谢科普。这才是新一代的精英，佩服！
@wangdydu3 ай бұрын
我覺得…感動。用心解說，用心譬喻，用心編排，謝謝你！
@jenniferphillips41853 ай бұрын
目前为止看过的对Sora工作原理最详细、最透彻的解释！
@user-wg9vz6do4r3 ай бұрын
講解的相當清楚，非常感謝
@fool9111z3 ай бұрын
非常棒的讲解，比我想象和理解的严谨细化很多👍
@user-nn3il4nw8r3 ай бұрын
你真的是專家阿，學到不少，希望這技術能用於有益於人類日常生活。
@user-vd6ld7ks8j2 ай бұрын
感覺超詳細的解說 ~雖然看不懂，但是有朝一日我也會有機會研究這領域的!
@modernpkman3 ай бұрын
非常棒的頻道
@aurohonosenitonyАй бұрын
講得很好，讓我學到了更深入的原理。
@willy77033 ай бұрын
我看過很多diffusion model的介紹您的介紹很好從熱力學高斯分布背後邏輯都講出來我之前也想很久為什麼一定要高斯分布不能用其他分布的理由學到了
@Neo-kx3fe
3 ай бұрын
有兴趣想讨论一下，真的没法diffuse到另外一个已知分布吗？
@dd7max1Ай бұрын
作为一个计算机科学本硕，目前从事人工智能开发的软件工程师来说，你说的东西我都明白，但是要像你这样的解释清楚真的不容易。👏
@arvinweng5435
Ай бұрын
沒錯，打個比方，兩位擁有同樣知識的人，一位只會動手做，另一位能完整敘述並讓人理解，這就是講師與技師的差異。
@dlfang3 ай бұрын
讲的这些我基本都了解，需要对实例操作并讲解。sd用过一段时间后，我发现提示词相同，生成的图片也就那几张，尤其是很多大模型都是用相同模型额外训练融合而成😏
@Sulzbach-dk7ov
2 ай бұрын
Cfg 調低一點😂
@easonchen60127 күн бұрын
講得很好謝謝分享
@hcrdfju49543 ай бұрын
7:23 score 的本義是"被賦予意義的痕跡"；"評價的紀錄/評分" 只是最常見的一種score。名字沒有問題，只是翻譯不好。
@bobchen11332 ай бұрын
講得很好講出defusion 的精髓！有一個問題想問，denoising 的過程是否可以看成將雜亂的Noise 還原成一個隨即抽樣的normal distribution 中的某個sample？又當初train的時候有把圖跟文一起embedding 所以denoising 能找到幾乎符合生成需求的這個sample
@K598204333 ай бұрын
學到了寫那篇論文的真的是天才
@david-fox3 ай бұрын
好厲害的解析　好清楚👍👍👍👍👍👍👍👍👍
@manshi_math
3 ай бұрын
感谢😀
@terryhe34262 ай бұрын
厲害啊
@user-uh4gm8ls8n3 ай бұрын
搭配動畫變真好懂
@牛浩鑫19 күн бұрын
赞！
@user-sb9ho5jz3e3 ай бұрын
按照這個理解AI永遠無法取代人的主觀判斷，只能基於過去數據進行推論
@PhantomMan-kn8l
2 ай бұрын
"工具"
@user-tr2sg4jc5p10 күн бұрын
真是太厲害了，
@bryc4203 ай бұрын
所以SORA怎麼克服影片每個frame之間的連貫性還有怎麼把文字跟圖片結合
@tiro_taiwan2 күн бұрын
知識飛過腦袋，不留下一絲痕跡
@user-rn8cl9rp4l7 күн бұрын
想請教以後(不確定的未來)是否可以用類似SORA的影片來生成AV影片？如果可以，那麼是否可以用特定人物的照片來生成AV影片？換句話說就是: 以後政治人物如果被盜用其照片來生成AV影片，要如何分辨真假？
@azure3533 ай бұрын
影片比單一一張圖片難算多了～～要很強的硬體～
@zhxzhx482617 күн бұрын
人类的智慧是无限的，尤其是有些人发明了充分利用计算机无限扩展的机能问题的能力。不像我，会写个函数就知足了
@wonmanintp2 ай бұрын
是熵，也是微分，積分
@VictorNKC3 ай бұрын
0:41 一鍵三連是那一鍵那三連在那裡按呢？
@Charles-rn3ke3 ай бұрын
14:56 激动到破音
@caijiali1113 ай бұрын
我有一个问题，既然一开始是随机扩散的，然后再通过向量场去倒推，但是倒退出来的怎么就会是原来的图片呢？这里面不应该是混沌的，无法追踪的一个单向的过程吗？
@lischentejuleour5657
3 ай бұрын
其实我们并不想只能生成原来的图片，目标是生成新的图片。所以在训练过程中是用原来图片做引导，期望用高斯噪声恢复每一张原图，每一步是在approximate p(x_{t-1} | x_t, x_0)。但是在真正使用过程（网上那些给提示词生成图片），是采样噪声生成新的（没出现过）的图的。
@gigachadgogeta3 ай бұрын
14:56
@youalbert19002 ай бұрын
00:24 清華 "姚班" 是啥 ?
@darkoy-vb2rp2 ай бұрын
由一組隨機粒子聚合成一張照片
@user-zy3sh8fi2z3 ай бұрын
有一點說錯了，擴散過程沒辦法證明物體由分子組成，能證明的是布朗運動。
@syashin76682 ай бұрын
請問預測前的擴散躁點圖片是怎麼出現的？隨機生成嗎？
@manshi_math
2 ай бұрын
对，直接加噪
@user-jf6xj8bn8r28 күн бұрын
能放在仿真娃娃上面嗎？這樣不需要女人了唷
@qiaoli877613 күн бұрын
我是非专业的，我看不懂，请教下，那个“最开始的结构”是已知的还是未知的？如果已知，那就应该不用花时间去找。那我觉得是未知的，所以要靠“评分函数”来推导。那“评分函数”怎么来的。我的逻辑链已经断了。可否用一个例子讲解一下其中涉及的关键步骤，每一步都发生了什么？比如从用户输入“关公大战铁血战士”到图片生成，都发生了写什么。先来个综述视频，然后再来点每个关键步骤的详细视频。。。谢谢！！！
@manshi_math
12 күн бұрын
未知的，评分函数是学出来的
@crank_35162 ай бұрын
不好意思，我還是不太懂，你說的去躁模型如何無中生有出一張圖片
@user-wi2ev1ze1yАй бұрын
虽然原理我也知道，但是我就是解释不通，别人都听不懂我在说什么，听了你的视频不得不佩服你讲的真的简单易懂
@_id_58293 ай бұрын
謝謝感覺頭很痛要長腦袋了
@mrkokobebe2 ай бұрын
我想了一個問題很久了，希望你能幫忙解答這個問題，由一張圖片擴散後必定是隨機粒子，再由這些隨機粒子聚合成另一張照片，為什麼不直接由一組隨機粒子聚合成一張照片呢？文字生成圖片的話，是不是就是直接由隨機粒子聚合成一張照片呢？謝謝你們解開我心中的疑惑🙏🏻
@PhantomMan-kn8l
2 ай бұрын
以下胡說八道:可能隨機生成還要再運算一次，不如直接拿現在的算程式上可能比較簡單，文字生成圖片我用下來心得，有點像是抓網路上圖片去改的感覺
@不要稱讚我
3 күн бұрын
以下是我個人在大學修課後的理解，如果有誤還請糾正原本由一張圖片擴散成隨機雜訊，假設原圖是[擴散0%]、最終雜訊是[擴散100%]，模型要學習把[擴散10%]還原成[擴散0%]、[擴散60%]還原成[擴散55%]、[擴散100%]還原成[擴散80%] 之類的變化，訓練模型作為影片中的 score function。訓練完成後，AI模型就是一個可以把雜訊逐漸轉回原圖的 score function，生成圖片時就只要隨便拿一張雜訊圖，讓模型把雜訊轉回原圖就好，跟訓練時的差別在於生成時給的雜訊圖不是由原圖擴散得到的，所以我們也不知道AI模型會把隨便給的雜訊圖還原成什麼，於是就能生成出新的圖片。 [雜訊圖] -> [生成圖片] 至於你說的"為什麼不直接由一組隨機粒子聚合成一張照片呢？"意思是訓練AI直接從[擴散100%]還原成[擴散0%]嗎？確實也有這種，我修課時學到叫VAE，應該算擴散模型的前生，效果沒有擴散模型好。至於文字生成圖片的話，需要再訓練把文字轉成嵌入式向量(電腦看得懂的數值)，然後把向量跟圖一起輸入到擴散模型裡面訓練，變成模型要學習把[擴散10%+向量]還原成[擴散0%]、[擴散60%+向量]還原成[擴散55%]...，當然訓練的原圖要符合文字所指的圖。訓練完成後，就能給文字+雜訊圖生成圖片了。 [文字] -> [向量] [雜訊圖+向量] -> [生成圖片]
@oo-re6wo2 ай бұрын
那可以还原宇宙最初的情况了
@jameschien6711
Ай бұрын
AI簡單說就是虛擬產物,人類收集一些數據輸入大型超級運算機器,經由工程師設計出來聚集矩陣,最後集結出聲音或畫面,目前看得到的大爆炸雲河互相吞噬,到無恐怕還做不到,因為基礎理論還在布朗運動--實質的粒子運動子運動
@werhs45202 ай бұрын
完全聽不懂······把一張有序的RGB圖片的像素打亂（高斯模糊），然後又重新還原（評分函數）·····有什麽意義呀？你幹嘛要打亂這些RGB呀？
@Jeremyho4392 ай бұрын
你翻墙？
@nylb64462 ай бұрын
进化了几千年的人类历史与科技，进化来进化去的既没能永生也没能阻止生老病死，战争也从来没有停止过，利益化更严重了……累不累呀？
@glimpselight4562
2 ай бұрын
永動機也沒出現😂😂😂 其實很簡單，有些東西對所有人有利，但對某部分人的利益沒有那麼大，偏偏資源權力傾斜向這少部分人，所以世界怎麼走，需求偏向什麼都是由誰更有話事權來決定的
@tomxutw11 күн бұрын
了不起, 深入簡出,真有幾把刷子!
@wonmanintp2 ай бұрын
他們只是在搬磚割韭菜吧了
@tspan96343 ай бұрын
不是，老婆呢？
@Alan_autumn
3 ай бұрын
你的老婆、我的老婆、大家的老婆都是不同的向量我們要讓ai從金礦裡找老婆(?
@hayama23632 ай бұрын
图片怎么来的都是原有的图，所以没啥创造力，AI还是在笼子里找玩具
@user-rn5ov9fb7uАй бұрын
太囉嗦
@taxitu8329Ай бұрын
播主說的真好 AI 不過才啟蒙，就被吹捧上天
@LongZhao-bz9te3 ай бұрын
Sora这个编辑器的操作是从色彩素材数据库里建模排列组合重新生成任意图片的意思吗？🤔
@jaxkk11193 ай бұрын
想知道您本人是否认为AI公司或个人擅自利用他人的版权物训练AI算是一种应该被定义为侵权且不道德的行为？
@oo-re6wo
2 ай бұрын
你从小就从版权物训练
@jaxkk1119
2 ай бұрын
@@oo-re6wo 又来混淆视听，把人类和AI混为一谈，淡化AI公司盗取版权物练AI的事实？
@imok666
Ай бұрын
R.U.N. 一地恩？@@oo-re6wo
@mqh6626Ай бұрын
ai是个程序，程序细说起来就是三种结构，选择，循环，以及顺序结构，也就是无脑的，那么这些无脑的东西如何组成ai呢，PS：纯属个人观点，勿喷
@itoobiasedКүн бұрын
还是听不懂的集合 hhhhhhh 算了无所谓。你们搞这行的也不求人理解，一般人不懂就不懂了，听不懂还讲，讲了还听不懂真的有点多余。
@straynyan3 ай бұрын
我自己身處繪圈，大家看到AI就像看到鬼一樣，瘋狂DISS AI產的作品深深覺得很可笑，很像一群未開化的民眾第一次看見科技一樣確實AI會取代人類，不然發明AI來幹嘛的呢? 如同當年工業革命一樣，一定有人會被犧牲，但世界就是如此，還是加緊學習新知識，學會適應這個新環境吧
@e04asdfghjkl
2 ай бұрын
更令人討厭的是趁大家想學時，欺騙賺錢的投機者，雖然再久一點這些人大部分會被市場淘汰，但是那時再學又似乎太晚了
@user-ir8jp4oz7o4 күн бұрын
老外怎么那么聪明
@apacchidesu3 ай бұрын
優質頻道
@shubob807410 күн бұрын
卵用，我不需要像博士那样打飞机。我们普通人都是找现实中的女人。而不是对着AI图打飞机。
@user-uj9bb5gb1z17 күн бұрын
人們都超討厭騙子，但是為什麼掛上了技術的面紗偏受追捧？
@ThatOne-uc9ec14 күн бұрын
废话真多，你是在科普，不是在说相声
@user-po7fx3mq5e16 күн бұрын
av有碼片能讓他變無碼那他的大支馬是人工自行腦補還是原始型狀的大支馬??????
@tiro_taiwan
2 күн бұрын
前者