Hyeongmin Lee

2 жыл бұрын

PR-353: Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes

Пікірлер

@user-bk8kc8cs6s4 ай бұрын

안녕하세요! 강의 너무 잘 보고 있구요 :) CV 보니까 템플릿이 너무 깔끔해서 혹시 양식 어디서 받으셨는지 알 수 있을까요??

@lucas-lee4 ай бұрын

Clean CV latex templete의 소스코드를 살짝 커스터마이징 해서 사용하고 있습니다!

@dongkeunoh19096 ай бұрын

30분 대에서 나오는 VQVAE와 VQGAN의 결과 비교는 VQGAN 논문에는 안나오는데 어디서 발췌하신걸까요?

@lucas-lee4 ай бұрын

현재는 논문 버전이 업데이트되어서 아카이브의 이전버전중 v2로 이동하셔서 supple material 보시면 있습니다!

@chojin-ko3co7 ай бұрын

감사합니다~ 공부에 큰 도움되고있습니다.

@lucas-lee6 ай бұрын

도움이 되셨다니 다행입니다!!

@user-ik3ur9vg4s7 ай бұрын

좋은 내용 감사합니다~

@waniubaid77187 ай бұрын

Can u plx give English subtitles

@lucas-lee7 ай бұрын

Sorry, I currently don't have plans for subtitles.

@waniubaid77187 ай бұрын

@@lucas-lee only sir u have given the good explanation

@user-mn5rv9cg2e10 ай бұрын

다른 generation model들과 비교해주면서 개괄적인 설명부터 이 논문이 행한 contribution까지 잘 설명해주셔서 희미했던 것들이 조금 명확해진 것 같아요. 도움 많이 받았습니다 좋은 설명 감사드립니다.

@user-mn5rv9cg2e10 ай бұрын

++ ppt에서 diffusion loss 설명하신건 log likelihood에다가 -를 곱해서 minimize 해줘야 하는 term인 것 맞나요??

@lucas-lee9 ай бұрын

@@user-mn5rv9cg2e 안녕하세요! 네 맞습니다. likelihood의 경우 maximize해야 하는 값이므로 다른 term들과는 달리 앞에 -가 붙어 있습니다 :)

@LiveLifeWithLove11 ай бұрын

Please add English subtitles or make videos in English ?

@lucas-lee7 ай бұрын

Sorry, I currently don't have plans for subtitles.

@LiveLifeWithLove7 ай бұрын

@@lucas-lee no worry, not required. I read the research papers. but your heading is in English so thought you might want to add subtitles. good luck

@erikals3 ай бұрын

KZread added English subtitles now ☺️greetings from Scandinavia

@94ostone Жыл бұрын

잘봤습니다

@user-in3bb3uo8k Жыл бұрын

정말 도움 많이됐습니다!! 한가지 질문이 있는데.. input이 2D image인데 어떻게 x,y,z를 input으로 넣나요?? depth를 추정하는건지 아니면 카메라 내부행렬 이용해서 x,y,z를 구하는건가요??

@lucas-lee Жыл бұрын

Input은 2D image이지만, 27:46 쯤에서 제가 오른편에 그려 놓은 그림처럼 초점으로부터 우리가 대상으로 하는 픽셀을 모두 지나는 직선은 하나로 정의됩니다. 그 직선 위에 있는 모든 3차원 point들의 x,y,z 좌표를 활용하는 것으로 이해하시면 됩니다 :)

@hogoonlee8391 Жыл бұрын

클립이랑 함께 설명해주시니까 이해가 더 쉬운거 같아요! 정말 감사합니다!

@swmoon00 Жыл бұрын

구독 박고 갑니다

@user-nc3mi5wb4h Жыл бұрын

CLIP 설명 너무 좋았고, 이어서 본 내용인 CLIP4Clip까지 쉽게 이해할 수 있었습니다! 체고체고

@user-xg9bo7qs1z Жыл бұрын

영상 잘 봤습니다! NeRF가 나온 이유 중 하나가 high frequency나 high resolution을 잘 표현할 수 있는 모델이 필요해서라고 하는데 여기서 의미하는 high frequency가 정확히 어떤 것인지를 명확하게 알고 싶습니다.

@user-xg9bo7qs1z Жыл бұрын

그리고 기존 MLP에서는 high frequency 데이터를 훈련시키는 것이 어려웠지만 NeRF에서는 positional encoding을 적용함으로써 고차원 공간으로 매핑하여 고주파 성분을 더 잘 표현하게 되었다고 알고 있는데 이렇게 성능이 좋아진 이유가 positional encoding이 위치 정보를 encoding 하기 때문에 연속적으로 들어오는 데이터들에 대해서 위치 정보를 효과적으로 주기 때문인건가요?

@lucas-lee Жыл бұрын

정성적으로 설명해보자면, High frequency의 의미는 이미지 등에서 볼 수 있는 edge등의 이미지의 선명함과 관련이 있는 성분들을 말합니다. 즉 High Frequency가 잘 복원되었다는 뜻은 이미지가 명확하고 선명하다고 이해하면 될 것이고, 그렇지 않다는 뜻은 edge가 분명하지 않고 blur한 경향이 있다고 보시면 됩니다.

@lucas-lee Жыл бұрын

위치정보는 x,y,z일때도 주어지긴 하니까, 주어지지 않던 위치 정보를 주는 것은 아니지만 x,y,z를 그냥 실수 값으로 주는 것보다 한번 저렇게 더 큰 공간으로 mapping한 후 고차원의 벡터로 표현된 위치정보를 주는 것이 더 효과적이었다 라는 뜻으로 보시면 될 것 같습니다. 왜 굳이 이러한 embedding을 썼는지는 관련 논문들을 더 읽어봐야 할 것 같네요.. embedding 방식을 바꾼 아이디어의 nerf paper들도 꽤 있답니다!

@user-lo7qh1ko3z Жыл бұрын

생뚱맞은 내용이 많아서 읽기가 힘들었는데 정말 감사합니다!

@jihunbae4795 Жыл бұрын

설명이 너무 깔끔해서 어려운 내용도 직관적으로 이해하기 쉬웠습니다 제가 그 메타러닝에 대한 개념이 없어서 그런데, 메타러닝이라는 것이 한 종류의 이미지를 학습하더라도 다른 종류의 이미지도 같이 판단할 수 있는 학습 방식을 뜻하는 게 맞나요 ? 그렇다면 설명해주신 Z도 다른 클래스의 이미지가 되는 것으로 이해하면 되는 것인지요 ?? 좋은 설명과 자료 감사합니다.

@lucas-lee Жыл бұрын

메타러닝은 Learning to Learn 이라고 생각하시면 이해가 쉽습니다! 각 개별 데이터들에 학습시키기 위해 그 학습이 더 쉬워질 수 있도록 미리 사전작업에 해당하는 학습을 하는 개념으로 이해하시면 될 것 같아요!

@euntisdfjin1958 Жыл бұрын

오! 다른 설명영상보다 더 우수하군요!! 고맙습니다😮

@jihunbae4795 Жыл бұрын

NeRF 관련 연구에 관심이 생겨 공부하던 중 업로드해주신 영상을 통해 정말 많이 이해해 갑니다. 정말 감사합니다. 한가지 단순한 질문이 생겼는데, 38:22 에서 총 6차원의 입력을 주었다고 하셨느데, 논문에서는 5차원 입력으로 사용한 것으로 알고있어서.. 찾아보니 보는 시점 d를 (x, y, z)의 3차원으로도 말씀하시는 곳도 있고, (theta, phi)로 말씀하시는 곳도 있어서 그런데 이 두개가 같은 것으로 생각하면 되는걸까요 ?? 아니면 무슨 차이가 있는 것인가요..?

@user-lo7qh1ko3z Жыл бұрын

원 논문에서 이론은 (theta, phi)로 나타내고 실제 구현은 3차원 unit vector로 나타낸다고 쓰여 있네요. unit vector면 결국 2차원 값이라 동일하게 생각하셔도 될 것 같아요

@jihunbae4795 Жыл бұрын

@@user-lo7qh1ko3z 아하 답변해주셔서 감사합니다 !

@user-lo7qh1ko3z Жыл бұрын

블로그 글도 너무 도움 많이 받았는데 감사합니다.

@koj2728 Жыл бұрын

16:00

@bbbb-eh5dd Жыл бұрын

혹시 38:24 분에서 왜 6차원 input 인지 설명 가능하신가요 ㅠㅠ x,y,z, 3차원이여야 될 것 같은데 .. 추가적인 (x,y,z) 가 어디서 나오는지 모르겠습니다!

@bbbb-eh5dd Жыл бұрын

input이 x 와 d ( viewing direction ) 인 것 같아서요!

@lucas-lee Жыл бұрын

NeRF의 Input은 r,g,b를 뽑고자 하는 위치의 좌표도 중요하지만, 그 위치를 어느 방향에서 바라보았는지의 정보도 함께 필요합니다! 그래서 그 방향벡터의 3차원이 더 들어간다고 보시면 될 것 같아요 :)

@user-nk9lr2wg3o Жыл бұрын

안녕하세요 선생님 혹시 이 논문에서 LSTM 모델을 Conv LSTM을 사용했다고 이해하면 될까요?

@lucas-lee Жыл бұрын

네 기본적으로는 convLSTM이 맞고, 더 자세한 내용은 논문 3.3.2 섹션을 보시면 될 것 같습니다 :)

@sujunglee2268 Жыл бұрын

어려운 수식을 쉽게 풀어주셔서 잘 이해가 되었습니다!! 설명 감사합니다~~~~!!!

@director_gh Жыл бұрын

양질의 자료를 올려주셔서 감사합니다. 관심 있던 기술인데 이해하는데 도움이 많이 됐습니다~

@lucas-lee Жыл бұрын

도움이 되었다니 다행입니다 :)

@fluffy_shark_studio Жыл бұрын

진짜 대박입니다... 전부 들으며 필기하고 이해했습니다. 이런 소중한 자료를 만들어주셔서 감사합니다 ㅠㅠㅠ

@lucas-lee Жыл бұрын

도움이 되셨다니 다행입니다. 감사합니다 :)

@user-ev6gf8jb6g Жыл бұрын

정말 재밌게 봤습니다. 어려운 수식을 이렇게 풀어서 설명해 주셔서 감사합니다!

@LSY-hb4fn Жыл бұрын

비전 전공이셔서 그러신지 몰라도 설명이 정말 명확하고 well defined 되어 있어서 정말 도움 많이 됩니다 ㅎㅎ 현재 딥러닝 석사 박사 과정까지 준비하고 있는데 정말 많이 배웁니다 감사합니다 ㅎㅎ

@bumsupark3074 Жыл бұрын

20:42 에 나오는 q와 y hat은 같은 것이 아닙니다. q는 y의 분포(ex. 앞서등장한 alphabet A, B, C, D의 frequency table)를 추정하는 "모델"이고, y hat은 vector y를 quantize한 결과물로 "vector" 입니다.

@lucas-lee Жыл бұрын

지적 감사합니다! 영상에 오류가 있었네요. 지적해주신 부분이 정확히 맞습니다. 감사합니다 :)

@user-qb6st4mj3m Жыл бұрын

optical flow관련 논문들을 정리해주셔서 감사합니다.. flownet, flownet2.0, pwc-net 등등.. 계속 보고있는데 RAFT라는 높은 발전을 이륙한 논문이 또 있다니,, 이 다음은 없겠죠?.....ㅠㅠ

@user-qb6st4mj3m Жыл бұрын

머싰써!

@sesburg Жыл бұрын

쉽게 정리해주신것 같은데 이제 막 generative model에 대해 공부하는 입장에서는 아직 어렵네요. 수식같은것도 눈에 잘 안 들어오고요. 공부할게 많은것 같아 조금 막막해집니다 ㅎㅎ..

@lucas-lee Жыл бұрын

generative model에 관한 설명은 이전 PR12 영상에 소개된 VAE나 GAN 영상을 찾아보시는 걸 추천드립니다. ELBO Loss에 관한 부분만 이해하시면 수학적으로 어려운 부분은 없을 것 같네요

@josephkim7316 Жыл бұрын

깔끔한 정리 감사합니다!

@lucas-lee Жыл бұрын

감사합니다 :)

@user-bd3fp8rc1x Жыл бұрын

좋은자료 감사합니다 :)

@lucas-lee Жыл бұрын

네 좋게 봐주셔서 감사드립니다 :)

@jungminyeo5727 Жыл бұрын

NeRF에 관한 발명을 다루게 되어 관련 지식을 찾다가 업로드하신 동영상을 보게 되었습니다. 도움이 많이 되었습니다. 감사합니다.

@lucas-lee Жыл бұрын

도움이 되셨다니 다행입니다. 감사합니다 :)

@danishnazir2239 Жыл бұрын

I am very much interested in this work, doi you have any english version of this video?

@lucas-lee Жыл бұрын

I don't have any plan for English subscription yet. Sorry.

@danishnazir2239 Жыл бұрын

Hi, is there any english version of your videos? they are very interesting !!

@lucas-lee Жыл бұрын

I don't have any plan for English subscription yet. Sorry.

@junkim61572 жыл бұрын

좋은 강의 감사합니다. 몰랐던 부분들이 이해되었습니다!

@leftf2 жыл бұрын

좋은 강의 감사합니다~~ 혹시 줌 하시는건 랩 미팅인가요?

@lucas-lee2 жыл бұрын

랩미팅은 아니고, PR12라고 하는, Tensorflow KR 페이스북 그룹을 기반으로 하고 있는 논문읽기 모임입니다 :)

@user-ik3ur9vg4s2 жыл бұрын

늘 잘 챙겨보고있습니다~ 감사합니다 ^^

@user-gn2kd8zg2v2 жыл бұрын

영상 잘봤습니다. video frame interpolation를 구현하려는 코드를 찾고있었는데요. 저는 Farneback optical flow를 이용해서 영상에서 말씀하신대로 forward warping처럼 픽셀이동으로 interframe을 구하는 방법을 사용해보았습니다. PSNR이 좋지 않게나와서 이유가 궁금했는데 픽셀충돌때문이었구나 하고 배워갑니다. Nvidia에서 Optical flow SDK라고 optical flow를 이용한 frame interpolation을 자체적인 SDK로 지원하는 킷이 있던데, 혹시 사용해본적 있으신가요? 해당 분야가 주 연구분야라고 하셔서 사용해보셨다면, 간단한 예제정도 알고싶은데. 가능할까요?

@lucas-lee2 жыл бұрын

안녕하세요! 아쉽게도 해당 sdk를 활용해본 경험은 없네요.. 죄송합니다ㅜㅜ 좋은 킷인 것 같아 한번 알아보도록 하겠습니다!

@kimchi_taco2 жыл бұрын

좋은설명 감사합니다. NeRF와 비교하면 품질은 어떤가요? 속도를 택한대신 품질은 조금 손해보지 않을까 싶은데요.

@lucas-lee2 жыл бұрын

네 말씀해주신 대로 속도를 택하는 대신 품질이 떨어져, 속도와 품질 모두를 잡는 방법에 대한 연구에도 요즘 많은 초점이 맞춰지는 것 같습니다.

@LIFE_IS_P0TAT02 жыл бұрын

T(t)가 뭔지 모르겠어서 헷갈렸는데 설명 너무 잘해주셔서 도움이 많이 됐어요 감사합니다

@lucas-lee2 жыл бұрын

도움이 되셨다니 다행이에요 감사합니다 :)

@user-qf8ot9jw3l2 жыл бұрын

안녕하세요 최근에 image domain에서 video domain으로 공부 방향을 바꾸려고 하는데 영상 처리 관련해서 지식이 전무합니다..ㅜ 혹시 neural rendering, implicit function representation등을 공부하기 전에 공부해야하는 분야가 있을까요? 강의든 책이든 논문이든 추천해주시면 감사하겠습니다!

@lucas-lee2 жыл бұрын

저는 neural rendering, implicit function representation 쪽으로는 "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" 논문으로 입문하였고, NeRF의 비디오 확장버전 논문도 도움이 되실 것 같아 공유드립니다: "Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes" 둘 다 재 채널에 영상이 있으니 참고해주세요!! NeRF: kzread.info/dash/bejne/rJ-ZypmNpJzaibQ.html NSFF: kzread.info/dash/bejne/mYCtlryFe9qqYZM.html

@vingolae2 жыл бұрын

역시 비전 전공자라서 그런지 설명을 잘하시네요. 이 논문을 이해하려면 사실 deep learning 관련 지식보다는 camera model, ray tracing, volume rendering 관련 배경지식이 필요한데 논문도 그에 대해 레퍼런스 논문을 제외하곤 딱히 디테일적인 언급이 없고 다른 설명하는 글이나 유튜브 영상들만 봐도 수박 겉핡기 식으로 이해한 사람들이 대다수인데 도움이 많이 됐습니다. 사족으로 tn, tf 값에 대한 설명, 카메라 좌표가 없는 일반 이미지에서 카메라 관련 parameter를 어떻게 estimation 하는지 등 설명이 있으면 더 좋을것 같네요.

@lucas-lee2 жыл бұрын

정성어린 피드백 감사드립니다 :)

@user-de6uv2fq5q2 жыл бұрын

좋은 영상 감사합니다.

@lucas-lee2 жыл бұрын

영상 봐주셔서 감사합니다 :)

@user-dn7vd7ys8v2 жыл бұрын

Can i run Raft on Windows?

@soonbinlee40492 жыл бұрын

맨 처음 NeRF가 나올땐 그저 신기한 정도였는데, 각종 응용연구들이 빠르게 퍼져나가면서 벌써 엄연히 Novel View Synthesis의 대표 방법론이 되어가고 있네요. 학위과정동안 주로 라이트 필드나 Image-based Rendering에 관련된 주제를 했었는데 한편으론 무섭기도 하면서 정말 놀랍습니다.

@kimchi_taco2 жыл бұрын

감동을 하며 봤습니다. 몇년동안 인텔에서 크롬북 비디오 인코딩 디코딩 가속하는 일을 했었는데, API쓰는 입장이라 가속기 안에서 뭔일이 벌어지는지는 몰랐는데, 드디어 알게 됬네요. 감사합니다. 올해 PR-12 베스트 발표 목걸이 드리겠습니다.

@lucas-lee2 жыл бұрын

과분한 댓글 감사드립니다 :) 앞으로 더 많은 도움 되어드릴 수 있도록 신경쓰겠습니다 😃

@user-sg2ij8de3m2 жыл бұрын

Impressive video!

@lucas-lee2 жыл бұрын

40:58 여기서 MVC는 Motion Vector Compression의 약자로, 이 magenta line이 의미하는 바는 Motion Vector를 따로 압축을 위한 다른 도메인으로 보내지 않고 바로 Quantize한 경우에 대한 실험입니다.

@user-wk4sm3te2l3 жыл бұрын

감사합니다! 'rendering 을 한다' 가 어떤 일련의 과정들을 말하는 것인지 잘 모르겠는데 이에 대해 설명하신 또 다른 자료가 있을까요?

@lucas-lee2 жыл бұрын

3D 공간 정보를 파악하는 과정을 의미하는 용어로 영상에서는 사용하였습니다. 본 영상에서는 NeRF를 학습시키는 과정으로 보시면 됩니다!

@user-wk4sm3te2l2 жыл бұрын

@@lucas-lee 답변 감사합니다!

Hyeongmin Lee

PR-455: CoTracker: It is Better to Track Together

PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

PR-420: Scalable Model Compression by Entropy Penalized Reparameterization

PR-409: Denoising Diffusion Probabilistic Models

PR-395: Variational Image Compression with a Scale Hyperprior

PR-386: Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering

PR-376: Softmax Splatting for Video Frame Interpolation

PR-365: Fast object detection in compressed video

PR-353: Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes

PR-340: DVC: An End-to-end Deep Video Compression Framework

PR-328: End-to-End Optimized Image Compression

PR-315: Taming Transformers for High-Resolution Image Synthesis

PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

[SNUAI Study] Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes

PR-292: Network Deconvolution

PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

PR-266: Learning by Analogy: Reliable Supervision From Transformations for Unsupervised O.F.E

PR-252: Making Convolutional Networks Shift-Invariant Again

PR-240: Modulating Image Restoration with Continual Levels via Adaptive Feature Modification Layers

[Supplementary Video] AdaCoF: Adaptive Collaboration of Flows for Video Frame Interpolation

PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera pose

PR-214: FlowNet: Learning Optical Flow with Convolutional Networks

[YEHS 정기세미나] 상상하는 인공지능, GAN

Пікірлер