guided diffusion에서 StableDiffusion, 그리고 Plug&Play와 DiffStyle까지

DiffStyle은 아직 arxiving하지 않은 논문입니다 :) 곧 올릴 예정입니당
(참고 : 한국어 한줄 정리 diffusion 논문 리스트를 만들고 있습니다. github.com/kwonminki/One-sent... )

Пікірлер: 17

  • @user-yv3cb2hs1u
    @user-yv3cb2hs1u8 ай бұрын

    재밌게 잘 봤습니다~~

  • @tonghyunlee9184
    @tonghyunlee9184 Жыл бұрын

    좋은영상 감사드립니다

  • @diffusion_model

    @diffusion_model

    Жыл бұрын

    넹 동현님

  • @user-lf4tu9fq8j
    @user-lf4tu9fq8j8 ай бұрын

    사랑합니다

  • @gmlssns5859
    @gmlssns5859 Жыл бұрын

    잘보고갑니다

  • @maengjun3244
    @maengjun3244 Жыл бұрын

    감사합니당

  • @diffusion_model

    @diffusion_model

    Жыл бұрын

    댓글 감사합니당

  • @user-zt7qh4js3z
    @user-zt7qh4js3z10 ай бұрын

    CFG가 Stable Diffusion에서 쓰인다고 하셨는데 T인코더 중 Clip의 TextEncoder는 Classifier로 쓰여 Classfier Guidance가 되야하는 것이 아닌가요? 왜 Classifier Free Guidance 인가요? 분류기가 없고 학습할 필요가 없어야 Classifier Free Guidance라고 생각하고 있는데 이 부분에서 막혀서 질문드립니다!

  • @user-kx5sz5zy8z
    @user-kx5sz5zy8z Жыл бұрын

    유익한 영상 감사합니다. 저도 diffusion 모델로 이것 저것 해보고 싶은데요, 모델은 직접 학습한 것을 사용하시나요 아니면 웹상에 있는 pretrained 모델을 쓰시나요?

  • @diffusion_model

    @diffusion_model

    Жыл бұрын

    대부분 pretrained 를 가져다 사용하였습니다.

  • @user-fu3jx7mj2o
    @user-fu3jx7mj2o Жыл бұрын

    좋은 영상 감사합니다. 아직 초보라 잘 모르는데 15:01 에 self attention은 보통 nn.Linear로 qkv를 정의하지않나요? Conv2d로도 정의가 되나요?

  • @byungsookim5635

    @byungsookim5635

    11 ай бұрын

    1. conv2d도 linear와 다르게 weight가 다른 이미지 영역에 반복적으로 적용될 뿐이지, weight와 변수들간 관계는 linear하기 때문에 꼭 nn.linear를 쓸 필요는 없습니다. 2. transformer 설계에서 수학적으로 key, query는 서로 dot product만 가능하면 (i.e. same dimension) tensor 선택에 제약은 없습니다. 3. 그럼 왜 nn.Linear를 안 쓰고 conv2d를 쓰는가? - 아무래도 이미지라서 translation invariance를 위해서 conv2d가 유리할 듯 합니다.

  • @kanghoun
    @kanghoun Жыл бұрын

    @48:42 제 site 에서도 뭔가 쓸 수 있을 것 같은 느낌이... pareto optimal radiotherapy 부분과 겹치면 뭔가 뭔가 할것 같네요

  • @heejuneAhn
    @heejuneAhn9 ай бұрын

    디퓨젼 모델에 대한 개념이 잘 안들어오고 용어 때문에 혼통이 와서 질문을 하는데, 혹시 보시면 답글 부탁합니다. 우선 reverse 과정에서 nenoising 한다는 표현을 쓰는데, noise로 명명된 값을 빼어서 다음 단계로 넘어가니 그렇게 표현하는게 맞다고는 생각하나. 개념적으론 noise 라고 하기 보다는 이전 t 단계의 통계 분포에서 부터 좀 더 이미지 분포에 가까운 t-1 통계분포로 이동해 간다고 보는게 직관적인 설명 아닐까 싶은데요. 제가 이해한 게 맞는지 알고 싶네요.

  • @minhyukchoi8428

    @minhyukchoi8428

    9 ай бұрын

    네 선생님 저도 그렇게 이해합니다.

  • @hojinius
    @hojinius4 ай бұрын

    UNet에서 self attention 시 position embedding이 안되어 있던데, 왜 그런지 혹시 알 수 있을까요?

  • @qvis34
    @qvis348 ай бұрын

    12:35