EP 22. Altman형 잘 가! OpenAI 도 이젠 끝인가? (초소형 오픈소스 모델이 GPT-4 를 이기는 이유)

LLAMA-3, QWEN 에 이어서 최근에 Google 에서 공개한 GEMMA-2 까지.
최근에 발표되는 소형의 오픈소스 모델들의 성능이 OpenAI 의 GPT-4 보다 더 좋은 벤치마크 성능을 보이는 경우가 심심찮게 보입니다. 9B 파라미터 크기를 가진 나름 초소형 모델이 1800B 크기의 GPT-4 보다 성능이 좋을 수 있다? 무려 크기 차이가 200배나 나는데 말이죠.
데이터셋의 크기/품질이 개선되었고, 더 많은 Compute 을 투입하면 투입할수록 작은 모델의 성능이 끊임없이 올라가고 있습니다. 작은 모델 역시 아직 훈련이 덜 되어 있다(under-trained)라는 말이 나올 정도로 소형모델의 성능이 증가하는 이유는 무엇일까요? 이 현상을 GROKKING 이라고 표현하는데요, 오늘은 이 내용을 살펴봤습니다.
9B 짜리 모델이면 오늘 당장 16GB 메모리를 가진 맥북프로에서도 쾌적하게 돌릴 수 있는 정도의 크기입니다. 이런 추세가 지속되다 보면 어쩌면 맥북프로에서 AGI 가 돌수도 있는 날이 올수도 있습니다. 우리가 생각하는 것보다 intelligence 의 본질은 간단하고, 인간은 하찮은 존재일 수도 있을 것 같습니다 ㅠ.ㅠ
본 동영상에서 주로 살펴본 논문은 arxiv.org/abs/2405.15071 입니다.
--
(2024-07-08 update)
Chinchilla Optimum 에 대해서 잘못된 내용이 있어서 바로 잡고 본문 내용을 수정했습니다.
/ pfbid029tkpkppyogbjqg3...

Пікірлер: 11

  • @jocoding
    @jocoding23 күн бұрын

    유익한 영상 너무 잘봤습니다!! 감사합니다🙏

  • @kev2582
    @kev258223 күн бұрын

    알고리즘으로 떠서 봤는데 좋은 내용이네요. 특히 스타트업이 찾아야하는 틈새의 관점이 최신 연구트렌드와 연계해서 이 만큼 정제된건 첨 보는거 같네요. 각자의 적당한 기회의 영역을 떠나서 경제성은 까다로운 문제인거 같습니다.

  • @user-pr6qt3uj8z
    @user-pr6qt3uj8z20 күн бұрын

    내용 너무 좋습니다! 감사합니다.

  • @King-dumpling
    @King-dumpling22 күн бұрын

    GROKKING 현상은 정말 흥미롭네요...

  • @user-zf7zu9tt6d
    @user-zf7zu9tt6d23 күн бұрын

    생성 AI 관련 유용한 정보 감사드려요. 😀

  • @nicewook
    @nicewook22 күн бұрын

    감사히 보았습니다. 딥러닝 뿐만 아니라 사람살이의 통찰도 느꼈습니다.

  • @jaephildo6169
    @jaephildo616923 күн бұрын

    Training을 위한 양질의 데이터 (좋은 교재)를 준비했는지 어떻게 판단할 수 있을까요? 모델에게 어떤 교제가 좋았는지 피드백 받을 수 있는 방법 같은 것이 있는건가요?

  • @hjkim9681
    @hjkim968120 күн бұрын

    39:20

  • @user-al1oc4845l
    @user-al1oc4845l18 күн бұрын

    나 알트만인데 개추눌렀다

  • @JasonJoeish
    @JasonJoeish22 күн бұрын

    5:22 모델 사이즈가 작은 경우에 오버피팅이 된다구요..?

  • @chester_roh

    @chester_roh

    19 күн бұрын

    오버피팅은 모델사이즈와 전혀 상관없는 내용입니다. 제가 말을 잇는 과정중에 명확하게 표현하지 못한 것 같습니다. 죄송합니다 ㅠ.ㅠ

Келесі