DPO: Reward Model없이 사람선호를 학습할 수 있을까?| NeurIPS 2023 | 이승현

NLP+AI 분야 커리어 컨설팅/논문 함께 읽기 멘토링
- inf.run/BFSu
발표자: 이승현
발표자료: drive.google.com/file/d/1iXjq...

Пікірлер

    Келесі