개발자

클로바 HYPERCLOVA는 왜 AdamW를 사용했나요??

2023년 03월 16일조회 97

분명 AdamP라는 클로바에서 제작한 옵티마이저가 있는데도 불구하고 기억으로는 해당 논문에 NLP쪽 관련된 성능 테스트도 있었는데 이유가 뭔가요?

이 질문이 도움이 되었나요?
'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.

답변 1

없음없음님의 프로필 사진

대부분의 트랜스포머 관련 실험들이 adamw를 디팩토로 사용합니다. 논문의 메인컨트리뷰션을 설명하려고 할 때 나머지는 디팩토로 하는게 큰 성능차이가 없다면 내용 전개에 편하기 때문이라고 생각하네요

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

목록으로
키워드로 질문 모아보기

실무, 커리어 고민이 있다면

새로운 질문 올리기

지금 가입하면 모든 질문의 답변을 볼 수 있어요!