클로바 HYPERCLOVA는 왜 AdamW를 사용했나요??

조회 63

분명 AdamP라는 클로바에서 제작한 옵티마이저가 있는데도 불구하고 기억으로는 해당 논문에 NLP쪽 관련된 성능 테스트도 있었는데 이유가 뭔가요?

구체적이고 정성스러운 질문에 Up 투표를 눌러주세요.

설명이 부족한 질문에 Down 투표를 눌러주세요. 커리어리가 질문자에게 수정을 요청할게요.

답변 1

없음없음님의 프로필 사진

대부분의 트랜스포머 관련 실험들이 adamw를 디팩토로 사용합니다. 논문의 메인컨트리뷰션을 설명하려고 할 때 나머지는 디팩토로 하는게 큰 성능차이가 없다면 내용 전개에 편하기 때문이라고 생각하네요

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직 개발자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직 개발자들의 명쾌한 답변을 얻을 수 있어요.