개발자
xlnet,transformer_xl과 같은 모델을 사용할 경우 data는 batch와 batch간에도 이어집니다. 이 때 2개 이상의 GPU를 사용하여 tf.distribute.MirroredStrategy 방식으로 병렬처리를 한다면 data의 연속성이 보장되지 않은 것이라 생각합니다. 이럴 경우 제가 생각하는 데이터의 연속성이 학습에 중요한 영향을 미칠까요? 만약 그렇다면 이 문제를 해결 할 수 있는 방법이 있을까요?

답변 0
첫 답변을 기다리고 있어요.
지금 가입하면 모든 질문의 답변을 볼 수 있어요!
현직자들의 명쾌한 답변을 얻을 수 있어요.
이미 회원이신가요?
지금 가입하면 모든 질문의 답변을 볼 수 있어요!