중국 축구가 보여준 안되는 조직의 특징 [EDITOR's LETTER]
magazine.hankyung.com
기계학습 분야에서 예측값의 신뢰도를 정확하게 측정하고 조정하는 것은 중요한 연구 주제이다. 이는 LLM 분야도 마찬가지로 앤쓰로픽이 2022년 'Language Models (Mostly) Know What They Know'(https://arxiv.org/abs/2207.05221) 논문에서 해당 연구를 진행한 바 있다. 이번 구글에서 나온 'Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs'(https://arxiv.org/abs/2310.11689) 논문 또한 이 주제를 다루고 있다.
이 논문은 LLM의 선택적 예측 능력을 향상시키기 위해 설계된 새로운 프레임워크인 ASPIRE를 소개한다. 이 프레임워크는 특히 LLM이 질문에 대한 답변을 제공하는 동시에 그 답변의 정확성을 평가하는 방식으로 훈련되는 것이 특징이다.
ASPIRE는 세 가지 주요 단계로 구성된다.
1. 태스크 특화 튜닝: 이 단계에서 ASPIRE는 소프트 프롬프트 튜닝과 같은 PEFT 기법을 사용하여 사전 훈련된 LLM을 특정 태스크에 맞게 튜닝한다.
2. 답변 샘플링: 태스크 특화 튜닝 후, LLM은 각 훈련 질문에 대해 다양한 답변을 생성한다. 이 과정에서 빔 탐색과 같은 디코딩 알고리즘을 사용하여 높은 가능도의 출력 시퀀스를 생성한다.
3. 자가 평가 학습: 높은 가능도를 가진 출력들을 샘플링한 후, ASPIRE는 추가적인 튜닝 가능한 파라미터를 도입하고 질문과 답변을 모두 포함하는 콘텍스트를 전달하여 해당 답변이 정답인지 오답인지를 판별하게끔 학습한다. 이 과정을 통해 LLM은 다양한 답변 후보들에 대한 신뢰도를 더 정확하게 학습하게 된다. 이렇게 학습된 모델은 여러 답변 후보의 가능도를 통해 자가 평가 점수를 계산하는 데 사용할 수 있다.
ASPIRE의 접근 방식에서 LLM은 답변의 가능도와 함께 그 답변이 올바를 확률(자가 평가 점수)을 결합하여 선택적 예측을 수행할 수 있다.
ASPIRE의 효과는 다양한 QA 데이터셋에 적용하여 입증되었다. 예를 들어, CoQA 벤치마크에서 ASPIRE는 AUACC 및 AUROC 점수를 기존의 앤쓰로픽 방식을 상당히 개선했다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 2월 5일 오전 11:41
1. 어제의 태양은 오늘의 태양과 다르다. 이름만 같을 뿐, 둘은 전혀 다른 존재다.
세계에서 가장 많이 팔리는 맥주가 뭔지 아십니까? 하이네켄? 버드와이저? 아닙니다. 설화맥주입니다. 처음 들어본다고요? 네. 중국에서만 팔리니까요. 중국에서 1등 하면 세계 1등 하기도 쉽다는 것을 잘 보여주는 사례입니다.
... 더 보기어떻게든 방법을 찾는 사람들
... 더 보기'
... 더 보기“직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던가, 이 일이 날 성장시킨다던가, 이 일이 좋다던가, 이게 다 여기에 해당합니다.“ 박웅현 TBWA 코리아 조직문화연구소 소장은 직원들을 조직에 남게하는 방법을 이렇게 제안했다.
... 더 보기