Divide-and-Conquer Meets Consensus: Unleashing the Power of...
OpenReview
코드 생성의 혁명: FUNCODER, 복잡성을 정복하다!
이 논문에서는 복잡한 코드 생성 작업을 해결하기 위해 분할 정복 전략과 함수적 합의 메커니즘을 활용하는 새로운 코드 생성 프레임워크인 FUNCODER를 제안합니다. FUNCODER는 코드 생성 중에 하위 함수를 재귀적으로 분기하여 트리 계층 구조로 표현하고, 이러한 하위 함수를 합성하여 더 복잡한 목표를 달성합니다. 또한 프로그램 동작의 유사성을 식별하여 형성된 합의를 통해 함수를 지정하여 오류 전파를 완화합니다. 실험 결과, FUNCODER는 GPT-3.5 및 GPT-4를 사용하여 HumanEval, MBPP, xCodeEval 및 MATH에서 최첨단 방법보다 평균적으로 9.8% 더 나은 성능을 보였습니다. 또한, FUNCODER는 더 작은 모델에서도 우수한 성능을 보였습니다. FUNCODER를 사용한 StableCode3b는 HumanEval에서 GPT-3.5보다 18.6% 뛰어난 성능을 달성했으며 GPT-4 성능의 97.7%를 달성했습니다. 추가 분석 결과, 제안된 동적 함수 분해는 복잡한 요구 사항을 처리할 수 있으며 함수적 합의는 정확성 평가에서 자체 테스트보다 우수합니다.
https://openreview.net/forum?id=cFqAANINgW
LLM 설문 조사, 진실을 밝히다: 편향의 그림자
이 논문에서는 대규모 언어 모델(LLM)을 연구하기 위한 도구로써 설문 조사가 널리 사용되는 것에 대한 비판적인 분석을 제시합니다. 저자들은 미국 인구 조사국의 미국 지역사회 조사(ACS)를 기반으로 43개의 다양한 LLM을 평가하여, 모델의 응답이 순서 및 라벨링 편향(예: 'A'로 표시된 설문 조사 응답에 대한 편향)에 의해 지배된다는 것을 발견했습니다. 이러한 편향을 무작위 응답 순서를 통해 조정하면 모델은 모델 크기나 사전 훈련 데이터와 관계없이 균일하게 무작위적인 설문 조사 응답 경향을 보입니다. 결과적으로, 이전 연구에서 추측한 것과 달리, 설문 조사에서 파생된 정렬 측정값은 종종 간단한 설명을 허용합니다. 즉, 모델은 고려 중인 설문 조사에 대해 집계 통계가 균일 분포에 가장 가까운 하위 그룹을 일관되게 더 잘 나타냅니다. 이러한 결과는 LLM의 편향을 조사하기 위해 설문 조사를 사용하는 이전 연구에 중요한 맥락을 제공하며, LLM의 설문 조사 응답을 인간 집단의 충실한 표현으로 취급할 때 주의해야 한다는 점을 시사합니다.
https://openreview.net/forum?id=Oo7dlLgqQX
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정!
AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 11월 12일 오전 11:04