<2023년 수능 국어 1등급 프롬프트 엔지니어링>
커리어리 친구들, 한국어 문서 기반 질의 응답(Document based Question Answering) 프로젝트 그룹 NomaDamas 에서 이번에 23 수능 국어 1등급에 프롬프트 엔지니어링으로 도전하는 프로젝트를 오픈소스로 공개하게 되어 공유합니다. 🧘♀️ 기존 3등급(86점, 상위 22%)이던 GPT-4의 수능 국어 성적을, CoT 기반 프롬프트 엔지니어링으로 2등급(94점, 상위 5%)로 향상시켰습니다. 🧘♀️ 문제 유형에 특화된 프롬프트를 사용하면 1등급(96점, 상위 4%)까지 달성할 수 있습니다. 🧘♀️ 프롬프트 전문과 소스코드, 사용한 수능 국어 데이터셋을 깃허브(https://github.com/NomaDamas/KICE_slayer_AI_Korean)에 오픈소스로 공개했습니다. 저희는 프롬프트 엔지니어링이 얼마나 LLM의 성능을 향상시킬 수 있는지 궁금증이 있었는데요. 그 궁금증을 해결해보고자 수능 국어 1등급에 도전해 보았습니다. 본래는 GPT-4가 고작 3등급이었습니다. 이번 프로젝트를 통해 한 프롬프트로 2등급(94점)을 달성했습니다. 이에 더해, 문제 유형에 특화된 프롬프트를 이용하면 1등급(96점)까지 달성했습니다. 🧘♀️ 사용한 프롬프트 어떤 프롬프트를 사용했는지 궁금하시죠? 저희는 주로 CoT(Chain-of-Thought) 기법을 기반으로 프롬프트를 작성했습니다. 프롬프트의 핵심은 지문 속에서 정답과 관련이 있는 지문 속 문장을 찾도록 한 것입니다. 기본적으로 수능 국어는 지문 내용에서 언어적 추론을 통해 정답을 찾는 것이기 때문에, LLM이 지문 속 문장을 찾도록 하는 것이 가장 중요했습니다. 처음에는 자세하게 접근 방식과 논리 전개 과정 등을 설명해 주었으나, 지문 속 근거가 된 문장을 찾게만 하고 생각은 LLM 스스로 하게 하는 것이 가장 성적이 좋았습니다. 프롬프트 전문은 아래와 같습니다. 더욱 자세한 설명은 깃허브(https://github.com/NomaDamas/KICE_slayer_AI_Korean)를 참고해주세요. ({} 중괄호 속에 있는 내용은 문제마다 달라집니다. 각각 문제의 지문, 문제의 질문, 문제의 선택지 내용 및 보기 내용을 중괄호 속에 넣어준 후, 프롬프트 전체가 GPT-4의 input으로 입력됩니다) 국어 시험 문제를 푸는 대한민국의 고3 수험생으로서 다음 문제의 답을 구하세요. 문제를 풀이할 때, 반드시 지문을 참고하세요. 문제는 무조건 1개의 정답만 있습니다. 문제를 풀이할 때 모든 선택지들을 검토하세요. 모든 선택지마다 근거를 지문에서 찾아 설명하세요. 다음의 형식을 따라 답변하세요. 최종 정답: (최종 정답) 1번: (선택지 1번에 대한 답변) + "(지문 속 근거가 된 문장)" 2번: (선택지 2번에 대한 답변) + "(지문 속 근거가 된 문장)" 3번: (선택지 3번에 대한 답변) + "(지문 속 근거가 된 문장)" 4번: (선택지 4번에 대한 답변) + "(지문 속 근거가 된 문장)" 5번: (선택지 5번에 대한 답변) + "(지문 속 근거가 된 문장)" 지문: {지문 내용} 질문 : {질문 내용} 선택지 : 1번 - {1번 내용} 2번 - {2번 내용} 3번 - {3번 내용} 4번 - {4번 내용} 5번 - {5번 내용} 🧘♀️ 인사이트 위 프롬프트는 수많은 실험 끝에 탄생했습니다. 정말 여러가지 접근 방식으로 시도해 보았는데요. 프롬프트 엔지니어링을 시도해 보면서 얻을 수 있었던 나름의 인사이트를 소개해봅니다. 🛸 GPT-4의 zero-shot, few-shot 성능은 한국어도 뛰어나다. 🛸 GPT-4 비싸다. 🛸 수능 국어 시험(45문제)을 1회 응시하는데, 4~5달러 정도 든다. 🛸 GPT3.5와 GPT4의 격차가 엄청 크다. 🛸 GPT-4는 수학적 사고(수식 등)가 필요한 언어 문제를 해결하지 못한다. 🛸 GPT-4는 문법도 못한다. 🛸 ‘자세한'프롬프트 << '간단한' 프롬프트 🛸 GPT-4는 다른 관점에서 생각하는 것을 잘 못한다. 🛸 top_p, temperature가 0이어도, 항상 같은 결과가 나오지는 않는다. 🛸 선택지 순서가 영향을 미치기도 한다 🛸 최종 정답을 말하는 타이밍이 영향을 미치기도 한다 🧘♀️ 오픈소스로 공개한 이유 상위 5%까지 달성한 프롬프트는 찾을 수 있었지만, 더 높은 성적을 달성하는 프롬프트는 찾지 못했습니다. 또한, API 비용이 생각보다 많이 나온 관계로 23 수능이 아닌 다른 수능 시험으로는 테스트 하지 못했습니다. 그래서, 텐플코의 많은 분들이 공개한 코드를 통해 각자의 프롬프트를 테스트 해 보시고, 더 발전된 형태의 프롬프팅 기법을 찾았으면 좋겠다는 마음에 프로젝트를 공개했습니다. 🧘♀️ 의의 인공지능의 수능 국어 1등급 도달로 초거대AI의 한국어 능력은 아직 떨어진다고 알려진바와 다르게, GPT-4는 이미 최상위 수준에 도달했다는 것을 확인할 수 있었습니다. GPT-4의 프롬프트 엔지니어링을 통해 많은 태스크에서 더 좋은 한국어 퍼포먼스를 보여줄 것이고, 기존에는 불가능하던 많은 것들이 앞으로 가능해 질 것이라 생각됩니다. 따라서, 기업적 관점에서 프롬프트 엔지니어링과 문서 기반 질의 응답 같은 활용 기술이 중요해질 것입니다. 국가적 관점에서는 독과점을 견제하는 오픈소스 한국어 모델의 발전이 중요할 것입니다. Open AI의 GPT-4는 최상위 수준에 도달했지만, 아직 오픈소스 한국어 모델들의 성능은 많이 부족하기 때문입니다. 그럼 여러분들도 한 번 테스트 해 보시기 바랍니다. 제가 경험한 프롬프트 엔지니어링과 거의 일치 해서 추천드립니다.