🧠 The Next Level of CoT Prompting
www.linkedin.com
CoT(Chain-of-Thought) 기법은 사용자의 프롬프트에 대해 AI가 단순히 최종 답변을 제시하는 것이 아니라, 중간 단계의 사고 과정을 보여주는 것을 목표로 합니다. 이를 통해 AI의 추론 과정을 투명하게 만들고, 사용자가 AI의 답변을 더욱 신뢰할 수 있게 합니다.
1. 전략적 CoT(Strategic Chain-of-Thought): 전략 도출을 통해 LLM에서 정확한 추론 유도하기
-- Paper: https://arxiv.org/abs/2409.03271v1
어떤 문제를 해결하나요?
생각의 연쇄(CoT) 프롬프트는 대규모 언어 모델(LLM)에서 다단계 추론 능력을 이끌어내는 데 널리 사용되는 기법이 되었습니다.
CoT는 중간 추론 단계를 제공함으로써 LLM이 복잡한 문제를 보다 효과적으로 해결할 수 있게 해줍니다. 그러나 생성된 추론 경로의 품질과 일관성이 불안정하여 추론 작업에서 최적의 성능을 발휘하지 못할 수 있습니다.
이 문제를 어떻게 해결하나요?
전략적 사고 연쇄(SCoT)는 전략적 지식을 CoT 프로세스에 통합하여 불안정성 문제를 해결합니다.
SCoT는 중간 추론 단계를 생성하기 전에 전략적 지식을 통합함으로써 보다 일관되고 신뢰할 수 있는 추론 성능을 보장합니다.
SCoT는 단일 프롬프트 내에서 2단계 접근 방식을 사용합니다.
먼저, LLM에서 효과적인 문제 해결 전략을 도출합니다.
그런 다음, 이 전략을 사용하여 고품질의 CoT 경로와 최종 답변을 생성하도록 안내합니다.
다음 단계는 무엇인가요?
LLM이 더 복잡한 작업에 계속 사용됨에 따라 전략적 지식을 통합하고 추론 경로의 일관성을 개선하는 것이 중요해질 것입니다. SCoT는 이러한 방향의 향후 연구를 위한 유망한 프레임워크를 제공합니다.
2. OLMoE(Open Mixture-of-Experts Language Models): 개방형 전문가 혼합 언어 모델
-- Paper: https://arxiv.org/abs/2409.02060
-- Code: https://github.com/allenai/OLMoE
어떤 문제를 해결하나요?
전문가 혼합(MoE)은 보다 효율적이고 확장 가능한 언어 모델을 구축하기 위한 유망한 접근 방식입니다.
전문화된 '전문가' 모델 세트와 게이트 메커니즘을 사용하여 입력을 가장 관련성이 높은 전문가에게 라우팅함으로써 MoE는 밀집 모델에 비해 더 적은 매개변수로 더 나은 성능을 달성할 수 있습니다.
그러나 MoE 아키텍처에 대한 지속적인 연구와 개선에도 불구하고 Llama와 같은 대부분의 최신 언어 모델은 여전히 밀도 아키텍처에 의존하고 있습니다.
이 문제를 어떻게 해결하나요?
최초의 완전 오픈 소스, 최첨단 믹스 오브 엑스퍼트 언어 모델인 OLMOE-1B-7B가 소개되었습니다.
1B개의 활성 파라미터와 7B개의 총 파라미터를 갖춘 OLMOE-1B-7B는 DeepSeekMoE-16B 및 Llama2-13B-Chat과 같은 대규모 고밀도 모델보다 뛰어난 성능을 발휘합니다.
다음 단계는 무엇인가요?
OLMOE-1B-7B의 완전한 오픈 소스 릴리스는 최첨단 MoE 모델에 대한 접근성을 높이고 이 분야에 대한 추가 연구를 장려하기 위한 중요한 단계입니다.
이 분야에서 MoE의 잠재력을 계속 탐구함에 따라, 프론티어 모델과 완전 개방형 모델 간의 성능 격차를 줄이기 위한 OLMOE 및 기타 오픈 소스 MoE 모델의 새로운 반복을 볼 수 있을 것으로 예상됩니다.
3. Yi-Coder: 작지만 강력한 코드용 LLM
-- Code: https://github.com/01-ai/Yi-Coder
어떤 문제를 해결하나요?
Yi-Coder는 100억 개 미만의 파라미터로 최첨단 코딩 성능을 제공하는 일련의 오픈 소스 코드 LLM입니다.
긴 컨텍스트 모델링을 처리하고 코드 생성, 편집, 완성, 수학적 추론 등 다양한 코딩 작업에서 탁월한 성능을 발휘하는 효율적이고 고성능의 코드 LLM에 대한 필요성을 해결합니다.
Yi-Coder는 소규모 코드 LLM의 한계를 뛰어넘어 소프트웨어 개발을 가속화하고 혁신할 수 있는 사용 사례를 발굴하는 것을 목표로 합니다.
어떻게 문제를 해결하나요?
Yi-Coder는 인상적인 성능을 달성하기 위해 여러 기술을 조합하여 활용합니다.
52개 주요 프로그래밍 언어에 걸쳐 2조 4천억 개에 달하는 방대한 리포지토리 수준의 코드 코퍼스와 CommonCrawl에서 필터링된 코드 관련 데이터를 기반으로 학습합니다.
또한 Yi-Coder는 최대 128K 토큰의 긴 컨텍스트 모델링을 사용하여 프로젝트 수준의 코드를 이해하고 생성할 수 있습니다. 비교적 작은 크기(1.5억 및 9억 매개변수)에도 불구하고 Yi-Coder는 다양한 코딩 벤치마크 및 작업에서 대형 모델보다 뛰어난 성능을 발휘합니다.
다음 단계는 무엇인가요?
기본 버전과 채팅 버전 모두에서 Yi-Coder 1.5B/9B의 오픈 소스 릴리스는 커뮤니티가 이 강력한 코드 LLM을 탐색하고 프로젝트에 통합할 수 있는 흥미로운 기회를 제공합니다.
개발자는 Yi-Coder의 기능을 활용하여 소프트웨어 개발 프로세스를 개선하고, 코딩 작업을 자동화하며, 소규모 코드 LLM이 달성할 수 있는 한계를 뛰어넘을 수 있습니다.
Yi-Coder 팀은 개발자가 Yi-Coder README와 같은 제공된 리소스를 살펴보고 Discord 또는 이메일을 통해 커뮤니티에 참여하여 문의 및 토론을 할 것을 권장합니다.
참고: 프롬프트 엔지니어링 Thought 시리즈(https://aiheroes.ai/community/153)
출처: The Next Level of CoT Prompting(https://www.linkedin.com/pulse/next-level-cot-prompting-pascal-biese-e08pf/)
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 8일 오후 2:33