<<미네르바: 언어 모델로 양적 추론 문제 해결>>
커리어리 친구들, 구글에서 얼마전에 발표한 초거대 540B PaLM 모델을 이용해서 수학문제를 풀어내는 모델(Minerva)을 발표했습니다. 아래에 링크에 제시된 예제 문제들도 풀수 있고 각종 수학, 과학문제들을 풀어낼 수 있습니다.
100B 넘는 수학 데이터를 끌고 왔고 Latex 수학식을 직접 만들고 이용합니다. 또한 흥미로운것은 제곱근이나 삼각함수 같은 것을 잘 외우는게 중요하지만 실제로 외운다기 보다는 이해해서 푼다는 실험결과입니다. 문제의 숫자를 바꿔도 잘 푸는 유형은 계속 잘 풀고 못푸는 유형은 잘 못풉니다.
그리고 모델 사이즈가 바뀌면 풀이 방식과 단계도 매우 다르고 큰 모델의 유용성이 또 한번 입증됩니다. beam search와 유사한 voting 스코어를 이용해서 정확도를 확 올린 것도 눈에 띄고 어떤 문제를 잘 못푸는지 다양한예를 보여주는 점도 매우 좋았습니다.
기술적으로 좀더 설명하자면, 언어 모델은 다양한 자연어 작업에서 놀라운 성능을 보여주었습니다. 실제로 BERT, GPT-3, Gopher 및 PaLM을 포함한 많은 작업의 일반적인 교훈은 신경망이 감독되지 않은 환경에서 대규모로 다양한 데이터에 대해 훈련되었다는 것입니다.
양적 추론(Quantitative Reasoning)은 언어 모델이 여전히 인간 수준의 성능에 훨씬 미치지 못하는 영역 중 하나입니다. 수학 및 과학 문제를 해결하려면 자연어 및 수학 표기법을 사용하여 질문을 올바르게 구문 분석하고, 관련 공식 및 상수를 호출하고, 수치 계산 및 기호 조작이 포함된 단계별 솔루션 생성을 포함하는 기술의 조합이 필요합니다.
이러한 문제로 인해 머신 러닝을 사용하여 정량적 추론 문제를 해결하려면 모델 아키텍처 및 교육 기술의 상당한 발전이 필요하며, 모델에 Python 인터프리터와 같은 외부 도구에 대한 액세스 권한을 부여하거나 더 심오한 패러다임 전환이 필요할 것이라고 종종 믿어집니다.
"Solving Quantitative Reasoning Problems With Language Models" 논문에서는 단계별 추론을 사용하여 수학 및 과학 문제를 해결할 수 있는 언어 모델인 미네르바를 제시합니다.
정량적 추론 문제와 관련된 훈련 데이터 수집, 대규모 훈련 모델, 동급 최고의 추론 기술 사용에 집중함으로써 다양한 어려운 정량적 추론 작업에서 상당한 성능 향상을 달성한다는 것을 보여줍니다.
미네르바(Minerva)는 계산기와 같은 외부 도구에 의존하지 않고 수치 계산 및 기호 조작을 포함하는 솔루션을 생성하여 이러한 문제를 해결합니다. 이 모델은 자연어와 수학적 표기법을 혼합하여 수학적 질문을 구문 분석하고 답변합니다. Minerva는 STEM 추론 작업에서 최첨단 성능을 달성하기 위해 몇 가지 기술을 결합합니다. 대화형 샘플 탐색기를 사용하여 Minerva의 출력을 탐색할 수 있습니다!
정량적 추론을 촉진하기 위해 Minerva는 LaTeX, MathJax 또는 기타 수학적 조판 형식을 사용하는 수학적 표현이 포함된 웹 페이지 및 arXiv 사전 인쇄 서버의 118GB 과학 논문 데이터 세트에 대한 추가 교육을 통해 PaLM(Pathways Language Model)을 기반으로 합니다. 표준 텍스트 정리 절차는 종종 수학적 표현의 의미론적 의미에 필수적인 기호와 서식을 제거합니다. 훈련 데이터에서 이 정보를 유지함으로써 모델은 표준 수학 표기법을 사용하여 대화하는 법을 배웁니다.
Minerva는 또한 수학적 문제를 더 잘 풀기 위해 최근의 프롬프팅 및 평가 기술을 통합합니다. 여기에는 일련의 사고 또는 스크래치 패드 프롬프트(미네르바가 새로운 질문을 제시하기 전에 기존 질문에 대한 몇 가지 단계별 솔루션을 제공하는 프롬프트)와 다수결이 포함됩니다. 대부분의 언어 모델과 마찬가지로 Minerva는 다양한 가능한 출력에 확률을 할당합니다. 질문에 답할 때 Minerva의 단일 솔루션이 가장 가능성이 높은 것으로 간주하는 대신 가능한 모든 출력에서 확률적으로 샘플링하여 여러 솔루션이 생성됩니다. 이러한 솔루션은 다르지만(예: 단계가 동일하지 않음) 동일한 최종 답변에 도달하는 경우가 많습니다. Minerva는 이러한 샘플링된 솔루션에 대해 과반수 투표를 사용하여 가장 일반적인 결과를 결정적인 최종 답변으로 사용합니다.
모델의 성능과 평가에 대해 더 궁금한 분들은 아래의 링크에 있는 논문을 한번 읽어 보시기를 추천드립니다.