ChatGPT의 수학 실력은 어떨까요?
ChatGPT의 수학 실력을 면밀히 분석한 기사가 있어 공유합니다 😃 기사의 제목은 'ChatGPT는 천재 또는 수준 이하의 AI 수학자일까요?' 입니다. 🍀 작년(2022년) 11월에 있었던 ChatGPT 릴리스는 전례 없는 대중과 언론의 주목을 받았는데요, OpenAI의 대화형 대형 언어 모델(LLM)은 복잡한 쿼리에 답하고 올바른 컴퓨터 코드와 일관된 형식의 긴 에세이를 생성하고 심지어 수학 문제를 해결하는 능력으로 널리 찬사를 받았습니다. 🍀 2023년 2월 1일에 발표된 논문인 'Mathematical Capabilities of ChatGPT' 에서 옥스포드 대학, TU Wein, 케임브리지 대학, 비엔나 대학, 프린스턴 대학의 연구팀은 공개적으로 사용 가능하고 수작업(hand-crafted)으로 만든 데이터 세트에서 ChatGPT의 수학 실력을 테스트하고 평가하였는데요, 해당 연구팀은 ChatGPT의 수학 능력이 "평균적인 수학 대학원생의 능력보다 훨씬 낮다"라고 결론지었습니다. 🍀 고급(advanced) 수학 문제에서 ChatGPT를 효과적으로 평가하기 위해 연구자(researcher)들은 세심하게 제작된 6개의 하위 데이터 세트에 총 728개의 프롬프트로 구성된 새로운 데이터 세트인 GHOSTS(Grad-Text, Holes-in-Proofs, Olympiad-Problem-Solving, Symbolic-Integration, MATH 및 Search-Engine-Aspects)를 구축하였으며, GHOST 데이터 세트가 정교함과 추론 난이도 측면에서 공개적으로 사용 가능한 벤치마크 수학 데이터 세트를 능가한다고 주장합니다. 🍀 팀은 GHOST 데이터 세트에 ChatGPT를 적용하고 output length, 프롬프트 엔지니어링 하에서 답변의 안정성 및 ChatGPT가 정답에 얼마나 가깝다고 판단했는지를 고려했습니다. ❗️ChatGPT는 대부분의 문제에서 실패했으며 특히 Mathematical Olympiads에서 발견된 것과 같은 깊은 통찰력과 독창적인 솔루션을 요구하는 질문에서 제대로 대처하지 못했습니다. 이 논문은 ChatGPT가 수학적 개체에 대한 정보가 제공되면 효과적으로 검색할 수 있지만 고급 수학 및 일관된 고품질 증명 또는 계산을 제공하는 데 어려움을 겪고 있다고 결론지었습니다. 🍀 이 논문이 발표되기 하루 전에 OpenAI는 개선된 수학적 기능으로 ChatGPT를 업그레이드했다고 발표했습니다. 이 최신 버전이 여기에 제시된 실험에서 어떻게 수행될지는 확실하지 않습니다. GHOSTS 데이터 세트는 프로젝트의 GitHub에서 공개됩니다. [GitHub] https://github.com/friederrr/science-GHOSTS ChatGPT의 Mathematical Capabilities 논문은 arXiv에 있습니다. [arXiv] https://arxiv.org/abs/2301.13867 원본 기사의 링크는 아래와 같습니다. 감사합니다. 🙏 [Source] https://medium.com/syncedreview/genius-or-subpar-ai-mathematician-new-study-questions-chatgpts-mathematical-capabilities-3c06d186da10