How is ChatGPT's behavior changing over time? https://arxiv.org/pdf/2307.09009.pdf 최근 chatgpt를 사용하면서 점점 답변 퀄리

How is ChatGPT's behavior changing over time? https://arxiv.org/pdf/2307.09009.pdf 최근 chatgpt를 사용하면서 점점 답변 퀄리티가 안좋아진다는 느낌이 있었는데요, 시간이 지나면서 GPT-3.5와 GPT4 의 성능이 정말로 떨어지고 있다는게 사실이라고 분석한 리포트가 나왔습니다. 요약: GPT-3.5 및 GPT-4는 가장 널리 사용되는 두 가지 대규모 언어 모델(LLM) 서비스입니다. 그러나 이러한 모델이 시간이 지남에 따라 업데이트되는 시기와 방법은 불투명합니다. 여기서는 2023년 3월 및 2023년 6월 버전의 GPT-3.5 및 GPT-4를 4가지 다양한 작업(1) 수학 문제 해결, 2) 민감하고/위험한 질문에 답하기, 3) 코드 생성 및 4) 시각적 추론에 대해 평가합니다. GPT-3.5와 GPT-4의 성능과 동작은 시간이 지남에 따라 크게 달라질 수 있습니다. 예를 들어 GPT-4(2023년 3월)는 소수(정확도 97.6%)를 식별하는 데 매우 능숙했지만 GPT-4(2023년 6월)는 동일한 질문(정확도 2.4%)에 대해 매우 열악했습니다. 흥미롭게도 GPT-3.5(2023년 6월)는 이 작업에서 GPT-3.5(2023년 3월)보다 훨씬 뛰어났습니다. GPT-4는 6월과 GPT-4, GPT-3 모두 3월보다 민감한 질문에 덜 기꺼이 대답했습니다. 5는 3월보다 6월에 코드 생성에서 더 많은 서식 지정 오류가 발생했습니다. 전반적으로 우리의 연구 결과는 동일한 LLM 서비스의 동작이 상대적으로 짧은 시간 내에 상당히 변경될 수 있음을 보여주므로 LLM 품질을 지속적으로 모니터링해야 할 필요성을 강조합니다. 이 논문에서는 널리 사용되는 두 가지 대규모 언어 모델인 GPT-3.5 및 GPT-4의 동작을 시간 경과에 따라 조사하여 다양한 작업에 대한 성능을 평가합니다. 이 연구는 이러한 모델의 동작이 상대적으로 짧은 기간 동안 크게 달라질 수 있음을 발견하여 언어 모델 품질의 지속적인 모니터링의 중요성을 강조합니다.

How is ChatGPT's behavior changing over time? https://arxiv.org/pdf/2307.09009.pdf 최근 chatgpt를 사용하면서 점점 답변 퀄리

알림