문제 있는 코드를 챗에 복사해서 붙여 넣으면 봇이 어디가 잘못된건지 알려줍니다.
아니면 필요한 코드를 알아서 찾아주는 봇은 어떤가요?
꼭 코드 관련 이야기만 하는 것이 아니라, 여러 가지 지식을 검색하고 찾을 때 구글링 대신 사용할 수 있어요.
📌 기술 원천:
InstructGPT와 동일한 방법을 사용하지만 데이터 수집 설정에서 약간의 차이가 있는 RLHF(인간 피드백에 따른 강화 학습)를 사용하여 모델을 훈련시켰다.
1️⃣ 첫 번째 스텝: collect demonstration data and train a supervised policy
2️⃣ 두 번째 스텝: collect comparison data and train a reward model
3️⃣ 세 번째 스텝: optimize a policy against the reward model using the PPO reinforcement learning algorithm
📌 관련된 개념 공부 자료
강화 학습: https://ko.wikipedia.org/wiki/강화_학습
보상 모델: https://dacon.io/forum/406104
PPO 알고리즘 설명: https://engineering-ladder.tistory.com/69
📌 한계점
1️⃣ ChatGPT는 그럴싸한 말을 하지만 때론 부정확하거나 말도 안 되는 답변을 작성한다.
2️⃣ ChatGPT는 입력문을 수정하거나 동일한 프롬프트를 여러 번 시도하는 데 민감하다. 예를 들어, 어떤 질문을 하면 모델은 답을 모른다고 주장하는데, 문장을 약간만 고쳐서 다시 물어보면 정확하게 대답할 수 있다.
3️⃣ 모델은 종종 지나치게 장황한 문구와 특정 문구를 과도하게 사용한다.
4️⃣ 모델은 사용자가 모호한 질문할 때 명확하게 하기 위해 다시 사용자에게 질문하는 대신 사용자 의도를 추측한다.
5️⃣ 모델이 부적절한 요청을 거부하도록 훈련했지만 때로는 유해한 지시에 응답하거나 편향된 행동을 보일 수 있다.