스택오버플로우와 검색 엔진 대신 ChatGPT? 관련 기술 자료

문제 있는 코드를 챗에 복사해서 붙여 넣으면 봇이 어디가 잘못된건지 알려줍니다. 아니면 필요한 코드를 알아서 찾아주는 봇은 어떤가요? 꼭 코드 관련 이야기만 하는 것이 아니라, 여러 가지 지식을 검색하고 찾을 때 구글링 대신 사용할 수 있어요. 📌 기술 원천: InstructGPT와 동일한 방법을 사용하지만 데이터 수집 설정에서 약간의 차이가 있는 RLHF(인간 피드백에 따른 강화 학습)를 사용하여 모델을 훈련시켰다. 1️⃣ 첫 번째 스텝: collect demonstration data and train a supervised policy 2️⃣ 두 번째 스텝: collect comparison data and train a reward model 3️⃣ 세 번째 스텝: optimize a policy against the reward model using the PPO reinforcement learning algorithm 📌 관련된 개념 공부 자료 강화 학습: https://ko.wikipedia.org/wiki/강화_학습 보상 모델: https://dacon.io/forum/406104 PPO 알고리즘 설명: https://engineering-ladder.tistory.com/69 📌 한계점 1️⃣ ChatGPT는 그럴싸한 말을 하지만 때론 부정확하거나 말도 안 되는 답변을 작성한다. 2️⃣ ChatGPT는 입력문을 수정하거나 동일한 프롬프트를 여러 번 시도하는 데 민감하다. 예를 들어, 어떤 질문을 하면 모델은 답을 모른다고 주장하는데, 문장을 약간만 고쳐서 다시 물어보면 정확하게 대답할 수 있다. 3️⃣ 모델은 종종 지나치게 장황한 문구와 특정 문구를 과도하게 사용한다. 4️⃣ 모델은 사용자가 모호한 질문할 때 명확하게 하기 위해 다시 사용자에게 질문하는 대신 사용자 의도를 추측한다. 5️⃣ 모델이 부적절한 요청을 거부하도록 훈련했지만 때로는 유해한 지시에 응답하거나 편향된 행동을 보일 수 있다.

ChatGPT: Optimizing Language Models for Dialogue

Openai

ChatGPT: Optimizing Language Models for Dialogue

다음 내용이 궁금하다면?

지금 간편 가입하고 다음 내용을 확인해 보세요!

또는

이미 회원이신가요?

2022년 12월 6일 오후 11:30

 • 

저장 30조회 5,300

댓글 0