박웅현 TBWA 조직문화연구소장 "모든 직원은 고객, '회사 팬' 만들어야" [뉴시스 포럼-10년후 한국]
뉴시스
https://arxiv.org/abs/2403.16977
1. Claude의 최신 모델들은 어떤 결과를 낼지 궁금해지네요.
2. 물리학 코딩과 관련된 예시가 잔뜩 삽입된 system prompt를 사용하면 결과가 달라질 것 같긴 하지만... 아직까지는 고도의 지적 능력이 필요한 영역에서는 '순수 LLM'이 기여하기 어려운 것 같습니다.
3. 채점자들이 Gpt 이용여부를 높은 확률로 판별할 수 있었던 이유가 답변의 수준이나 코딩스타일이 아닌, 폰트 사이즈나 그래프의 형식이라는 점도 재밌네요.
(translated with Claude Opus)
- 이 연구는 대학 수준의 파이썬 언어 물리학 코딩 과제에서 프롬프트 엔지니어링을 적용한 GPT-3.5와 GPT-4의 성능을 학생 단독 작업 및 학생과 GPT-4의 기여가 혼합된 카테고리와 비교하여 평가합니다.
- 3명의 독립적인 평가자가 블라인드 방식으로 채점한 50개의 학생 제출물과 50개의 AI 생성 제출물을 다양한 카테고리에 걸쳐 비교하여 n=300개의 데이터 포인트를 수집했습니다.
- 학생들은 평균 91.9% (SE:0.4)의 점수를 얻었으며 이는 프롬프트 엔지니어링을 적용한 GPT-4의 81.1% (SE:0.8)를 능가했습니다. (통계적으로 유의한 차이(p = 2.482×10^−10))
- 프롬프트 엔지니어링은 GPT-4 (p = 1.661×10^−4)와 GPT-3.5 (p = 4.967×10^−9) 모두에서 점수를 유의하게 향상시켰습니다.
- 블라인드 평가자들은 '확실한 AI'에서 '확실한 인간'까지 4점 리커트 척도를 활용해 제출물의 저자를 추측하는 과제를 받았습니다. '확실한 인간'으로 분류된 작업 중 92.1%의 결과물이 실제 인간에 의해 작성되었습니다. 'AI' 또는 '인간'의 분류로 단순화한 결과, 평균 정확도는 85.3%였습니다. 이러한 연구 결과는 AI 생성 작업의 품질이 대학생들의 작업에 근접하지만, 여전히 인간 평가자에 의해 탐지될 수 있음을 시사합니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 3월 28일 오후 1:42
“직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던가, 이 일이 날 성장시킨다던가, 이 일이 좋다던가, 이게 다 여기에 해당합니다.“ 박웅현 TBWA 코리아 조직문화연구소 소장은 직원들을 조직에 남게하는 방법을 이렇게 제안했다.
... 더 보기세계에서 가장 많이 팔리는 맥주가 뭔지 아십니까? 하이네켄? 버드와이저? 아닙니다. 설화맥주입니다. 처음 들어본다고요? 네. 중국에서만 팔리니까요. 중국에서 1등 하면 세계 1등 하기도 쉽다는 것을 잘 보여주는 사례입니다.
... 더 보기'
... 더 보기1. 어제의 태양은 오늘의 태양과 다르다. 이름만 같을 뿐, 둘은 전혀 다른 존재다.