“왜 나는 오늘도 또 욱하고 화냈을까” [김성회의 리더십 코칭]
n.news.naver.com
https://arxiv.org/abs/2403.16977
1. Claude의 최신 모델들은 어떤 결과를 낼지 궁금해지네요.
2. 물리학 코딩과 관련된 예시가 잔뜩 삽입된 system prompt를 사용하면 결과가 달라질 것 같긴 하지만... 아직까지는 고도의 지적 능력이 필요한 영역에서는 '순수 LLM'이 기여하기 어려운 것 같습니다.
3. 채점자들이 Gpt 이용여부를 높은 확률로 판별할 수 있었던 이유가 답변의 수준이나 코딩스타일이 아닌, 폰트 사이즈나 그래프의 형식이라는 점도 재밌네요.
(translated with Claude Opus)
- 이 연구는 대학 수준의 파이썬 언어 물리학 코딩 과제에서 프롬프트 엔지니어링을 적용한 GPT-3.5와 GPT-4의 성능을 학생 단독 작업 및 학생과 GPT-4의 기여가 혼합된 카테고리와 비교하여 평가합니다.
- 3명의 독립적인 평가자가 블라인드 방식으로 채점한 50개의 학생 제출물과 50개의 AI 생성 제출물을 다양한 카테고리에 걸쳐 비교하여 n=300개의 데이터 포인트를 수집했습니다.
- 학생들은 평균 91.9% (SE:0.4)의 점수를 얻었으며 이는 프롬프트 엔지니어링을 적용한 GPT-4의 81.1% (SE:0.8)를 능가했습니다. (통계적으로 유의한 차이(p = 2.482×10^−10))
- 프롬프트 엔지니어링은 GPT-4 (p = 1.661×10^−4)와 GPT-3.5 (p = 4.967×10^−9) 모두에서 점수를 유의하게 향상시켰습니다.
- 블라인드 평가자들은 '확실한 AI'에서 '확실한 인간'까지 4점 리커트 척도를 활용해 제출물의 저자를 추측하는 과제를 받았습니다. '확실한 인간'으로 분류된 작업 중 92.1%의 결과물이 실제 인간에 의해 작성되었습니다. 'AI' 또는 '인간'의 분류로 단순화한 결과, 평균 정확도는 85.3%였습니다. 이러한 연구 결과는 AI 생성 작업의 품질이 대학생들의 작업에 근접하지만, 여전히 인간 평가자에 의해 탐지될 수 있음을 시사합니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 3월 28일 오후 1:42
“왜 나는 욱하고 말았을까?” “왜 나는 그렇게 화를 분출했을까?” 회의 중, 메신저에서, 피드백을 주고받을 때 리더의 감정 폭발은 일순간에 리더십 전체를 흔들어놓는다. 그리고 회의가 끝나고 긴장이 풀리면 리더는 ‘지적의 정당성’과는 별개로 자신의 감정적 태도를 후회하고 자책한다.
... 더 보기1. '바쁘다'는 건 열심히 많은 일을 하고 있다는 뜻이다.
리더의 역할은 방향을 제시하고 조직을 이끄는 것이다. 의사결정을 내리는 데 지나치게 시간을 끌거나 아예 결정을 피하는 리더가 있다. 이런 리더가 있는 조직은 점차 무기력해지고 성장의 기회를 놓치게 된다. 여러 가지 단점이 있지만, 가장 큰 단점은 직원들을 게으르게 만든다.
... 더 보기클
... 더 보기