업계에 필요한 사람이 되자
Brunch Story
https://arxiv.org/abs/2403.16977
1. Claude의 최신 모델들은 어떤 결과를 낼지 궁금해지네요.
2. 물리학 코딩과 관련된 예시가 잔뜩 삽입된 system prompt를 사용하면 결과가 달라질 것 같긴 하지만... 아직까지는 고도의 지적 능력이 필요한 영역에서는 '순수 LLM'이 기여하기 어려운 것 같습니다.
3. 채점자들이 Gpt 이용여부를 높은 확률로 판별할 수 있었던 이유가 답변의 수준이나 코딩스타일이 아닌, 폰트 사이즈나 그래프의 형식이라는 점도 재밌네요.
(translated with Claude Opus)
- 이 연구는 대학 수준의 파이썬 언어 물리학 코딩 과제에서 프롬프트 엔지니어링을 적용한 GPT-3.5와 GPT-4의 성능을 학생 단독 작업 및 학생과 GPT-4의 기여가 혼합된 카테고리와 비교하여 평가합니다.
- 3명의 독립적인 평가자가 블라인드 방식으로 채점한 50개의 학생 제출물과 50개의 AI 생성 제출물을 다양한 카테고리에 걸쳐 비교하여 n=300개의 데이터 포인트를 수집했습니다.
- 학생들은 평균 91.9% (SE:0.4)의 점수를 얻었으며 이는 프롬프트 엔지니어링을 적용한 GPT-4의 81.1% (SE:0.8)를 능가했습니다. (통계적으로 유의한 차이(p = 2.482×10^−10))
- 프롬프트 엔지니어링은 GPT-4 (p = 1.661×10^−4)와 GPT-3.5 (p = 4.967×10^−9) 모두에서 점수를 유의하게 향상시켰습니다.
- 블라인드 평가자들은 '확실한 AI'에서 '확실한 인간'까지 4점 리커트 척도를 활용해 제출물의 저자를 추측하는 과제를 받았습니다. '확실한 인간'으로 분류된 작업 중 92.1%의 결과물이 실제 인간에 의해 작성되었습니다. 'AI' 또는 '인간'의 분류로 단순화한 결과, 평균 정확도는 85.3%였습니다. 이러한 연구 결과는 AI 생성 작업의 품질이 대학생들의 작업에 근접하지만, 여전히 인간 평가자에 의해 탐지될 수 있음을 시사합니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 3월 28일 오후 1:42
다
... 더 보기스타트업 업계에서는 한동안 ‘당신의 아이디어는 이미 다른 누군가도 가지고 있다’,
‘광범위하게 리서치하고 송곳처럼 개발하라’는 말이 정석처럼 받아들여졌어요. '린스타트업'이라 불리는 방법론의 일환으로요.
유튜브가 대세이다. 포탈 사이트에서 검색하던 사람들이 이제는 유튜브에서 먼저 검색하며, 한 해 수입이 수십 억에 달하는 유튜버들도 많다고 한다. 이런 분위기에 영향을 받아 필자도 콘텐츠 개발과 홍보 차원에서 유튜브를 본격적으로 시작했다.
... 더 보기