https://arxiv.org/abs/2403.16977

1. Claude의 최신 모델들은 어떤 결과를 낼지 궁금해지네요.

2. 물리학 코딩과 관련된 예시가 잔뜩 삽입된 system prompt를 사용하면 결과가 달라질 것 같긴 하지만... 아직까지는 고도의 지적 능력이 필요한 영역에서는 '순수 LLM'이 기여하기 어려운 것 같습니다.

3. 채점자들이 Gpt 이용여부를 높은 확률로 판별할 수 있었던 이유가 답변의 수준이나 코딩스타일이 아닌, 폰트 사이즈나 그래프의 형식이라는 점도 재밌네요.


(translated with Claude Opus)

- 이 연구는 대학 수준의 파이썬 언어 물리학 코딩 과제에서 프롬프트 엔지니어링을 적용한 GPT-3.5와 GPT-4의 성능을 학생 단독 작업 및 학생과 GPT-4의 기여가 혼합된 카테고리와 비교하여 평가합니다.

- 3명의 독립적인 평가자가 블라인드 방식으로 채점한 50개의 학생 제출물과 50개의 AI 생성 제출물을 다양한 카테고리에 걸쳐 비교하여 n=300개의 데이터 포인트를 수집했습니다.

- 학생들은 평균 91.9% (SE:0.4)의 점수를 얻었으며 이는 프롬프트 엔지니어링을 적용한 GPT-4의 81.1% (SE:0.8)를 능가했습니다. (통계적으로 유의한 차이(p = 2.482×10^−10))

- 프롬프트 엔지니어링은 GPT-4 (p = 1.661×10^−4)와 GPT-3.5 (p = 4.967×10^−9) 모두에서 점수를 유의하게 향상시켰습니다.

- 블라인드 평가자들은 '확실한 AI'에서 '확실한 인간'까지 4점 리커트 척도를 활용해 제출물의 저자를 추측하는 과제를 받았습니다. '확실한 인간'으로 분류된 작업 중 92.1%의 결과물이 실제 인간에 의해 작성되었습니다. 'AI' 또는 '인간'의 분류로 단순화한 결과, 평균 정확도는 85.3%였습니다. 이러한 연구 결과는 AI 생성 작업의 품질이 대학생들의 작업에 근접하지만, 여전히 인간 평가자에 의해 탐지될 수 있음을 시사합니다.


다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 3월 28일 오후 1:42

댓글 0

    함께 읽은 게시물

    “왜 나는 욱하고 말았을까?” “왜 나는 그렇게 화를 분출했을까?” 회의 중, 메신저에서, 피드백을 주고받을 때 리더의 감정 폭발은 일순간에 리더십 전체를 흔들어놓는다. 그리고 회의가 끝나고 긴장이 풀리면 리더는 ‘지적의 정당성’과는 별개로 자신의 감정적 태도를 후회하고 자책한다.

    ... 더 보기

    “왜 나는 오늘도 또 욱하고 화냈을까” [김성회의 리더십 코칭]

    n.news.naver.com

    “왜 나는 오늘도 또 욱하고 화냈을까” [김성회의 리더십 코칭]

    < 당신이 바쁜데도 성과가 없는 이유 >

    1. '바쁘다'는 건 열심히 많은 일을 하고 있다는 뜻이다.

    ... 더 보기

    리더의 역할은 방향을 제시하고 조직을 이끄는 것이다. 의사결정을 내리는 데 지나치게 시간을 끌거나 아예 결정을 피하는 리더가 있다. 이런 리더가 있는 조직은 점차 무기력해지고 성장의 기회를 놓치게 된다. 여러 가지 단점이 있지만, 가장 큰 단점은 직원들을 게으르게 만든다.

    ... 더 보기

    [명대성의 소통 본색] 결정을 미루는 리더가 조직에 미치는 영향

    한국강사신문

    [명대성의 소통 본색] 결정을 미루는 리더가 조직에 미치는 영향

     • 

    저장 6 • 조회 746


    클로드 코드 Max 한 달 사용 후기

    ... 더 보기

    클로드 코드 한 달 사용 후기

    K리그 프로그래머

    클로드 코드 한 달 사용 후기

     • 

    댓글 2 • 저장 9 • 조회 3,140


    쉬운 길

    

    ... 더 보기

    우리 지금 만나

    ... 더 보기