이병헌

프롬프트 엔지니어

https://arxiv.org/abs/2403.16977

1. Claude의 최신 모델들은 어떤 결과를 낼지 궁금해지네요.

2. 물리학 코딩과 관련된 예시가 잔뜩 삽입된 system prompt를 사용하면 결과가 달라질 것 같긴 하지만... 아직까지는 고도의 지적 능력이 필요한 영역에서는 '순수 LLM'이 기여하기 어려운 것 같습니다.

3. 채점자들이 Gpt 이용여부를 높은 확률로 판별할 수 있었던 이유가 답변의 수준이나 코딩스타일이 아닌, 폰트 사이즈나 그래프의 형식이라는 점도 재밌네요.

(translated with Claude Opus)

- 이 연구는 대학 수준의 파이썬 언어 물리학 코딩 과제에서 프롬프트 엔지니어링을 적용한 GPT-3.5와 GPT-4의 성능을 학생 단독 작업 및 학생과 GPT-4의 기여가 혼합된 카테고리와 비교하여 평가합니다.

- 3명의 독립적인 평가자가 블라인드 방식으로 채점한 50개의 학생 제출물과 50개의 AI 생성 제출물을 다양한 카테고리에 걸쳐 비교하여 n=300개의 데이터 포인트를 수집했습니다.

- 학생들은 평균 91.9% (SE:0.4)의 점수를 얻었으며 이는 프롬프트 엔지니어링을 적용한 GPT-4의 81.1% (SE:0.8)를 능가했습니다. (통계적으로 유의한 차이(p = 2.482×10^−10))

- 프롬프트 엔지니어링은 GPT-4 (p = 1.661×10^−4)와 GPT-3.5 (p = 4.967×10^−9) 모두에서 점수를 유의하게 향상시켰습니다.

- 블라인드 평가자들은 '확실한 AI'에서 '확실한 인간'까지 4점 리커트 척도를 활용해 제출물의 저자를 추측하는 과제를 받았습니다. '확실한 인간'으로 분류된 작업 중 92.1%의 결과물이 실제 인간에 의해 작성되었습니다. 'AI' 또는 '인간'의 분류로 단순화한 결과, 평균 정확도는 85.3%였습니다. 이러한 연구 결과는 AI 생성 작업의 품질이 대학생들의 작업에 근접하지만, 여전히 인간 평가자에 의해 탐지될 수 있음을 시사합니다.

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 3월 28일 오후 1:42

함께 읽은 게시물

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

7월 9일

“왜 나는 욱하고 말았을까?” “왜 나는 그렇게 화를 분출했을까?” 회의 중, 메신저에서, 피드백을 주고받을 때 리더의 감정 폭발은 일순간에 리더십 전체를 흔들어놓는다. 그리고 회의가 끝나고 긴장이 풀리면 리더는 ‘지적의 정당성’과는 별개로 자신의 감정적 태도를 후회하고 자책한다.

“왜 나는 오늘도 또 욱하고 화냈을까” [김성회의 리더십 코칭]

n.news.naver.com

저장 4 • 조회 698

장홍석

스페이스오디티 부대표/CPO

3일 전

< 당신이 바쁜데도 성과가 없는 이유 >

1. '바쁘다'는 건 열심히 많은 일을 하고 있다는 뜻이다.

댓글 1 • 저장 6 • 조회 807

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

6월 30일

리더의 역할은 방향을 제시하고 조직을 이끄는 것이다. 의사결정을 내리는 데 지나치게 시간을 끌거나 아예 결정을 피하는 리더가 있다. 이런 리더가 있는 조직은 점차 무기력해지고 성장의 기회를 놓치게 된다. 여러 가지 단점이 있지만, 가장 큰 단점은 직원들을 게으르게 만든다.

[명대성의 소통 본색] 결정을 미루는 리더가 조직에 미치는 영향

한국강사신문

•

저장 6 • 조회 746

K리그 프로그래머

커피한잔 개발자

7월 14일

클로드 코드 Max 한 달 사용 후기

클

클로드 코드 한 달 사용 후기

K리그 프로그래머

•

댓글 2 • 저장 9 • 조회 3,140

석민

커리어 코치

6일 전

쉬운 길

저장 5 • 조회 925

석민

커리어 코치

7월 20일

우리 지금 만나

영

저장 1 • 조회 514

비슷한 게시물

HoJoong Kim Senior IT guy

[Dev.to] 성공적인 RAG 구현을 위한 프롬프트 엔지니어링 패턴

서지연 개발자

프롬프트 엔지니어링은 죽었다?

테디노트 지식 크리에이터👍

요약(Summary)

HoJoong Kim Senior IT guy

개발자를 위한 프롬프트 엔지니어링: 완벽한 가이드!

테디노트 지식 크리에이터👍

🔥Tools/Toolkits & Agent, Agentic RAG🔥

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[1014]모두에게 전하는 모두연 AI뉴스!

주간 인기 TOP 10

강재상 스타트업 육성, Corprate Venturing, 사업, 커리어, 작가

회사 때려치고 사업이나 한번 해볼까?

K리그 프로그래머 커피한잔 개발자

클로드 코드 Max 한 달 사용 후기

전민우 백엔드개발자

회피를 해야 할까요? 방안을 찾아야 할까요?

유용우(요우) NAVER 백엔드 개발자

사용자가 아닌 개발자를 위한 웹 개발의 시대

이양일 NaverCloud 백엔드 개발자

MCP 모르면 대체 얼마나 손해 보는 걸까?🤔

김의중 프론트엔드 개발자

Next.js 앱을 쿠버네티스에 배포하기 (feat. ArgoCD

레드버스백맨 리서처 앤 라이터

⟪토스가 만든 리서치툴, TNS⟫

골빈해커 Chief Maker

‪요 기능의 일부를 바이브 코딩으로 만들려다가 실패했는데요. 그

JOSH 솔로프리너 CEO

국내 바이브코딩 시장을 혼자 독점하고 계신 커서맛피아님을 인터뷰했

이유진 우아한 형제들 프로덕트 디자이너

생산성 수치심 (Productivity Shame) 극복하기 (1

댓글 0

함께 읽은 게시물

< 당신이 바쁜데도 성과가 없는 이유 >

클로드 코드 Max 한 달 사용 후기

쉬운 길

우리 지금 만나

비슷한 게시물

주간 인기 TOP 10

추천 프로필