A Survey of Large Language Models
arXiv.org
보편적으로 Survey 논문은 트렌드를 파악하기에 굉장히 좋은 자료로 사용됩니다. 하지만 Survey 논문 하나 읽는게 생각보다 쉽지 않죠. 20장 이상은 기본에다가 논문 특성상 넓고 얕게만 알려줘서 다 읽어도 뭐 하나 제대로 배운 것 같지 않은 느낌이 들더라구요.
저도 이전까지는 서베이 논문을 참 애용했는데요. 특히 LLM 팔로업 시작할 때는 A Survey of Large Language Models 논문을 달달 읽었습니다. (https://arxiv.org/abs/2303.18223)
근데 요즘들어 다른 좋은 방법이 있다는 것을 느끼고 있는데요. 바로 벤치마크 논문을 읽는 것입니다. 벤치마크 논문을 읽는 것에 3가지 장점이 있습니다.
서베이 논문보다 읽기가 쉽습니다. 새로운 벤치마크를 왜 만들었는지 이 분야에 대한 Evaluation이 왜 더 필요한지 잘 설명해줍니다. 예시 데이터까지 첨부해주면 이해가 금방 되죠.
SOTA 모델들에 대한 비교 및 경향 분석이 가능합니다. 벤치마크를 만들면 현재 시중에 나와있는 좋은 모델들로 평가도 해보고 어떤 경향을 보이는지 설명도 해줍니다. 예를 들어, Reasoning Task 관련 벤치마크 논문을 읽었을 때, 7B과 같은 작은 모델들은 오히려 CoT가 성능 하락을 유발하는 경향을 보였다는 걸 알게되었답니다.
최신 연구 트렌드 파악도 가능합니다. 특히 LLM은 최근 1-2년 내에 성능이 급상승하였기 때문에 기존에 평가하던 벤치마크들은 LLM이 너무나도 쉽게 해결해냅니다. 그래서 더 정교하고 어려운 벤치마크에 대한 니즈가 생겼고 그에 따라 요즘 많은 벤치마크들이 생기고 있습니다. 따라서 벤치마크만 잘 팔로업을 해도 최신 연구 트렌드를 알 수 있다고 생각합니다.
최근 2주 동안 제가 잘 읽은 벤치마크 관련 논문들 몇 개 소개하고 마무리하겠습니다.
OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments (https://arxiv.org/abs/2404.07972): 다양한 운영체제에 대해 벤치마크를 만들어 agent가 컴퓨터를 사람처럼 사용할 수 있는지 테스트하였다.
BLINK: Multimodal Large Language Models
Can See but Not Perceive (https://arxiv.org/abs/2404.12390): MLLM들이 이미지를 단순히 보는 것에 그치지 않고 제대로 인지하고 있는지 테스트하기위해 보다 어려운 VQA 벤치마크, BLINK를 개발하였다.
MMInA: Benchmarking Multihop Multimodal Internet Agents (https://arxiv.org/abs/2404.09992): 진정한 web agent라는 web surfing을 잘 해줘야 한다. 즉, 검색해서 어디 들어갔다가 다시 나왔다가 하는 multihop이 필요하다. 그걸 테스트하는 벤치마크를 만들었다.
→ 요즘 정말 Agent 개발이 많이 화제가 되고 있는 것 같네요! 🤔
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 19일 오후 4:46