Universal Jailbreak Backdoors from Poisoned Human Feedback
arXiv.org
1.탈옥 백도어: 대규모 언어 모델에서의 새로운 위협과 연구 방향
이 논문은 인간 피드백을 기반으로 한 강화 학습(RLHF)을 사용하여 대규모 언어 모델을 조정하는 과정에서 발생할 수 있는 새로운 위협, 즉 '탈옥 백도어'를 다룹니다. 이 백도어는 특정 트리거 단어를 사용하여 모델이 일반적인 동작에서 벗어나 유해한 응답을 하도록 유도합니다. 이러한 범용 탈옥 백도어는 이전에 연구된 백도어보다 강력하며, 일반적인 백도어 공격 기법으로 설치하기 어렵다는 점이 밝혀졌습니다. 이 연구는 RLHF의 설계에서 중요한 견고성 문제를 제기하고, 이를 통해 향후 연구 방향을 제시합니다. 연구자들은 범용 탈옥 백도어에 대한 포이즌 모델 벤치마크를 공개함으로써 추가 연구를 촉진하고자 합니다.
https://arxiv.org/abs/2311.14455
2.ML-Bench: 대규모 언어 모델의 실제 프로그래밍 적용성 평가를 위한 새로운 벤치마크
대규모 언어 모델(LLM)이 코드 생성 벤치마크에서 인상적인 성능을 보였음에도 불구하고, 실제 프로그래밍 적용과는 여전히 차이가 있습니다. 이는 대부분의 실제 프로그래밍이 기존 라이브러리에 의존하기 때문입니다. 이를 극복하기 위해, 이 연구에서는 오픈 소스 라이브러리를 활용하여 머신 러닝 작업을 수행하는 LLM의 능력을 평가하는 새로운 벤치마크인 ML-Bench를 제안합니다. 이 벤치마크는 14개의 유명 머신러닝 GitHub 리포지토리의 130개 작업과 10044개 샘플로 구성되며, LLM이 제공된 README와 함께 특정 머신 러닝 작업을 수행하기 위한 코드를 생성하는 임무를 맡습니다.
https://huggingface.co/papers/2311.09835
3.서버리스 데이터 시스템의 아키텍처
블로그에서 클라우드 데이터 서비스의 미래가 대규모 및 멀티 테넌트 구조에 있음을 주장하며, S3와 같은 최상위 SaaS 서비스가 간단함, 신뢰성, 확장성, 낮은 가격을 제공하는 구조적 특징을 설명했습니다. 실제 세계의 서버리스 멀티-테넌트 데이터 아키텍처를 조사하여 다양한 시스템이 어떻게 서버리스 멀티-테넌트를 구현하는지 탐색합니다.
https://news.hada.io/topic?id=12053
4.프로그램언어 단순 != 쉬움
파이썬은 쉽습니다. Go는 간단합니다. 간단함과 쉬움은 다른 개념이지만 종종 혼동됩니다. 예를 들어, 사용하기 쉬운 Python은 내부적으로 복잡하지만, 이로 인해 사용자에게 쉬운 경험을 제공합니다. 반면, Rust는 성능이 뛰어나지만 사용하기 어렵고, Go는 누구나 이해하기 쉬운 단순함을 지향합니다. 이는 프로그래밍 언어의 선택과 사용에 있어 중요한 고려사항이 됩니다.
https://preslav.me/2023/11/27/python-is-easy-golang-is-simple-simple-is-not-easy/
—
🥇K-디지털 트레이닝 훈련 기관 유일! 대통령 표창 수상한 모두의연구소의 SW/AI 교육
- AI학교 아이펠 ‘데이터 사이언티스트 과정’ 마침내 오픈! 지금 무료 지원하기: https://bit.ly/3QPTnjd
- 7만 여명의 수강생 평점 4.8 제주코딩베이스캠프와 함께! '인공지능(AI) 모델 활용 백엔드 개발 과정‘ 무료 지원하기: https://bit.ly/3SZC9Ts
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 11월 28일 오후 10:20
지
... 더 보기