The Steganographic Potentials of Language Models
arXiv.org
LLM 스테가노그래피의 현주소: 기초 능력, 명시적 지침 효과, RL의 양면성
이 논문은 강화학습(RL)으로 미세 조정된 대형 언어 모델(LLM)의 스테가노그래피(정보 은닉) 잠재력을 탐구합니다. 연구는 LLM이 은밀한 인코딩 방식을 개발하고, 지시를 받거나 혹은 자발적으로 정보를 은닉하는 능력을 RL 미세 조정 및 프롬프트 기반 평가를 통해 조사했습니다. 현재 모델들은 기본적인 정보 은닉 능력을 보이지만, 명시적인 알고리즘 지침이 주어질 때 그 용량이 현저히 향상되는 것으로 나타났습니다. RL 미세 조정은 은밀한 소통 능력을 개선할 수 있으나 그 수렴성이 민감하며, 프롬프트를 통해 최신 모델도 정보 은닉을 수행하지만 긴 내용의 정보를 숨기는 데는 한계가 있음이 확인되었습니다.
https://arxiv.org/abs/2505.03439
Qwen3 대규모 언어 모델의 저비트 양자화 영향 심층 평가
이 연구는 최신 Qwen3 대규모 언어 모델(LLM)의 저비트 양자화(low-bit quantization) 영향을 평가합니다. Qwen3의 효율적인 배포를 위해 5가지 기존 후훈련 양자화(PTQ) 기법을 1~8비트 범위에서 여러 모델 크기에 적용하여 다양한 언어 이해 벤치마크로 성능을 측정했습니다. 연구 결과, Qwen3는 중간 비트폭(4비트 이상)에서는 경쟁력 있는 성능을 유지하지만, 초저정밀도(3비트 이하)에서는 특히 언어 과제에서 현저한 성능 저하를 보였습니다. 이는 최첨단 LLM 압축의 지속적인 어려움을 나타내며, 향후 Qwen3 및 미래 LLM에 맞는 양자화 방법 발전을 위한 추가 연구의 필요성을 강조합니다.
https://huggingface.co/papers/2505.02214
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 5월 7일 오전 7:57
제
... 더 보기사람들이 요즘 AI, ChatGPT에게 의존하여 사고력이 저하되고 있다는 이야기가 많이 나온다.
두뇌 발달에 안 좋으니, 80년대에 계산기 쓰지마라, 90년대에 컴퓨터 쓰지마라, 2000년대에 엑셀 팡션 쓰지마라, 2010년에 스마트폰 쓰지마라는 말과 같다는 생각이다.
OpenAI의 오픈소스 모델 gpt-oss 시리즈의 차별점(?) 중에 하나는 가중치를 4.25bit 양자화해서 공개했다는 것이다.
... 더 보기