[0108]모두에게 전하는 모두연 AI뉴스!

  • PLM의 숨겨진 위협, 백도어 공격! BTU로 안전하게 방어하세요

이번 소개할 논문은 사전 훈련된 언어 모델(PLM)의 백도어 공격에 대한 방어 방법인 "백도어 토큰 언러닝(BTU)"을 제안합니다. 이 방법은 훈련 단계에서 트리거 토큰을 사전에 감지하고 무력화하는 데 중점을 둡니다. BTU는 백도어 학습이 단어 임베딩 레이어에서 백도어 토큰 매개변수와 클린 토큰 매개변수 간에 뚜렷한 차이를 야기한다는 점과 백도어 공격의 성공이 백도어 토큰 매개변수에 크게 의존한다는 두 가지 핵심 발견을 기반으로 합니다. 이 방법은 이러한 속성을 활용하여 비정상적인 임베딩 매개변수를 식별하고 미세 조정된 언러닝 기술을 사용하여 백도어 동작을 제거합니다. 3개의 데이터 세트와 4가지 유형의 백도어 공격에 대한 광범위한 평가는 BTU가 기본 작업에 대한 모델의 성능을 보존하면서 이러한 위협을 효과적으로 방어한다는 것을 보여줍니다. 이 연구는 백도어 공격으로부터 PLM을 방어하는 데 있어 상당한 진전을 이루었으며, 모델 훈련 단계에서 백도어 위협을 완화하는 새로운 접근 방식을 제시합니다.


https://arxiv.org/abs/2501.03272


  • AI의 비밀을 파헤치는 탐정, CALM: 유해 행동 추적

이 연구는 대규모 언어 모델(LLM)의 블랙박스 감사에 대한 새로운 접근 방식인 'CALM'을 제안합니다. CALM은 내부 파라미터에 접근하지 않고도 LLM의 불법적이거나 유해한 행동을 유발하는 입력-출력 쌍을 자동으로 찾는 것을 목표로 합니다. 이를 위해 본질적으로 동기가 부여된 강화 학습을 사용하여 감사 에이전트 역할을 하는 LLM을 미세 조정합니다. CALM은 호기심 기반 탐색을 통해 방대하고 불연속적인 프롬프트 공간을 효율적으로 탐색하고 숨겨진 특정 동작을 발견합니다. 실험 결과 CALM은 유명인과 관련된 비방 콘텐츠 생성, 특정 이름 유도 등 다양한 문제 행동을 효과적으로 식별했습니다. 특히, 상대적으로 작은 트랜스포머 기반 모델인 GPT-2를 미세 조정하여 Llama-3-8B와 같은 더 큰 LLM의 바람직하지 않은 동작을 발견할 수 있음을 보여주며, 이는 CALM의 호기심 기반 탐색의 성공을 시사합니다. 이 연구는 블랙박스 LLM 감사에 대한 유망한 방향을 제시하며, 윤리적이고 안전한 인공지능 시스템 개발에 기여할 것으로 기대됩니다.


https://arxiv.org/abs/2501.02997

Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models

arXiv.org

Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 8일 오전 6:03

댓글 0

    함께 읽은 게시물

    좋은 개발자가 되고 싶어서 기술을 열심히 익혔어요.

    새로운 프레임워크가 나오면 바로 써보고,

    더 효율적인 아키텍처를 고민하며 코드를 다듬기도 했어요.


    ... 더 보기

    어제 출시된 따끈따끈한 ChatGPT Codex를 실제 프로젝트 레포에 써 보았습니다.


    테스트가 있으면 스스로 테스트도 실행하고, 만든거 스스로 실행해보면서 버그도 수정하고 하는게 기특하긴 합니다.


    ... 더 보기

    [분석형 엔지니어의 탄생]

    현재 아마존에서 제가 일하고 있는 BI Engineer는 매우 흥미로운 포지션입니다. 여러분들이 잘 알고 있는 데이터 사이언스(Data Sience)에는 크게 3가지 직종이 있습니다. 데이터 사이언스의 대표적인 직업들은 - 데이터 분석가 - 데이터 엔지니어 - 데이터 과학자 가 있습니다. 이 3가지 직종은 데이터 사이언스 분야에서 주요 역할들을 맡고 있는데요. 데이터 분석가, 엔지니어, 과학자 모두 기업의 데이터 의사결정을 하기 위해 각자의 영역에서 발전하고 있었습니다. 하지만 기업의 크기가 커지고 여러 ... 더 보기

    Business Intelligence

    amazon.jobs

    Business Intelligence

     • 

    저장 6 • 조회 2,514


    [성장하는 데이터 분석가에게 필요한 3가지 마인드셋] 2

    지난 시간에 이어서 데이터 분석가가 성장하기 위해 필요한 3가지 마인드셋(Mindset)에 대해 이야기해보고자 합니다. 여기서 마인드셋(Mindset)은 하나의 가치관 또는 사고 방식이라고 이해하셔도 좋을 것 같습니다. 성장하는 데이터 분석가는 1. 분석적 사고(Analytical mindset) 2. 문제-해결 논리(Problem-solving Approach) 3. 의사소통 (Communicational mindset) 이 3가지를 갖추어야 합니다. 그럼 두번째 문제-해결 논리에 대해 이야기 해볼까요? [... 더 보기

    오늘은 투자 완료일이자 아미고 런칭 100일. 별 생각 없었는데, VC 파트너님이 축하한다며 파티 안하냐고 전화주셨길래 편의점에서 맥주 한 캔과 꼬깔콘으로 조촐하게 파티 했습니다. 이제부터가 진짜 시작이겠죠. 잘 부탁드립니다.

    ... 더 보기

    조회 1,278


    🚀 데이터 분석 결과를 액셔너블한 비즈니스 인사이트로 만들기

    데이터 분석을 열심히 하고 결과를 공유하면 "그래서 뭐 어쩔?" 같은 느낌의 표정을 마주하게 됩니다. 데이터 분석의 가장 중요한 부분은 분석 결과를 효과적으로 전달하고, 행동하게 만들어 비즈니스 임팩트를 만드는 것이기에 '데이터 -> 비즈니스 임팩트' 까지 잘 이끌어나가는 것은 데이터 분석가에게 매우 중요한 부분이라고 할 수 있습니다! 오늘 공유하는 아티클에서는 이러한 소프트 스킬의 프로세스를 6가지 스텝으로 잘 정리하였습니다. [🪜 데이터를 비즈니스 인사이트로 바꾸는 6가지 스텝] 1️⃣  비즈니스에 대... 더 보기

    How To Translate Data Into Actionable Business Insights

    Medium

    How To Translate Data Into Actionable Business Insights