AUTO LABELING(1)_개념
Calm&Pearl
[😈데블챌 2기 12일차, 데이터 라벨링의 자동화,오토라벨링]
딥러닝 모델을 학습하려면 필수적인 두 가지 요소가 있습니다. 바로 '데이터'와 그 데이터에 대한 '주석'(레이블) 입니다. 특히 라벨링 작업을 하다보면, '인형 눈 붙이기 알바'의 고단함이 무엇인지 경험할 만큼 반복적인 작업을 수행해야 합니다. 그런데 문득 '반복 작업'를 시키려고 준비된 게 컴퓨터이지 않나? 라는 아이디어가 떠오릅니다. 오늘의 주제, 오토라벨링은 이러한 접근에서 출발합니다~!
라벨링을 위한 사전학습 모델
오토라벨링은 기계 학습 모델을 훈련시키기 위해 사용되는 자동 레이블링 기술 사전에 정의된 규칙이나 알고리즘을 사용하여 데이터에 자동으로 레이블을 할당하는 기법을 뜻합니다.
예를 들어, 강아지를 찾는 이미지 분류 작업을 수행한다고 가정해봅시다.여러 이미지 데이터에서 강아지 객체를 라벨링한 데이터가 필요합니다. 이를 위해 사전에 훈련된 모델이 이미지의 특징을 학습하고, 모델이 추론한 결과를 라벨링으로 활용하는 것입니다.
액티브 러닝
앞의 설명에서 한 가지 모순이 발생합니다. "모델을 구현하고자 데이터를 구축하는데, 어떻게 이를 위한 사전학습 모델이 존재하는 거지?" 여기서 액티브 러닝이라는 중요한 개념이 활용됩니다. 액티브 러닝은 러프하게 오답노트 공부법에 비유할 수 있습니다. 문제를 풀면 오답을 중심으로 개선하는데 집중하는 것처럼, 우선 데이터의 일부를 모델이 학습하게 하고 오토 라벨링을 시켜 오답을 수정하는 점진적 방식으로 모델링을 접근하는 것입니다.
오토라벨링 활용 사례
이러한 오토라벨링 기법은 아마존의 SegeMaker Ground Truth처럼 여러 라벨링 툴에서 지원하고 있는 방식입니다. 국내에서는 슈퍼브AI, DS2AI 라는 업체 플랫폼에서 제공하고 있으며, 오프소스인 CVAT 라벨링 툴이 기능을 제공하고 있습니다. 오토라벨링 환경을 구현하고자 한다면, CVAT를 검토해 보시길 추천드립니다. 물론 개인적으로 Mlops 환경을 구현하여 강력한 자동화 프로세스를 구축하는 것도 가능합니다 : )
오토라벨링은 흥미로운 기법이지만, 여전히 기술적 한계가 예상되는 분야가 많아 보입니다. 주로 Object Detection을 중심으로 컴퓨터 비전 데이터에서 주로 쓰이고 있으며, 주석 데이터의 형태가 점점 복잡해지면서 수정 작업의 비용이 초기 라벨링 작업과 큰 차이가 없어지는 문제가 있습니다. 하지만 특정 데이터를 학습할 때 모델의 학습 과정을 틈틈이 점검하는 ,액티브 러닝 방식은 모델링의 유용한 도구이지 않을까 싶습니다~!
## 본문 관련 노트
https://calmdown.tistory.com/40
https://calmdown.tistory.com/41
https://calmdown.tistory.com/42
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 6월 8일 오후 2:54
하
... 더 보기