Synthetic data: Pros, Cons, Case studies & AI Applications
AIMultiple
<<요즘 매우 핫한 합성 (synthetic) 데이터라는 말 들어보셨나요?>> 이세돌과 격돌을 했던 알파고는 사람이 두었던 기보를 베이스로 학습을 했지만, 인간을 모두 이긴후 알파고는 본인들이 스스로 만들어낸 기보를 바탕으로 알파고 제로, 마스터라는 이름을 갖고 학습을 했다는 사실을 많은 분들이 알고 계시지요? 합성 데이터는 이름에서 짐작할 수 있듯이 실제 데이터 이벤트에 의해 생성되지 않고 인위적으로 생성된 데이터입니다. 종종 AI나 특정 알고리즘의 도움을 받아 생성되며, 새로운 제품과 도구의 테스트 데이터로서, 모델 검증 및 AI 모델 교육에서 사용됩니다. 합성 데이터는 '데이터 증강data augmentation' 라는 한 유형을 이야기합니다. 합성데이터는 생산 비용이 저렴하여 AI/딥러닝 모델 개발, 소프트웨어 테스트 등을 쉽게 지원할 수 있습니다. 합성 데이터 개인 정보 보호는 가장 중요한 이점 중 하나입니다. 사용자 데이터에는 개인 식별 가능 정보 및 개인 건강 정보가 포함되어 있을 위험이 있지만, 합성 데이터를 사용하면 개발자나 소프트웨어 도구에 사용자 데이터를 노출을 걱정하지 않아도 됩니다. 합성 데이터는 기존(실제) 데이터에서 사용할 수 없는 특정 요구나 조건을 충족하도록 생성시킬 수 있기에 품질 향상에 중요합니다. 이 기능은 다음과 같은 다양한 경우에 유용할 수 있습니다. 1. 개인 정보 보호 요구 사항으로 인해 데이터 가용성 또는 데이터 사용 방법이 제한되는 경우 2. 릴리스할 제품을 테스트하는 데 데이터가 필요하지만 이러한 데이터가 없거나 테스터가 사용할 수 없는 경우 3. AI, ML을 위한 교육 데이터가 필요할때, 특히 자율주행차의 경우, 이러한 데이터는 실제 생성하기에 비용이 너무 많이 든다. 즉 가장 명확한 장점은 1. 데이터 셋의 생성시간을 90%가량 줄일 수 있고, 2. 개인정보보호를 준수 할 수 있고 3. 실 업무 사례 데이터를 뛰어넘는 고품질의 데이테셋을 사용하여 테스트와 교육에 사용할 수 있다. 4. 이 데이터셋을 다시 되먹임으로 사용함으로 AI의 품질을 향상시킬 수 있다. 입니다.
2021년 6월 27일 오후 8:50