These creepy fake humans herald a new age in AI
MIT Technology Review
<<합성된 AI 데이터가 실제 데이터보다 덜 편향적인 데이터 셋을 구성한다(?)>> 한때 실제 데이터보다 덜 바람직한 것으로 보였던 합성 데이터는 이제 일부 도메인에서 새로운 돌파구로 간주되면 사용되고 있다고 합니다. 사실 실제 데이터는 지저분하고 편견으로 가득 차 있고 새로운 데이터 개인 정보 보호 규제는 수집하기 어렵게 만들죠. 이와는 대조적으로, 합성 데이터는 완전하고 더 다양한 데이터 세트를 구축하는 데 사용될 수 있습니다. 예를 들어서 다양한 연령, 모양, 민족성의 완벽한 라벨링된 얼굴을 만들어 다양한 인구에 걸쳐 작동하는 얼굴 감지 시스템을 구축하는데 사용할 수 있습니다. 그러나 합성 데이터에도 한계가 있습니다. 현실을 반영하지 못하면 지저분하고 편파적인 실제 데이터보다 훨씬 더 나쁜 AI가 생성되거나 동일한 문제를 그대로 이어받을 수 있습니다. 지난 몇 년 동안, AI 커뮤니티는 좋은 데이터가 빅데이터보다 더 중요하다는 것을 알게 되었습니다. 소량의 올바른 라벨링된 데이터가 정제되지 않은 데이터보다 훨씬 더 성능효과적이며, 나아가 고급 알고리즘보다 AI 시스템의 성능을 향상시키는 데 더 큰 역할을 할 수 있는것이 밝혀진 사항입니다. 예를들어 Mostly.ai와 같은 스타트업은 금융, 통신 및 보험 회사와 협력하여 기업이 고객 데이터베이스를 외부 공급업체와 합법적으로 공유할 수 있는 가짜 클라이언트 데이터의 스프레드시트를 제공합니다. 실제 데이터의 익명화는 데이터 세트의 풍부함을 줄이고, 사람들의 프라이버시를 적절하게 보호하지 못하는데 반해 합성 데이터는 기업의 실제 데이터와 동일한 통계 속성을 공유하는 상세한 가짜 데이터 세트를 생성하는 데 사용될 수 있습니다. 또한 더 다양한 고객층 또는 부정 행위와 같은 시나리오를 포함하여 회사가 아직 보유하고 있지 않은 데이터를 시뮬레이션하는 데도 사용할 수 있습니다. 상황에 대한 여러가지 테스트 데이터로는 충분히 효용가치가 있다는 말입니다. 하지만 또 다시 기억해야 할 사항은 합성 데이터가 AI 시스템의 편향을 효과적으로 완화할 수 있다는 증거는 거의 없다는 것입니다. 우선, 기울어진 기존 데이터 집합에서 새 데이터를 추정한다고 해서 더 대표적인 데이터가 생성되는 것은 아닙니다. 합성데이터가 드디어 시스템을 강화시키는데로 적절하게 사용되는것은 AI시스템을 발전시키는데는 올바른 방향이라고 생각합니다.
2021년 6월 18일 오후 8:19