모든 인공 지능 모델은 효과적으로 기능하기 위해 방대한 양의 데이터를 활용합니다. 즉, 데이터세트가 더욱 다양해지고 포괄적일수록 AI의 학습, 적응, 성능이 개선됩니다. 따라서 실제로 사용할 수 있는 AI 모델을 학습시키려면 양질의 데이터가 상당히 많이 필요합니다. 이로 인해 잠재적인 문제가 발생할 수 있습니다. 데이터를 얻기는 쉽지 않습니다. 기존의 데이터 수집 방법에는 많은 시간과 비용이 소요되며 개인 정보 보호 및 편견과 관련된 문제도 발생할 수 있습니다. 이러한 문제를 비롯한 여러 문제를 해결하기 위해 AI를 사용하는 기업에서는 지능형 시스템을 훈련시킬 수 있는 시뮬레이션 소스를 찾고 있는데, 이것이 바로 합성 데이터입니다.
합성 데이터는 실제 데이터를 모방하도록 인위적으로 생성된 정보입니다. 이 데이터는 실제 데이터 사용과 관련된 여러 가지 문제에 대한 해법을 제공해 줍니다. 고급 GenAI(생성형 AI) 모델을 활용하는 합성 데이터는 AI 학습 시 흔히 발생하는 위험을 초래하지 않으면서 AI 개발을 개선할 수 있는 실용적이면서도 윤리적 대안을 제공합니다.
세부 사항을 자세하게 파고들기 전에 합성 데이터가 실제 데이터와 어떻게 다른지 간략하게 알아보는 것이 좋겠습니다.
- 합성 데이터는 실제 데이터의 통계 속성과 일치하도록 인위적으로 생성됩니다. 실제 정보와 상관관계가 있는 실제 데이터 포인트는 포함되지 않습니다.
- 실제 데이터는 실제 이벤트, 개인, 상호 작용으로부터 수집되며, 데이터 포인트에는 민감한 성격을 지닐 수 있는 실제 정보가 포함되어 있습니다. .
제대로 생성된 합성 데이터를 사용할 경우, 기업은 실제 데이터를 노출시키거나 편향되거나 관련 없는 정보가 학습 데이터 세트에 포함될 위험 없이 포괄적인 데이터 학습의 이점을 얻을 수 있습니다.
시뮬레이션된 데이터는 맨해튼 프로젝트에서 복잡한 확률적 시나리오를 모델링하기 위해 몬테카를로 시뮬레이션을 광범위하게 사용했던 1940년대에 뿌리를 두고 있습니다. 이러한 선구적인 연구 덕분에 실제 조건을 모사하는 데 인공 데이터를 사용하는 방식이 정립되었습니다. 1990년대에 이르자 통계 분석과 컴퓨터 그래픽에서 시뮬레이션된 데이터가 일반화되어, 이러한 데이터가 항공우주 및 자동차 엔지니어링 분야에서 다양한 가상 조건 하에 시스템을 테스트하는 데 사용되었습니다.
2000년대 이후에는 더 크고 다양한 데이터 세트에 대한 수요가 증가함에 따라 실제 데이터의 한계가 뚜렷해졌습니다. 연구자들은 실제 데이터 샘플을 학습하여 고해상도 합성 데이터를 생성하기 위해 GAN(생성적 적대 신경망)이나 VAE(변분 오토인코더)와 같은 모델로 눈을 돌렸습니다. 오늘날, 합성 데이터는 통제되고 확장 가능하며 위험 부담이 없는 방식으로 AI 시스템을 학습시키고 테스트하는 데 중요한 도구입니다.
합성 데이터는 "모 아니면 도"로 단순화할 수 있는 솔루션이 아닙니다. 조직은 학습 세트에 포함할 합성 데이터의 양을 선택할 수 있습니다. 그 결과, 다음과 같은 세 가지 범주 또는 유형의 합성 데이터 입력이 생겼습니다.
이름에서 알 수 있듯이, 이 유형의 데이터세트는 실제 데이터를 사용하지 않으며, 실제 통계적 속성을 가진 합성 데이터를 생성하기 위해 알고리즘에 전적으로 의존합니다. 완전 합성 데이터에는 실제 개인 정보가 포함되지 않으므로 가장 강력한 개인 정보 보호를 제공합니다. 또한 공정하고 대표성을 갖도록 설계된 데이터 세트를 생성할 수 있으므로 편향과 관련된 위험이 최소화되고 매우 유연합니다. 그러나 실제 데이터의 미묘한 뉘앙스는 부족하며, 이 점은 실제 적용 시 모델의 성능에 영향을 미칠 수 있습니다.
이 접근 방식은 일부 민감한 기능만 합성 값으로 대체하고 실제 데이터의 일부를 유지하는 방식으로 개인 정보 보호 및 안전과 실제 데이터의 중요한 특성 사이에 균형을 유지합니다. 이 접근 방식은 여전히 정보 유출 위험을 수반하며 실제 데이터에 숨겨진 편향을 완전히 제거하지 못할 수 있습니다.
하이브리드 접근 방식은 실제 데이터와 합성 데이터를 결합하여 무작위 실제 데이터 기록과 유사한 합성 데이터의 쌍을 만듭니다. 이 방식은 다양한 장점을 적절히 조화시켜 종합적인 모델 학습을 보장하면서 개인 정보도 보호할 수 있습니다. 처리 시간과 메모리가 더 많이 필요하며, 실제 데이터와 합성 데이터의 통합을 관리하는 작업이 복잡할 수 있습니다.
합성 데이터에는 증강 데이터의 개념과 어느 정도 비슷한 점이 있지만 몇 가지 중요한 차이점도 존재합니다.
증강 데이터는 기존의 실제 데이터 세트를 보완하거나 강화하는 것입니다. 이 방법은 이미지 데이터를 회전시키거나 더 밝게 만드는 것처럼 새로운 데이터를 생성하지 않은 상태로 데이터 세트를 확장시킵니다. 이는 실제 데이터를 추가로 수집하지 않고도 AI 학습을 개선하는 데 유용합니다. 하지만 개인 정보 보호 문제나 데이터 편향 문제를 실질적으로 해결하지 못하며, 여전히 상당한 양의 실제 데이터가 필요합니다.
반면 익명 처리 데이터는 실제 데이터 세트에서 개인 정보를 제거하거나 난독화하여 개인 정보를 보호합니다. 이는 규제 요구 사항을 충족하고 개인 정보 위험을 줄이는 데 도움이 되지만, 여전히 근본적인 편견이 유지될 수 있으며 민감한 정보를 완전히 제거하지 못할 수 있습니다.
이와 같이 다른 접근법과 달리, 합성 데이터는 실제 데이터 포인트를 사용하지 않고 전적으로 실제 데이터의 통계적 속성을 모방하는 알고리즘에 의해 생성됩니다. 이와 같은 접근 방식은 개인 정보를 더욱 완전하게 보호하며, 구체적인 요구에 맞춰 편향 없는 데이터 세트를 다양하게 생성할 수 있습니다. 그 결과 합성 데이터는 현재 AI 학습을 위한 가장 실용적이고 윤리적인 솔루션으로 활용되고 있습니다.
특정 실제 소스에 연결하지 않으면서도 실제 데이터의 속성에 부합하는 데이터를 사용할 경우 많은 이점이 있습니다. 가장 주목할 만한 비즈니스 이점은 다음과 같습니다.
합성 데이터는 오류가 없고 일관적이도록 만들어집니다. 합성 데이터는 실제 데이터에서 발견되는 부정확성과 불일치를 제거하여 고품질의 입력을 보장하므로 AI 모델의 정확도가 높아집니다.
데이터를 합성하면 개인 정보 유출과 관련된 위험이 제거됩니다. 개인 정보 보호 규정을 준수하며 데이터 유출 위험을 줄여줍니다.
합성 데이터는 매우 빠른 속도로 대량의 데이터를 생성할 수 있습니다. 조직에서는 이러한 확장성 덕분에 데이터 제한이라는 제약 없이 모델을 지속적으로 개선하고 최적화할 수 있습니다.
합성 데이터를 생성하는 것이 실제 데이터를 수집하고 레이블을 지정하는 것보다 더 저렴한 경우가 많습니다. 따라서 빠듯한 예산 한도 내에서 AI를 최적화하려는 조직에 매력적인 옵션이 될 수 있습니다.
실제 데이터에 내재된 편향을 해결하고 완화하기 위해 합성 데이터를 생성할 수 있습니다. 이러한 방식은 다양한 인구집단과 시나리오에서 보다 공정하게 작동하는 인공지능 시스템을 개발하는 데 도움이 됩니다.
합성 데이터는 특정 요구 사항에 맞춤화하여 원하는 용도에 따라 적절하고 정확하게 사용할 수 있습니다. 커스터마이제이션 기능을 사용하면 특정 AI 모델의 요구 사항에 정확히 부합하는 데이터를 생성할 수 있습니다.
사용자는 데이터 세트가 특정 요구 사항을 충족하도록 데이터 생성 매개변수를 지시할 수 있습니다. 이렇게 하면 기업은 자사의 AI 모델의 요구 사항에 맞는 데이터를 생성하여 보다 효과적이고 타겟팅된 솔루션을 만들 수 있습니다.
합성 데이터에는 고유한 라벨이 포함되어 있어 수동으로 주석을 달 필요가 줄어듭니다. 라벨링 자동화는 데이터 준비 프로세스의 속도를 높이고 인건비를 줄여줍니다.
합성 데이터는 기존 데이터 수집 방법에 비해 훨씬 빠르게 생성될 수 있습니다. AI 모델의 개발과 배포가 빠르게 진행되면 기업은 완전히 학습된 AI 솔루션을 더 빠르게 업무에 활용할 수 있습니다.
위에 나열된 이점 외에도 합성 데이터는 ML(머신 러닝) 모델에 특별한 장점을 제공합니다. AI에 대한 다양한 접근 방식 중에서도 머신 러닝은 특히 대량의 학습 데이터에 의존하는데, 이러한 데이터를 합성으로 생성하면 더 빠르고 저렴하게 제공할 수 있습니다.
특히 전이 학습을 통해 ML 모델을 미리 학습시키는 데 필요한 데이터 저장소를 개발할 때에도 합성 데이터는 중요합니다. 여기에는 다른 관련 작업을 위해 학습 데이터를 재활용하는 작업이 포함됩니다. 새로운 ML 모델의 경우, 전이 학습을 활용해 미리 학습한 다음 추가적인 합성 데이터를 통합해 프로세스를 미세 조정하면 처음부터 시작하는 것보다 더 빠르게 시작할 수 있습니다.
합성 데이터에는 다양한 이점이 있지만 몇 가지 문제도 있습니다. 합성 데이터에서 최상의 결과를 얻으려면 다음과 같은 장애물과 이를 없애 방법을 잘 알고 있어야 합니다.
합성 데이터가 실제 조건을 정확하게 반영하는지 확인하는 것은 쉽지 않습니다. 생성된 데이터의 신뢰성이 떨어지는 경우 모델 성능이 저하되고 예측이 부정확해질 수 있습니다. 조직은 고급 생성 모델을 사용하고 합성 데이터를 실제 데이터 세트에 대해 지속적으로 검증하여 신뢰성을 향상시켜야 합니다.
합성 데이터는 조직이나 생성형 모델이 생각하는 데이터를 표현한 것이므로 흔하지 않은 이벤트나 이상값을 효과적으로 포착하지 못할 수 있습니다. 이러한 이상값은 특히 사기 탐지와 같은 분야에서 효과적인 모델을 학습시키는 데 매우 중요합니다. 이상값을 모델링하고 포함시키는 기술을 구현하면 합성 데이터 세트에 이러한 이상치를 적절하게 반영할 수 있습니다.
양질의 합성 데이터를 생성하려면 상당한 전문 지식, 시간 및 노력이 필요합니다. 사실적인 데이터를 생성하는 알고리즘을 개발하려면 깊이 있는 이해와 신중한 튜닝이 필요하며 여기에는 리소스가 많이 필요할 수 있습니다. 이러한 요구 사항을 충족하는 리소스가 없는 조직도 있을 수 있습니다. 이러한 문제를 해결하려면 데이터 과학자 교육에 투자하고, 데이터 생성 프로세스를 간소화하는 데 도움이 되는 자동화된 도구를 사용해야 합니다.
실제 데이터에 더 익숙한 이해 관계자들은 합성 데이터를 사용하는 데 저항할 수 있습니다. 합성 데이터의 유효성과 유용성을 사용자에게 설득하려면 교육을 진행하고 이점을 분명하게 보여줘야 합니다.
합성 데이터의 품질과 일관성을 유지하는 것이 중요합니다. 정기적인 감사, 피드백 루프 등 철저한 품질 보증 프로세스를 구현하면 기업의 데이터가 필수 표준을 충족하는 데 도움이 될 수 있습니다.
합성 데이터는 다양한 형식으로 사용될 수 있으며, 각 형식은 머신 러닝 및 AI 개발의 다양한 용도와 요구사항을 지원합니다. 예를 들면 다음과 같습니다.
여기에는 AI 챗봇, 언어 모델 및 번역 알고리즘 학습에 사용되는 합성 생성 텍스트가 포함됩니다. 개발자는 인공 대화와 문서를 만들어서 NLP(자연어 처리) 역량을 향상시킬 수 있습니다.
이러한 유형의 합성 데이터는 데이터 분석, 재무 모델링, 머신 러닝 학습에 사용되는 합성 데이터 테이블로 구성됩니다. 실제 테이블 형식인 데이터세트의 구조와 통계 특성을 복제하므로 예측 모델링 및 위험 평가에 유용합니다.
미디어 데이터에는 컴퓨터 그래픽 및 이미지 처리 알고리즘을 사용하여 생성된 합성 이미지, 오디오 및 비디오가 포함됩니다. 컴퓨터 비전, 이미지 인식, 자율 시스템 학습 등의 응용 분야에 널리 사용됩니다.
비정형 데이터는 사전 정의된 형식을 따르지 않는 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 포함합니다. 비정형 합성 데이터는 컴퓨터 비전, 음성 인식, 자연어 이해 등의 분야에서 AI 모델을 학습시키는 데 특히 유용하며, 이 경우 시스템에서는 임의인 것으로 보이는 데이터 세트에서 패턴을 찾을 수 있을 것으로 기대됩니다.
합성 데이터는 이미 전 세계 산업 전반에서 사용되고 있으며 다양한 AI 학습 문제에 대한 해결책을 제시하고 있습니다. 다음은 가장 영향력 있는 합성 데이터 활용 사례 중 일부입니다.
합성 데이터를 사용하면 의료 진단, 연구, 치료 계획 분야에서 AI 모델을 학습시키기 위한 대규모 데이터 세트를 생성할 수 있을 뿐만 아니라 실제 환자의 기밀을 보호할 수도 있습니다.
인공 데이터 세트를 사용하면 개인 정보를 보호하는 동시에 데이터 기반 인사이트를 얻을 수 있습니다. 그 결과, 조직에서 데이터 개인정보 보호 법률, 규정 및 정책을 준수하기가 보다 용이해집니다.
은행 및 기타 금융 기관에서는 사기 탐지, 위험 관리 및 신용 위험 모델 개발에 합성 데이터를 사용합니다.
합성 데이터는 자율 주행 차량을 시뮬레이션하고 학습시키는 데 사용되며, 실제 테스트에 따르는 위험 부담 없이 다양한 주행 시나리오를 제공하여 안전 및 효율성을 향상시킵니다.
합성 데이터로 학습한 모델은 자연 재해를 시뮬레이션하고 위험이 발생하기 전에 효과적으로 평가할 수 있으므로 재난에 대비하고 완화 전략에 대한 정보를 획득하는 데 도움이 됩니다.
합성 데이터를 사용하면 사실적인 테스트 시나리오를 생성할 수 있기 때문에 소프트웨어 개발자는 실제 프로덕션 데이터를 사용하지 않고도 애플리케이션을 테스트하고 개선할 수 있습니다.
모든 종류의 소매업체에서는 인벤토리 관리를 최적화하고, 고객 행동을 분석하며, 마케팅 전략을 맞춤화하는 데 합성 데이터를 활용하여 타겟팅을 개선합니다. 또한 합성 데이터는 추천 시스템을 개선하고 판매 추세를 예측하는 데도 도움이 됩니다.
작물 성장 패턴, 기상 영향, 해충 감염 등을 시뮬레이션하여 수율 및 자원 관리를 개선하는 방식으로 정밀 농업에 도움을 줍니다. 컴퓨터 비전의 합성 데이터를 활용하면 AI가 성장 모델 및 작물 질병 검출에 사용할 다양한 종류의 식물 및 씨앗을 더 정확하게 식별할 수 있습니다.
합성 데이터는 생산 공정을 시뮬레이션하고, 운영을 최적화하며, 장비 유지관리 요구를 예측하여 효율성을 개선하고, 제조업의 가동 중지 시간을 줄이는 데 사용됩니다.
합성 데이터를 생성하는 과정은 관련된 도구, 알고리즘 및 구체적인 사용 사례에 따라 달라집니다. 합성 데이터를 생성하는 데 흔히 사용되는 세 가지 기술은 다음과 같습니다.
이 방법은 가우스 분포 또는 균등 분포와 같이 사전 정의된 분포에서 임의로 숫자를 선택합니다. 일반적으로 실제 데이터와 복잡성이 동일하지는 않지만, 초기 모델을 테스트하거나 통계 속성이 유사해 간단한 시뮬레이션에 유용한 데이터를 생성하는 기본적인 방법을 제공해 줍니다.
이 기법은 사람, 휴대폰 또는 컴퓨터 프로그램 같은 시스템 내 자율 에이전트 사이의 상호 작용을 시뮬레이션합니다. 각 에이전트는 사전 정의된 규칙을 기반으로 작동하며 다른 에이전트와 상호 작용할 수 있어, 연구원은 이를 통해 복잡한 시스템과 행동에 대해 연구할 수 있습니다.
확산 모델과 같은 고급 알고리즘은 실제 데이터 세트의 통계 속성을 학습하여 합성 데이터를 생성합니다. 이러한 모델은 실제 데이터를 학습하여 패턴과 관계를 이해하므로 유사한 새 데이터를 생성할 수 있습니다. 확산 모델은 고품질의 사실적인 합성 데이터세트를 생성하는 데 매우 효과적이며, AI 모델을 학습시키고 테스트하는 데 유용합니다."
AI 학습 데이터와 관련해서는 "실제"가 항상 최선의 옵션인 것은 아닙니다. 합성 데이터는 민감한 세부 정보를 제외한 실제 데이터 포인트의 속성을 반영하면서 동시에 확장성, 데이터 품질, 편향 감소 및 비용 효율성을 개선해 줍니다. 이는 고급 AI 역량을 활용하고자 하는 기업에게 매우 중요한 자산입니다.
ServiceNow는 강력한 Now Platform®을 통해 종합적인 AI 역량 제품군을 제공하며 AI 솔루션을 비즈니스 요구에 적용하는 최전선에 있습니다. ServiceNow는 조직이 보다 지능적이고 자율적인 비즈니스 접근 방식을 취할 수 있도록 머신 러닝 프레임워크, 자연어 처리, 예측 분석 등의 최신 AI 기술을 통합합니다. 또한 Now Assist 애플리케이션을 통해 ServiceNow의 포괄적인 생성형 AI 역량을 사용하면 AI 시스템을 안내할 데이터를 생성하는 데 필요한 모든 것을 갖추게 됩니다. 지금 ServiceNow 데모를 시청하고 더 자세히 알아보세요.