챗GPT에 “오늘 점심 뭐 먹을까”라고 물으면 꽤 그럴싸한 답이 돌아온다. 웃긴 건, 이 AI가 실제로 밥을 먹어본 적은 없다는 거다. 그러면서도 어떻게 저렇게 자연스럽게 대화를 나누는 걸까. 답은 간단하다. 학습 데이터. AI의 지능이라고 부르는 것, 그 대부분은 데이터에서 온다.
AI의 ‘교과서’ — 학습 데이터가 뭔지부터
AI 학습 데이터는 AI 모델이 특정 작업을 수행하도록 훈련시키는 모든 종류의 정보다. 사람으로 치면 교과서이자 경험치. 단, 그 범위가 넓다. 굉장히.
- 이미지·영상 데이터: 자율주행차가 신호등을 인식하고, 의료 AI가 CT 사진에서 암세포를 찾아낸다. 수천만 장의 고양이 사진을 보여줘야 AI가 비로소 ‘고양이’를 안다.
- 텍스트 데이터: 챗봇, 번역기, 스팸 필터의 주재료다. 인터넷 웹페이지, 책, 대화 기록이 모두 여기 들어간다. 챗GPT가 이렇게 말이 많은 이유도 여기 있다.
- 음성 데이터: 시리, 빅스비, 알렉사 같은 음성 비서는 수억 시간 분량의 음성을 학습했다. 사투리, 억양, 잡음 속 목소리까지 다 필요하다.
- 수치형 데이터: 주가 예측, 신용 점수, 질병 진단. 숫자에서 패턴을 찾아내는 분야다.
그런데 데이터를 그냥 쌓아두는 게 아니다. 라벨링(Labeling)이라는 가공 작업이 필요하다. 고양이 사진 100만 장에 일일이 “이게 고양이야”라고 표시해주는 작업. 지루하고 느리고 비싸다. 그런데 이게 AI 품질을 결정한다. 라벨이 틀리면 AI도 틀린 답을 낸다.
왜 이렇게 데이터가 많이 필요한가
AI가 ‘일반화 능력’을 갖추려면 데이터의 양과 질이 동시에 받쳐줘야 한다. 일반화 능력이란, 본 적 없는 새 상황에서도 제대로 판단하는 능력이다.
- 정확도 향상: 데이터가 많을수록 패턴 인식이 정교해진다. 수능 문제집 1권만 푼 학생과 100권 푼 학생의 차이랑 비슷하다.
- 편향 감소: 이게 진짜 문제다. 특정 인종 데이터만 넣으면 AI는 다른 인종 얼굴을 못 알아본다. 초기 안면인식 AI들이 실제로 이 문제로 논란이 됐다. 데이터가 한쪽으로 치우치면 편향은 피할 수 없다.
- 판단력 강화: 자율주행이나 의료 진단 같은 고위험 영역에서는 틀리면 사람이 다친다. 데이터의 다양성이 곧 안전이다.
양도 양이지만 ‘품질’이 결정적이다. “Garbage In, Garbage Out” — 쓰레기 데이터를 넣으면 쓰레기 AI가 나온다. 잘못 라벨링된 데이터 1%가 모델 전체를 망가뜨릴 수도 있다.
데이터는 어디서, 어떻게 모을까
생각보다 방법이 다양하다. 그리고 일부는 좀 불편하다.
- 공개 데이터셋·크라우드소싱: 정부나 연구기관이 공개한 데이터셋, 그리고 아마존 메카니컬 터크(Mechanical Turk)처럼 일반인에게 소액을 주고 라벨링을 맡기는 방식. 저렴하고 빠르지만 품질 관리가 쉽지 않다.
- 센서·IoT 기기: 자율주행차 카메라, 라이다, 스마트홈 기기, 웨어러블. 사용자가 기기를 쓰는 동안 데이터가 자동으로 쌓인다.
- 기업 내부 데이터: 플랫폼 기업들은 사용자 행동 로그, 구매 기록, 검색 기록을 학습에 활용한다. 구글이나 아마존이 AI 경쟁에서 유리한 이유가 여기 있다.
- 실제 환경 직접 수집: 최근 로봇 AI 업계에서 늘고 있는 방식이다. 사람의 실제 행동과 환경을 직접 촬영해서 학습 데이터로 활용하는 것. Ars Technica 보도를 보면, 한 스타트업은 무료 청소 서비스를 제공하는 대신 집 내부를 카메라로 촬영해 로봇 학습 데이터로 활용한다. 인명 구조 로봇 훈련을 위해 사람이 위험한 상황을 일부러 연출하고 촬영하는 경우도 있다. 현실적이고 효과적이다. 그런데 여기서 개인 프라이버시 문제가 터진다.
집 안에서 촬영된 데이터가 어디까지 가는지, 누가 보는지, 얼마나 오래 저장되는지. 이게 불투명하면 문제다.
무료 청소의 진짜 대가
공짜 청소에 카메라가 따라온다면 어떻게 할 것인가. 현실에서 이미 일어나고 있는 일이다.
로봇 청소기가 집 구조를 정확히 파악하려면 실제 집 데이터가 수천 건 필요하다. 정제된 3D 모델로는 한계가 있다. 그래서 일부 기업들은 유무형의 혜택을 제공하고 실제 환경 데이터를 받아간다. 이걸 단순히 “데이터 수집”이라고 부르기엔, 그 안에 담긴 정보가 너무 많다.
- 프라이버시 노출: 청소 경로만 수집하는 게 아니다. 집 구조, 가구 배치, 거주자 동선, 소지품 정보까지 담길 수 있다. 이걸 “학습 데이터”라는 이름으로 들고 가는 셈이다.
- 유출·오용 위험: 수집된 민감한 영상이 해킹되거나 내부에서 잘못 관리되면 피해가 크다. 누가 이 데이터를 보는지, 어디에 저장되는지 투명하게 공개하는 기업이 얼마나 될지 의문이다.
- 정보 비대칭: 동의서에 사인은 했는데, 정확히 뭘 동의한 건지 모르는 경우가 태반이다. 약관 30페이지를 끝까지 읽는 사람은 없다.
기술의 발전과 개인의 기본권. 이 둘이 충돌하는 지점이 바로 여기다.
데이터 윤리, 그냥 넘기면 안 되는 이유
AI 학습 데이터 수집에서 윤리 문제는 선택 사항이 아니다. 기준을 세우지 않으면 피해는 결국 사람에게 간다.
- 투명한 동의: “약관에 포함됨”으로 끝내는 게 아니라, 어떤 데이터를 왜 수집하는지 알기 쉽게 설명해야 한다. 진짜 동의를 받아야 한다는 의미다.
- 익명화·비식별화: 얼굴 모자이크, 음성 변조, 위치 정보 제거. 이런 기술을 적극적으로 써야 한다.
- 보존 기간 제한: 목적이 달성되면 지워야 한다. 영구 보존은 곧 잠재적 위험이다.
- 접근 제한: 데이터를 볼 수 있는 사람을 최소화하고, 보안 시스템으로 외부 유출을 막아야 한다.
- 법규 준수: GDPR(유럽 개인정보보호규정)을 비롯해 각국의 개인정보 보호법을 지키는 건 기본이다.
기술이 빠르면 법이 따라오지 못한다. 그 공백을 기업 윤리가 메워야 하는데, 솔직히 그게 잘 되고 있는지는 모르겠다.
다음 수순은 — 합성 데이터와 연합 학습
프라이버시 문제를 피하면서 AI를 학습시킬 방법. 업계는 두 가지를 주목하고 있다.
- 합성 데이터(Synthetic Data): 실제 데이터 대신 AI가 만들어낸 가상의 데이터로 학습시키는 방식이다. 개인정보 침해 위험 없이 다양한 시나리오를 테스트하는 게 가능하다. 아직 실제 데이터를 100% 대체하긴 어렵지만, 보조 수단으로는 충분히 효과적이다.
- 연합 학습(Federated Learning): 데이터를 중앙 서버로 보내지 않고, 각자의 기기에서 학습한 뒤 결과(모델 가중치)만 올리는 방식이다. 구글이 스마트폰 키보드 예측 기능을 개선할 때 이 방법을 쓴다. 원본 데이터는 기기 밖으로 나가지 않는다.
- 윤리 규범 강화: 기술만으로는 해결이 안 된다. 개발자, 정책 입안자, 시민 사회가 함께 기준을 만들어야 한다. 느리고 복잡한 과정이지만, 그게 없으면 AI는 개인의 삶을 침범하는 도구로 전락한다.
AI는 더 나은 세상을 만들 수 있다. 단, 그 재료가 되는 데이터가 올바르게 수집되고 관리될 때 한정이다. 공짜로 청소해주겠다는 제안 앞에서, 한 번쯤 물어볼 필요가 있다. 이 카메라는 어디까지 보는 건지.
출처: Ars Technica
