모르는 번호가 떴다. 받았더니 내 직업을 콕 집어 묻는다. 어색한 건 그게 단순한 스팸처럼 느껴지지 않았다는 점이다. 비슷한 경험이 늘고 있다. 최근 해외에서 AI 챗봇이 실제 개인의 전화번호를 그대로 내뱉는 사례가 보고됐고, MIT 테크 리뷰가 2026년 5월에 이 문제를 직접 다뤘다. 더 이상 남의 얘기가 아니다. AI 챗봇 개인정보 유출 — 어떻게 정보가 새나가는지, 막으려면 뭘 해야 하는지 정리해봤다.
AI는 내 정보를 어디서 배웠나
생성형 AI는 인터넷 전체를 빨아들이다시피 학습한다. 웹 페이지, 커뮤니티 게시판, 소셜 미디어, 뉴스 기사. 여기서 끝이 아니다. 특정 기업의 비공개 데이터까지 포함되는 경우가 있다. 겉으로 익명화된 것처럼 보여도, 데이터 어딘가엔 이름, 주소, 전화번호가 숨어 있을 가능성이 높다.
문제는 규모다.
- 웹 스크래핑된 공개 데이터: 10년 전 블로그 댓글, 폐쇄된 커뮤니티에 남긴 연락처, 오래된 명함 정보 — 이런 것들이 학습 데이터에 담긴다. 내가 지웠다고 사라지는 게 아니다. 한번 인터넷에 올라간 정보는 생각보다 훨씬 오래 살아남는다.
- 데이터셋의 복잡성: 수조 개의 파라미터를 사람이 하나하나 검수하는 건 불가능에 가깝다. 그 틈에서 민감한 정보가 걸러지지 않고 모델 안에 그대로 ‘기억’될 수 있다. 이걸 완벽히 막는 방법은 아직 없다.
단순 버그가 아니다 — AI 개인정보 유출의 실제 구조
여기서 오해하기 쉬운 게 있다. AI가 데이터베이스를 조회해서 정보를 꺼내주는 게 아니다. 챗봇은 학습된 패턴을 바탕으로 ‘가장 그럴듯한 다음 단어’를 예측한다. 그 예측 결과 안에 실제 개인 정보가 섞여 나오는 구조다. 메커니즘이 다르다는 게 핵심이다.
- 데이터 암기(Memorization): 특정 개인 정보가 웹에 여러 번 반복되거나 고유한 형태로 존재하면, AI가 패턴이 아니라 그 내용 자체를 통째로 기억해버린다. 이름과 번호가 세트로 자주 등장했다면 위험도가 올라간다.
- 환각(Hallucination)과 결합: AI가 사실이 아닌 정보를 지어내는 ‘환각’과 섞이면 문제가 복잡해진다. 실제 개인 정보에 허위 내용을 붙여 그럴듯하게 제시하는 경우다. 진짜와 가짜의 경계가 흐려지는 게 더 무섭다.
- 프롬프트 엔지니어링: 악의적인 사용자가 교묘하게 질문을 설계해서 AI 내부에 남은 민감한 정보를 끄집어낼 수도 있다. 이건 막기가 훨씬 어렵다. 기술적인 방어막보다 사람의 의도가 앞서는 경우라서다.
내 정보가 새고 있다는 신호들
개인정보 유출은 대부분 조용히 일어난다. 다음 상황들이 겹친다면 의심해볼 만하다.
- 알 수 없는 번호의 반복적인 연락: 내 직업이나 서비스를 찾는 사람이 나를 콕 집어 연락한다면, AI 챗봇이 내 번호를 추천했을 여지가 있다. 특정 업종이나 서비스와 연관된 연락이라면 더 그렇다.
- 타겟 스팸 및 피싱 증가: 평소와 결이 다른 스팸 메일, 딱 내 상황에 맞춰진 피싱 문자가 늘었다면 내 정보가 특정 목록에 들어갔을 가능성이 있다.
- 온라인 활동의 변화: 내가 올리지 않은 게시물이나, 오래된 콘텐츠가 갑자기 검색되거나 공유될 때도 체크가 필요하다.
실전에서 쓸 수 있는 개인정보 보호법 4가지
완벽한 방어는 없다. 그래도 위험을 줄이는 건 가능하다.
- 온라인 흔적 최소화: 안 쓰는 블로그, 방치된 커뮤니티 계정, 오래된 SNS — 삭제하거나 비공개로 전환한다. 연락처, 주소처럼 민감한 정보가 담긴 게시물은 더 적극적으로 정리해야 한다. 생각보다 오래된 글에 개인 정보가 많이 남아 있다.
- AI 챗봇에 개인 정보 입력 자제: 챗봇에 이름, 회사, 구체적 상황을 굳이 입력할 이유가 없다. 개인 식별 가능한 내용은 빼고 질문하는 습관이 낫다. 챗봇이 기억 기능을 제공한다면 설정에서 꺼두는 것도 방법이다.
- ‘잊힐 권리’ 활용 및 데이터 삭제 요청: AI 개발사나 검색 엔진에 내 정보를 학습 데이터에서 빼달라고, 검색 결과에서 지워달라고 요청할 수 있다. 각 서비스의 개인정보 처리 방침을 확인하면 절차가 나와 있다. 번거롭지만 해볼 만한 조치다.
- 가상 번호·부계정 이메일 사용: 서비스 가입이나 공개 활동에 실제 번호 대신 일회용 또는 가상 번호를 쓴다. 이메일도 마찬가지다. 주 계정과 분리해두면 피해가 번지는 걸 막을 수 있다.
기업이 해야 할 일 — 데이터 거버넌스의 현실
솔직히 개인이 할 수 있는 건 한계가 있다. 결정적으로 AI를 만드는 기업 쪽에서 움직여야 한다.
- 데이터 필터링 강화: 학습 데이터 단계에서 민감한 개인 정보를 걸러내는 기술을 더 정교하게 만들어야 한다. 사후 대응이 아니라 사전 차단이 답이다.
- 모델 투명성 확보: AI가 어떤 정보를 어떻게 학습하고 생성하는지, 기업이 직접 설명할 수 있어야 한다. “모른다”는 건 더 이상 답이 아니다.
- 개인정보 보호 정책 실질화: 데이터 활용 방안을 명확히 공지하고, 삭제 요청에 신속히 대응하는 절차를 실제로 운영해야 한다. 약관에 묻어두는 방식은 이미 통하지 않는다.
내 데이터는 내가 챙겨야 하는 시대
AI 챗봇 개인정보 유출은 기술 문제만이 아니다. 사회적·윤리적 논의가 필요한 영역이다. AI 발전 속도가 너무 빠르다 보니 관련 법규나 가이드라인이 뒤처지는 경우가 허다하다. 기술 개발 주체와 사용자, 정책 입안자가 동시에 움직여야 하는 문제다.
당장 뭔가를 바꾸려면 오늘 안 쓰는 계정 하나 지우는 것부터 시작하면 된다. 내 데이터는 스스로 지켜야 하는 시대다. 그냥 그런 시대가 됐다.
