한국 차등 프라이버시 도입, 공공통계와 보건의료 데이터부터 봐야 합니다

한국에서 차등 프라이버시를 어디부터 적용해야 하는지, 공공통계와 보건의료 데이터의 재식별 위험·개방 압력·거버넌스 설계를 쉽게 풉니다.

정현진(Hyunjin Jeong) · 2026-06-12 · 8분 분량

‘차등 프라이버시를 한국 공공데이터에 도입하자.’

말은 쉽습니다. 그런데 실제 현장에서는 곧바로 질문이 바뀝니다.

‘좋다. 그런데 어디부터?’

통계청, 건강보험공단, 심평원, 국세청, 교육부 데이터를 한 번에 다 바꿀 수는 없습니다. 예산도, 인력도, 사회적 합의도 순서대로 움직입니다.

그래서 첫 질문은 도입 여부가 아니라 우선순위여야 합니다.

한 줄 요약: 한국에서 차등 프라이버시를 먼저 적용할 곳은 재식별 위험이 크고, 동시에 외부 공개 압력이 큰 데이터입니다. 이 기준으로 보면 1순위는 통계청 인구주택총조사형 소지역 통계와 건보공단·심평원 보건의료 데이터입니다. 현행 가명정보 제도는 절차적 보호를 제공하지만, 공개 결과에 ε 같은 정량 상한을 붙이지는 않습니다. 따라서 집계·히스토그램 공개부터 형식적 차등 프라이버시를 붙이고, ε 또는 ρ 예산은 정책 기구가 공개적으로 정해야 합니다.

어디부터 볼 것인가: 위험과 개방 압력

우선순위는 두 축으로 보면 됩니다.

첫 번째 축은 재식별 위험입니다.

같은 통계라도 사람이 적고, 지역이 좁고, 속성이 드물수록 특정 개인을 알아내기 쉬워집니다.

1만 명이 사는 동네에서 ‘30대 남성 1명’은 묻힙니다. 하지만 50명이 사는 마을에서 ‘심장질환을 앓는 30대 남성 1명’은 거의 이름표를 단 것과 비슷합니다.

두 번째 축은 데이터 개방 압력입니다.

통계표, 마이크로데이터, API, 결합데이터 형태로 외부에 많이 나갈수록 맞춰 볼 단서도 늘어납니다.

여기서 흔한 오해가 있습니다.

‘원자료가 아니라 집계표만 내보내면 안전하지 않나?’

안전하다고 단정할 수 없습니다. 미국 인구조사국은 2020 센서스에서 전통적 비식별 기법을 넘어 형식적 차등 프라이버시로 전환했습니다. 이유 중 하나가 집계표 자체의 취약성이었습니다. 충분히 많은 집계표가 공개되면 마이크로데이터 재구성 공격으로 개인 기록을 복원할 수 있다는 문제입니다.¹

NIST SP 800-226도 충분히 많은 통계를 공표하면 정확한 재구성 공격이 가능하다는 수학적 결과를 소개합니다.²

재구성 공격은 공개된 통계 여러 개를 퍼즐처럼 맞춰 원본 데이터를 되살리는 공격입니다. 표 한두 개만 보면 안전해 보여도, 표가 쌓이면 서로를 검산하는 힌트가 됩니다.

형식적 차등 프라이버시는 이 지점에서 필요합니다. 특정 공격자 하나가 아니라 보조정보를 가진 공격자까지 가정하고, 공개 결과로 얻을 수 있는 정보량에 상한을 둡니다.²

따라서 우선순위는 이렇게 잡아야 합니다.

재식별 위험이 크고, 외부 공개 압력도 큰 데이터부터 형식 보장이 필요합니다.

이미 운영된 사례가 있습니다

차등 프라이버시는 연구실 안의 개념으로만 남아 있지 않습니다. 이미 공공통계, 모바일 단말, 운영체제 텔레메트리, 산업 분석 API에서 운영된 사례가 있습니다.

가장 큰 공공 사례는 미국 인구조사국입니다. 2020 센서스 TopDown 알고리즘은 zCDP라는 회계 방식을 사용했고, 최종 생산 설정의 총예산 ρ=2.63을 공개했습니다.¹

Apple은 iOS와 macOS에서 로컬 차등 프라이버시를 적용했습니다. 데이터가 서버로 가기 전에 사용자 기기 안에서 먼저 노이즈를 섞는 방식입니다.

다만 운영의 진짜 쟁점은 단발 ε이 아니라 누적 손실입니다. 한 분석에 따르면 Apple 구현에서 서버로 제출되는 데이터 한 건당 손실은 ε=1 또는 2였지만, 초기 네 기능을 합치면 하루 전체 손실이 최대 16까지 올라갈 수 있었습니다.³

Microsoft는 수백만 대 규모의 기기 텔레메트리 수집을 위해 차등 프라이버시 메커니즘을 배포했다고 설명했습니다.⁴

LinkedIn은 회원 데이터를 보호하면서 마케팅 분석을 제공하기 위해 Audience Engagements API를 운영했고, 프라이버시 예산을 추적·강제하는 예산 관리 서비스를 함께 뒀습니다.⁵

Google의 RAPPOR도 최종 사용자 클라이언트 소프트웨어에서 통계를 익명으로 수집하기 위한 로컬 차등 프라이버시 기술로 공개됐습니다.⁶

사례	분야	핵심 포인트
미국 인구조사국 2020	공공 전수 통계	총예산 ρ와 계층별 배분 공개
Apple	모바일 단말 입력	하루 단위 누적 손실 관리가 쟁점
Microsoft	OS 텔레메트리	수백만 대 규모 배포
LinkedIn	산업 분석 API	예산 관리 서비스로 질의 통제

한국이 새 원리를 발명해야 하는 것은 아닙니다. 통계청이나 심평원처럼 신뢰된 기관이 데이터를 보유하고 통계표를 공표하는 구조라면, 공표 단계에 중앙 차등 프라이버시를 붙이는 설계가 자연스럽습니다.

한국의 1순위는 두 곳입니다

위 기준을 한국 데이터 지형에 대입하면 1순위가 꽤 또렷합니다.

첫째는 통계청 인구주택총조사입니다.

통계청 마이크로데이터 통합서비스(MDIS)는 공공용 마이크로데이터(미시자료)를 이용자 PC로 직접 내려받을 수 있게 제공합니다.⁷

인구주택총조사는 전수 성격이 강하고 소지역 통계와 연결됩니다. 작은 지역, 희소 속성, 전수성은 재식별 위험을 키웁니다. 여기에 마이크로데이터 개방 압력까지 붙으면 우선순위가 높아집니다.

둘째는 건강보험심사평가원과 건강보험공단의 보건의료 빅데이터입니다.

심평원 보건의료빅데이터개방시스템은 의료통계정보, 공공데이터, 맞춤형 데이터, 데이터결합서비스 등을 제공합니다.⁸

건강정보는 민감정보입니다. 동시에 연구·정책·산업 수요가 큽니다. 심평원은 공공데이터 제공 제도 설명에서 누구나 이용 가능하고 영리 목적을 포함한 자유로운 활용이 보장된다고 안내합니다.⁸

민감도와 개방 압력이 한 지점에서 만납니다. 차등 프라이버시의 1순위 후보가 되는 이유입니다.

가명정보 제도와 역할이 다릅니다

여기서 자연스러운 반문이 나옵니다.

‘이미 가명정보 제도가 있는데 왜 또 차등 프라이버시가 필요한가?’

가명정보 제도가 필요 없다는 뜻이 아닙니다. 역할이 다릅니다.

개인정보 보호법상 가명정보는 원래 상태로 복원하기 위한 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보입니다.⁹ 이름이나 주민번호 같은 직접 식별자를 분리하고, 추가정보를 따로 통제하는 절차적 보호입니다.

기관 간 가명정보 결합도 개인정보 보호법 제28조의3에 따라 통계작성, 과학적 연구, 공익적 기록보존 등을 위해 지정 결합전문기관에서 수행해야 합니다.⁹

개인정보보호위원회가 게시한 가명정보 처리 가이드라인도 2026년 3월 개정본을 기준으로 가명처리 절차와 적정성 검토를 다룹니다.¹⁰

이 체계의 약점은 공개 결과 자체에 정량적 상한이 없다는 점입니다.

‘이 통계표로 한 사람이 드러날 위험은 최대 ε 이하다.’

이런 숫자가 붙지 않습니다.

가명정보는 열쇠를 따로 보관하는 제도에 가깝습니다. 차등 프라이버시는 밖으로 나가는 통계 결과물에 정보 누출 상한을 붙이는 방식입니다. 둘은 경쟁 관계가 아니라 층이 다릅니다.

시작점은 집계와 히스토그램입니다

처음부터 복잡한 원자료 전체를 바꾸려고 하면 논의가 커집니다. 시작점은 집계·히스토그램 공개가 좋습니다.

예를 들어 어느 읍면동의 ‘30대 여성 인구수’를 공개한다고 해 봅시다. 보호 단위는 개인입니다. 한 사람이 들어오거나 빠지면 이 인구수는 최대 1만 바뀝니다.

여기에 차등 프라이버시 노이즈를 넣으면 ε에 따라 흔들림이 달라집니다.

보호 강도	대략적인 노이즈 흔들림
ε=1	표준편차 약 1.41명
ε=0.1	표준편차 약 14.1명

ε을 낮추면 보호는 강해지지만 노이즈가 커집니다. 작은 읍면동이나 희소 속성에서는 이 차이가 유용성 문제로 이어질 수 있습니다.

다만 정수값에 연속 라플라스 노이즈를 컴퓨터에서 순진하게 구현하면 문제가 생길 수 있습니다. 부동소수점으로 구현된 라플라스 노이즈는 작은 수치적 흔적이 원본 값을 드러내는 공격으로 이어질 수 있습니다.¹¹

그래서 정수값에는 이산 가우시안 같은 이산 메커니즘을 검토하는 편이 안전합니다. 이산 가우시안은 저민감도 정수 쿼리에 적합한 선택입니다.¹¹

2020 센서스 TopDown 알고리즘도 초기 geometric 메커니즘에서 최종적으로 이산 가우시안으로 옮겨 갔습니다. 꼬리 확률이 더 작아 최악 오차를 줄이는 데 유리했기 때문입니다.¹

한국 공표통계 설계는 이렇게 시작할 수 있습니다.

보호 단위를 개인으로 명시합니다.
정수값에는 이산 메커니즘을 우선 검토합니다.
연령·성·지역 표에 ε 또는 ρ 예산을 명시적으로 배분합니다.
시·도 총인구처럼 반드시 정확해야 하는 핵심 공표값은 불변값으로 둘지 정책적으로 결정합니다.

ε은 기술자가 몰래 정할 숫자가 아닙니다

기술 설계의 마지막 질문은 결국 이것입니다.

‘ε 또는 ρ를 누가 정하나?’

NIST SP 800-226은 ε 선택에 단일 정답이 없고, 데이터 민감도와 운영 목표, 맥락에 따라 달라진다고 설명합니다.²

그러므로 ε은 개발자가 기본값처럼 조용히 넣을 숫자가 아닙니다. 얼마의 프라이버시를 내주고 얼마의 정확도를 살 것인지 정하는 정책 선택입니다.

미국 센서스도 이 점을 제도로 분명히 했습니다. TopDown 알고리즘의 전역 프라이버시 손실 파라미터와 쿼리 배분은 인구조사국의 Data Stewardship Executive Policy Committee가 설정하도록 설계됐습니다.¹

무엇을 불변값으로 둘지도 정책 결정입니다. 미국 인구조사국은 불변값(invariant)을 정책상 프라이버시 손실 회계에서 제외하기로 한 통계로 설명합니다.¹²

NIST는 프라이버시 파라미터 공개도 권고합니다. 파라미터를 공개하면 신뢰와 책무성이 생기며, 공개 자체가 추가 프라이버시 위험을 만들지 않는다는 취지입니다.²

한국에 옮기면 역할 분담이 보입니다.

결합전문기관 체계는 기관 간 결합과 반출심사를 맡습니다.
형식적 차등 프라이버시 공개 채널은 집계·히스토그램 공표물의 정량 보장을 맡습니다.
ε 또는 ρ 총량은 개인정보보호위원회, 통계청 같은 정책 기구가 공개적으로 정하고 문서화해야 합니다.

세 가지 반론에 답합니다

반론 1: ‘소지역 통계가 쓸모없어지는 것 아닌가?’

우려는 타당합니다. ε=0.1이면 노이즈의 표준편차가 약 14.1명입니다. 인구가 아주 작은 셀에서는 유용성이 크게 떨어질 수 있습니다.

하지만 이것은 ‘차등 프라이버시라서 전부 망한다’가 아니라 예산 배분 문제입니다. 2020 센서스 TopDown 알고리즘은 목적에 따라 낮은 지리 수준이나 더 집계된 지리에 예산을 다르게 배분합니다.¹

또 일부 핵심 공표값은 불변값으로 정확히 보존할 수 있습니다. 2020 센서스에서 주 총인구는 대표적인 invariant로 다뤄졌습니다.¹

진짜 선택지는 ‘DP 대 완벽한 정확도’가 아닙니다. ‘노이즈가 있는 정량 보장’과 ‘정량 보장 없는 공개’ 사이의 선택입니다.

반론 2: ‘ε 합의는 정치적이라 불가능하다.’

ε 합의가 정치적이라는 말은 맞습니다. 하지만 그래서 더 공개적으로 정해야 합니다. 예산안이 정치적이라고 비밀로 처리하지 않는 것과 같습니다.

NIST가 파라미터 공개를 신뢰와 책무성의 조건으로 보는 이유도 여기에 있습니다.² 기술자가 안쪽에서 숫자를 정하고 ‘안전합니다’라고 말하는 구조로는 사회적 신뢰를 얻기 어렵습니다.

반론 3: ‘가명정보와 비식별화로 충분하다.’

가명정보 제도는 중요합니다. 하지만 충분조건은 아닙니다.

NIST는 1997년 연구자들이 성별, 우편번호, 생년월일 조합으로 비식별 의료기록 속 매사추세츠 주지사를 재식별한 사례를 소개합니다. 같은 세 요소로 미국 인구의 87%가 유일하게 식별될 수 있다는 결과도 함께 언급합니다.²

이름을 지워도 희소한 속성 조합이 남으면 사람은 다시 드러납니다. 집계표도 충분히 쌓이면 재구성 공격의 재료가 됩니다. 절차적·정성적 보호만으로는 이 위험에 답하기 어렵습니다.

결론: 전면 도입보다 1순위 공개물부터

한국은 차등 프라이버시를 모든 공공데이터에 한꺼번에 입히려 할 필요가 없습니다. 그렇게 하면 논의만 커지고 실행은 늦어집니다.

먼저 할 일은 분명합니다.

재식별 위험과 개방 압력이 큰 영역을 고릅니다.
인구주택총조사형 소지역 통계와 보건의료 빅데이터의 집계·히스토그램 공개부터 시작합니다.
보호 단위, 이웃 모델, ε 또는 ρ 총예산, 합성 회계, 불변값을 문서화합니다.
정책 기구가 파라미터를 정하고 공개하며, 구현은 감사 가능한 형태로 운영합니다.

차등 프라이버시는 데이터를 덜 쓰자는 말이 아닙니다. 데이터를 더 오래, 더 넓게 쓰기 위해 누가 얼마의 위험을 부담하는지 숫자로 말하자는 제안입니다. 한국 공공데이터에서 그 첫 시험대는 공공통계와 보건의료 데이터입니다.

참고 문헌

Abowd, J. M., Ashmead, R., Cumings-Menon, R., Garfinkel, S., et al. — The 2020 Census Disclosure Avoidance System TopDown Algorithm, 2022. https://arxiv.org/abs/2204.08986 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Near, J., Darais, D., Lefkovitz, N., Howarth, G. — Guidelines for Evaluating Differential Privacy Guarantees (NIST SP 800-226), 2025. https://csrc.nist.gov/pubs/sp/800/226/final ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Tang, J., Korolova, A., Bai, X., Wang, X., Wang, X. — Privacy Loss in Apple's Implementation of Differential Privacy on MacOS 10.12, 2017. https://arxiv.org/abs/1709.02753 ↩
Ding, B., Kulkarni, J., Yekhanin, S. — Collecting Telemetry Data Privately, NeurIPS 2017. https://arxiv.org/abs/1712.01524 ↩
Rogers, R., Subramaniam, S., Peng, S., Durfee, D., et al. — LinkedIn's Audience Engagements API: A Privacy Preserving Data Analytics System at Scale, 2020. https://arxiv.org/abs/2002.05839 ↩
Erlingsson, Ú., Pihur, V., Korolova, A. — RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response, ACM CCS 2014. https://arxiv.org/abs/1407.6981 ↩
통계청(KOSTAT) — 마이크로데이터 통합서비스(MDIS). https://mdis.kostat.go.kr/index.do ↩
건강보험심사평가원(HIRA) — 보건의료빅데이터개방시스템 및 공공데이터 제공 제도. https://opendata.hira.or.kr/home.do, https://www.hira.or.kr/dummy.do?pgmid=HIRAA070001000430 ↩ ↩²
개인정보보호위원회(PIPC) — 가명처리·가명정보 결합제도 안내 (개인정보 보호법 제2조·제28조의3). https://www.pipc.go.kr/np/default/page.do?mCode=D040010000 ↩ ↩²
개인정보보호위원회(PIPC) — 가명정보 처리 가이드라인(2026.3. 개정). https://www.pipc.go.kr/np/cop/bbs/selectBoardArticle.do?bbsId=BS217&mCode=D010030000&nttId=11931 ↩
Canonne, C. L., Kamath, G., Steinke, T. — The Discrete Gaussian for Differential Privacy, NeurIPS 2020. https://arxiv.org/abs/2004.00010 ↩ ↩²
U.S. Census Bureau — The 2020 Census Disclosure Avoidance System TopDown Algorithm (CED-WP-2022-002), 2022. https://www.census.gov/library/working-papers/2022/adrm/CED-WP-2022-002.html ↩