sungyup's.

understanding_the_digital_world / 데이터 / 4.11 데이터

4.11데이터

데이터가 수집되는 방식들과 프라이버시 유출에 대한 위험성

TL;DR

추억의 쪽지 시험

82. 제타바이트 시대

컴퓨터, 휴대전화, 신용카드로 하는 거의 모든 일은 데이터를 생성한다. 데이터는 수집되고, 분석되고, 영구히 저장되어 우리가 전혀 모르는 조직에 판매되기도 한다. 검색하고, 쇼핑하고, 온라인으로 TV나 영화를 보고, 이메일을 보내고, 통화를 하고, 레딧, 트위터를 하는 등 다양한 활동을 통해 끊임없이 흘러가는 개인 데이터는 모두 수집된다.

2024년 Sandvines의 보고서에 따르면, 전 세계의 하루 인터넷 트래픽은 약 33 Exabyte이다. 1EB(엑사바이트)는 1,024PB(페타바이트)이고, 1PB는 1,000TB(테라바이트)이다. 그리고 1,024EB는 1ZB(제타바이트)인데, 33EB가 1년간 쓰인다면 연간 전 세계의 인터넷 트래픽은 약 12ZB가 된다.

데이터가 더 많을수록 낯선 사람들이 우리에 대해 더 많이 알게 되고, 프라이버시와 보안이 약해진다.

83. 검색 엔진과 타깃 광고

웹 검색은 1995년에 시작되었고, 등장한 지 20년도 되지 않아 아무것도 없는 산업에서 주요 산업이 됐다. 구글은 1998년에 설립되어 2004년에 상장했으며, 2020년 가을 기준으론 시가 총액이 1조 달러에 이르렀다.

검색 엔진은 어떻게 작동할까? 사용자 입장에선 웹페이지의 폼(form)에 쿼리를 입력하고 서버로 보내면 곧바로 링크와 텍스트 조각이 포함된 검색 결과가 화면에 나타난다.

하지만 서버 입장에선 이 짧은 순간에 꽤 복잡한 작업을 수행한다.

1. 크롤링: 웹페이지 정보 수집

사용자가 요청하는 쿼리마다 웹 전체를 새로 검색할 수는 없다. 웹은 너무 크기에 전체를 검색하려면 시간이 너무 오래 걸리기 때문이다.

그래서 검색 엔진은 미리 웹페이지 정보를 수집하고, 이를 구조화된 형태로 서버에 저장하여 쿼리에 답할 준비를 해둔다. 이 과정을 웹 크롤링(web crawling)이라고 부른다. 크롤러는 웹페이지를 순차적으로 방문해 내용을 수집하고, 이 정보를 인덱스(index)라는 구조로 저장한다. 즉, 엄청나게 큰 캐시를 만든다.

검색 엔진의 크롤러는 매일 수많은 웹페이지를 방문한다. 예전에 구글은 인덱스를 구축하기 위해 크롤링하는 페이지 수를 발표하곤 했지만, 페이지 수가 100억 개를 넘어가고는 발표를 중단했다. 웹의 일부는 몇 달, 몇 년 동안 변하지 않는 정적인 페이지지만 뉴스 사이트나 블로그, 트위터 피드 등 상당 부분은 급속히 변하므로 크롤링은 지속적이고 효율적으로 수행되어야 한다.

인덱싱된 정보가 구식이 되지 않도록 하려면 검색 엔진은 쉴 틈이 없다. 하지만, 정적인 사이트나 동적인 사이트나 비슷한 빈도로 찾아갔다간 사이트 트래픽의 부담을 과도하게 늘릴 수도 있고, 이로 인해 차단당할 수도 있다. 때문에 검색 엔진은 변경 빈도에 따라 방문 주기를 조절하는 알고리즘을 사용해 효율을 높인다.

2. 인덱스 구축기: 데이터 정리 및 검색 가능한 목록으로 데이터 보관하기

크롤링된 데이터는 인덱스 구축기(index builder)로 전달된다. 인덱스 구축기는 데이터를 받아 중복되거나 불필요한 데이터를 제거하고 유의미한 단어, 이미지, 링크 등을 정리해 검색 가능한 목록으로 저장한다. 이 목록은 책의 색인(index)와 같이 "어떤 단어가 어떤 페이지의 어느 위치에 있는지"를 알려주는 구조다.

3. 쿼리 응답 만들기

사용자가 검색창에 쿼리를 입력하면, 검색 엔진은 인덱스에서 관련 단어들을 찾아 일치하는 페이지 URL을 빠르게 추출한다. 그리고 이를 관련도 기준으로 정렬해 최상위 몇 개를 사용자에게 보여준다.

관련도가 가장 높거나 정확도가 가장 높은 URL을 선택하는 기법은 회사들의 핵심 기술 자산이라 공개되어 있지 않다. 다만 일반적으로 페이지 신뢰도, 최신성, 사용자 행동 등을 활용한다고 알려져있다.

검색 엔진의 모든 단계의 가장 큰 고민거리는 웹이 너무 크다는 것이다. 수많은 가능한 응답 중에서 가장 잘 일치하는 10개 정도를 수 초만에 빠르게 골라내야 한다. 응답 속도와 정확도는 검색 엔진의 경쟁력을 결정짓는 핵심 요소다.

초기 검색 엔진은 단순히 검색어가 포함된 페이지 목록만 표시했지만, 웹이 커질수록 검색 결과는 관련성이 적은 페이지가 뒤죽박죽 섞인 상태가 됐다. 구글이 원래 사용하던 PageRank 알고리즘은 각 페이지에 품질 측정값을 할당했는데, 기본적으로 다른 페이지가 링크를 걸거나, 높은 순위가 매겨진 페이지에서 링크를 건 페이지x에 더 높은 점수를 부여한다.

검색 서비스에는 막대한 컴퓨팅 자원이 필요하다. 수백만 개 프로세서, 수 테라바이트 메모리, 수 페타바이트 저장 장치, 초당 수 기가비트 대역폭, 수 기가와트의 전력 그리고 많은 인력이 필요하다. 이 모든 자원의 비용은 보통 광고 수익으로 마련한다.

광고주는 웹페이지에 광고를 표시하기 위해 비용을 지불한다. 가격은 얼마나 많은 사용자가, 또 어떤 부류의 사용자가 페이지를 보는지 측정해서 결정된다. 가격은 페이지 뷰(또는 노출, impression이라고도 한다. 광고가 페이지에 나타나는 횟수) 또는 전환(사용자가 구매함)으로 결정된다.

광고 내용에 관심 있는 사용자에게 노출될 기회는 관련된 모두가 원하기에, 검색 엔진 회사는 검색어 실시간 경매를 한다. 광고주는 특정 검색어에 대한 검색 결과 옆에 광고를 표시하기 위해 입찰에 참여하고, 광고 회사는 사용자가 광고를 클릭하면 수익을 얻는다.

광고는 여러가지 편향성 관련 문제를 낳는다. 예를 들어, 미국에서는 특정 종류의 광고에서 인종, 종교, 성별에 따른 선호도를 나타내는 것은 불법이지만 검색 엔진에서 광고주를 위해 타게팅을 정교화해주다보면 차별적 타게팅을 하게 될 수도 있다.

84. 내가 인터넷을 보면 인터넷도 나를 본다

검색 광고뿐 아니라 어떤 종류의 광고든 더 정확하게 타게팅할수록 광고를 보는 사람이 클릭할 가능성이 더 커지기 때문에, 광고주는 기꺼이 대가를 지불한다. 온라인에서 사용자가 무엇을 검색하고, 어떤 사이트를 방문하고, 방문하는 동안 무엇을 하는지 추적하면 사용자가 누구이고 무슨 일을 하는지 굉장히 많은 것을 알 수 있다.

인터넷을 사용하는 동안은 흔적을 남기지 않고 뭔가를 하기 어렵고, 따라서 정보가 수집되는 것은 불가피하다. 다른 시스템을 사용할 때도 마찬가지인데, 특히 휴대전화는 켜져 있는 동안에는 항상 우리의 물리적 위치를 알고 있다. 일부 디지털카메라에도 GPS가 포함되어 있어서 찍은 사진 각각에 지리적 위치를 인코딩할 수 있다. 이것을 지오태깅(geo-tagging)이라고 한다. 그외에도 카메라는 사진을 업로드할 때 와이파이나 블루투스를 사용하기 때문에 추적 용도로 사용될 수 있다.

이렇게 추적해서 수집한 정보는 가장 이상적인 경우에는 광고주가 우리를 더 정확하게 타게팅하는데 사용되겠지만, 조금만 나쁘게 쓴다고 생각해도 각종 차별, 재정적 손실, 신원 도용, 감시 등 훨씬 불순한 목적으로도 활용될 수 있다.

정보는 어떻게 수집될까? 브라우저에서 만들어지는 모든 요청은 특정 정보를 자동으로 전송하며 이루어진다. 여기에는 IP 주소, 보고 있던 페이지(referer), 브라우저 유형과 버전(user agent), 운영체제, 언어 설정이 포함된다.

referer의 정확한 영단어 철자는 사실 referrer지만 HTTP의 해당 개념을 정의한 RFC에서 referer라고 오타를 낸 것이 굳어져 오늘날까지도 HTTP referer라고 부른다.

여기에 더해 서버 도메인에서 온 쿠키가 있다면 그 쿠키도 전송된다. 쿠키는 자신이 생겨났던 원래 도메인으로만 되돌아가는데, 그렇다면 한 사이트가 다른 사이트에 대한 방문을 추적하는데 쿠키를 어떻게 사용할까?

우리는 다른 페이지로 가는 링크(하이퍼링크)를 직접 클릭하며 웹을 돌아다닌다. 하지만 이미지와 스크립트 링크는 페이지가 로드되는 동안 출처에서 자동으로 로드된다. 웹페이지에 이미지의 참조 링크가 포함되어 있으면, 해당 이미지는 참조 링크에서 로드되는데 보통 요청을 하는 페이지가 어떤 페이지인지가 이미지 URL에 인코딩되어 있다. 그러면 브라우저가 이미지를 가져올때 이미지를 제공한 도메인은 사용자가 어느 페이지에서 접근한지 알 수 있고, 컴퓨터나 휴대전화에 쿠키를 저장하고 이전 방문에서 생긴 쿠키를 가져온다. 자바스크립트로 작성된 스크립트도 마찬가지다. 이것이 추적의 핵심 원리다.

보통 이런 이미지는 너비와 높이가 딱 1픽셀이고 투명이므로 전혀 보이지 않는다. 이러한 단일 픽셀 이미지를 흔히 웹 버그(web bug) 또는 웹 비콘(web beacon)이라고 한다. 이 이미지의 유일한 목적은 추적이며, 브라우저가 이 이미지를 원 도메인에 요청하면 해당 도메인은 사용자가 이 이미지를 어디서 보고 있는지를 알고 (쿠키를 허용했다면) 쿠키를 저장한다. 구글, 페이스북을 포함한 수많은 회사는 사람들이 방문한 사이트 정보를 수집한 후 고객에게 광고 공간을 팔기 위해 이 정보를 활용한다.

추적당하고 싶지 않으면 상당 부분 줄이는 것이 가능하다. 주요 추적회사들은 옵트 아웃(opt-out) 메커니즘을 제공한다. 옵트 아웃은 당사자가 자신의 데이터 수집을 허용하지 않는다고 명시할 때 정보 수집이 금지되는 제도이다. 만일 회사가 컴퓨터에서 특정 쿠키(옵트 아웃 쿠키)를 발견하면 적어도 표적 광고를 위해 추적하진 않는다. 다만, 사이트 내에서 활용할 목적으로 추적할 가능성은 여전히 있다.

DNT(Do Not Track) 메커니즘이란것도 있다. 브라우저에서 보통 제공하는 옵션 기능으로, 이 옵션을 선택하면 추가적으로 HTTP 헤더에 DNT가 설정되었다는 내용이 추가된다. DNT 헤더를 준수하는 웹사이트는 다른 사이트에 사용자의 정보를 전달하진 않겠지만, 자체적으로 사용하려고 정보를 보유하는 것은 자유다.

또, DNT를 설정했다고 업체가 반드시 추적을 하면 안되는 것도 아니어서, 대부분의 사이트가 설정을 무시하고 있는 상황이다. 예를 들어 넷플릭스에선 대놓고 웹 브라우저의 DNT에 대응하지 않는다고 밝힌다. 2019년, W3C에선 실효성이 부족하다는 이유로 DNT 워킹 크룹을 해체하고 애플은 DNT 지원을 중단했다.

비공개 브라우징(private browsing), 또는 익명 모드(incognito mode)는 브라우저 세션이 종료되면 브라우저가 방문 기록, 쿠키, 기타 브라우징 데이터를 지우도록 하는 클라이언트 측 메커니즘이다. 이렇게 하면 같은 컴퓨터를 쓰는 다른 사용자가 내가 뭘 했는지 알 수 없지만, 방문한 사이트에 기록된 내용은 여전히 지워지지 않는다.

많은 사이트가 쿠키 없이는 작동하지 않지만, 제3자 쿠키는 없어도 대부분 잘 작동하므로 항상 차단해야 한다.

브라우저 핑거프린팅(browser fingerprinting)은 브라우저의 개별 특성을 사용해 쿠키 없이도 사용자를 식별하는 기법이다. 운영체제, 브라우저 종류와 버전, 언어 설정, 설치된 글꼴과 플러그인 조합은 많은 정보를 제공한다. HTML5의 새로운 기능을 사용하면 캔버스 핑거프린팅(canvas fingerprinting)이라는 기법을 이용해 개별 브라우저가 특정 문자 시퀀스를 어떻게 렌더링하는지 확인할 수 있다. 이러한 몇가지 식별 신호만 있어도 쿠키 설정과 무관하게 개별 사용자를 구별하고 인식할 수 있다.

추적 메커니즘은 브라우저 뿐 아니라 메일 프로그램이나 다른 시스템에서도 사용된다. 메일 프로그램이 HTML을 해석하도록 되어 있으면, 사용자를 추적하는 단일 픽셀 이미지를 표시할 것이다. 애플TV, Chromecast 등은 모두 사용자가 무엇을 시청하는지 알고 있다. 아마존 에코처럼 음성으로 작동하는 장치는 들은 음성을 분석하려고 서버로 전송한다.

이전에 인터넷 포스팅에서 살펴본 것처럼 IP 패킷은 사용자의 컴퓨터에서 목적지까지 가는 동안 15~20개의 게이트웨이를 통과하며, 돌아오는 패킷도 마찬가지다. 해당 경로에 있는 게이트웨이는 각각의 패킷을 검사하고 패킷에 포함된 내용을 확인하고, 누군가는 패킷을 수정하기도 한다. 이는 데이터의 헤더뿐 아니라 실제 데이터를 들여다보는 것이므로 심층 패킷 검사(deep packet inspection)라고 한다.

이러한 데이터 내용 침범은 ISP에서 보통 일어나는데, 심층 패킷 검사는 웹 브라우징 뿐 아니라 사용자와 인터넷 간에 일어나는 모든 트래픽에 적용된다. 심층 패킷 검사는 악성코드를 골라 제거하는 등 좋은 목적으로도 쓰일 수 있지만, 광고 타게팅을 돕거나 특정 국가에서 들어가고 나오는 트래픽을 감시하거나 통신에 개입하려는 목적으로 사용되기도 한다.

심층 패킷 검사에 대한 유일한 방어책은 HTTPS를 사용해 종단 간 암호화를 하는 것이다. 종단 간 암호화를 하면 전송되는 내용이 검사되거나 변경되지 않게 보호된다. 다만 출발지, 목적지 같은 메타데이터는 숨길 수 없다.

어떤 개인 식별 정보가 수집 가능하고, 그 정보가 어떻게 사용될 수 있는지 통제하는 규칙은 국가마다 다르다. 예를 들면 미국에선 뭐든지 허용되고 EU에서는 프라이버시를 보다 엄격하게 보호한다. 2018년 중반, EU에선 정보를 보호하는 규정인 GDPR(General Data Protection Regulation)을 실행했는데, 이에 따르면 개인이 명시적으로 동의하지 않는 한 각각의 개인 데이터를 처리할 수 없다. 즉, 명시적으로 거부하지 않으면 동의한 것으로 간주한 것으로 보는 양식 등이 효력이 없고 명시적으로 동의해야만 효력이 있다.

캘리포니아에서도 GDPR과 비슷하게 2020년 초에 CCPA(California Consumer Privacy Act)를 제정했는데, 자신의 개인정보를 판매할 수 없게 하는 옵션을 명시적으로 포함한다.

85. 트윗을 올리기 전에

어떤 웹사이트를 방문하는지 추적하는 것 외에도 우리에 관한 데이터를 수집하는 방법엔 SNS가 있다. SNS 사용자들은 오락거리를 얻거나 다른 사람들과 소식을 주고 받는 대가로, 많은 프라이버시를 자발적으로 포기한다. 미국에선 취업 지원자에게 연령, 민족, 종교, 성적 취향, 혼인 상태 등을 물어보는 것이 불법이지만 SNS 검색으로 손쉽게 알아낼 수 있다.

검색 엔진과 SNS는 분명 유용한 서비스를 제공하고 무료지만, 그들이 돈을 벌기 위해 사용자 자신이 제품이 된다는 점을 인지해야 한다. SNS의 비즈니스 모델은 다량의 사용자 정보를 수집하고 이를 광고주에게 판매하는 것이다. 따라서 프라이버시 침해 문제는 필연적이다.

SNS는 규모와 영향력이 짧은 역사에 비해 극적으로 성장했다. 페이스북은 2004년에 창업했는데, 202년 기준으로 전 세계 인구의 약 1/3에 해당하는 활성 사용자를 보유하게 되었다. 서비스가 이렇게 급격하게 성장한 경우 각종 정책을 신중히 고려하기 어렵고, 보안 면에서 견고한 컴퓨터 프로그램을 개발하기도 어렵다.

위치 프라이버시(location privacy), 즉 자신의 위치를 비공개로 유지할 권리는 신용카드, 고속도로와 대중교통의 요금 지불 시스템, 그리고 휴대전화 때문에 지켜지기 어렵다.

정보기관에서는 당사자 간에 정확히 무슨 이야기가 오갔는지 모르더라도 누가 누구와 통신하는지 분석함으로써 많은 것을 알아낼 수 있음을 오래전부터 알고 활용했다. 처음에 메타데이터 수집은 9.11 테러 공격에 대한 대응의 일환으로 인가되었지만, 2013년 NSA 기밀 자료 폭로사건, 즉 에드워드 스노든의 문서가 공개되면서 데이터 수집 규모가 세상에 드러났다. 메타데이터는 데이터 그 자체가 아니더라도 굉장히 많은 정보를 드러낸다.

예를 들어, 어떤 전화번호는 한 가지 목적으로만 사용되기 때문에 그 번호로 연락한 것만으로도 발신자에 대한 기본 정보와 민감한 정보가 드러난다. 가정 폭력과 강간 피해자를 위한 지원 상담 전화, 자살 상담 전화, 청소년 성소수자를 위한 서비스 등이 그 예다.

SNS에서 '좋아요' 기능은 성별, 민족적 배경, 성적 취향, 정치적 성향 등의 특성을 정확하게 예측하는데 사용된다. SNS에 사진을 게시할 때 친구가 나를 태그하면 내 동의 없이 프라이버시 침해가 일어난다. 페이스북은 친구들이 서로 쉽게 태그를 지정할 수 있도록 얼굴 인식 기능을 제공하는데, 사용자가 제어할 수 있는 유일한 부분은 페이스북이 사람들에게 나를 태그하도록 추천하는 것을 거부하는 것이지, 태깅 자체를 거부할 수는 없다.

메일, 게시물, 트윗은 영원히 저장되며, 수년 후에 갑자기 나타나 우리를 난처하게 만들 수 있다.

86. 메타데이터에 관한 불편한 진실

중요해보이지 않아서 쉽게 구할 수 있는 공공 데이터더라도 우리에 대해 너무 많은 것을 드러낼 수도 있다. 또, 서로 무관해보이더라도 여러 출처에서 온 데이터가 결합하면 더 많은 정보가 드러난다.

예를 들어, AOL은 연구용으로 사용할 수 있게 2006년 8월에 대량의 검색 로그 샘플을 좋은 의도로 공개했다. 사용자들의 로그는 익명화되었으므로 개별 사용자를 식별할 만한 정보는 완전히 제거된 것처럼 보였다. 하지만 사용자들에게 무작위지만 고유 ID가 부여되었기 때문에, 같은 사람이 작성한 쿼리들을 찾을 수 있었으며, 그 쿼리를 통해 일부 개인을 식별할 수 있었다. 그 쿼리들에는 사람들이 자신의 이름, 관련된 주소 등의 개인정보를 검색한 기록이 있었기 때문이다.

검색 엔진은 정보를 얼마나 오래 보유해야 할까? 프라이버시 보호를 위해 짧게 보관해야 한다는 입장이 있는가 하면, 법 집행 목적으로 장기간 보유해야 한다는 입장이 대립하고 있다. 이에 대한 명확한 답은 내리기 어렵다. 하지만 명확한 것은, 함께 사용되지 않을 것이라 여기지 않은 데이터셋을 결합하면 예상 밖의 많은 정보를 알아낼 수 있고 우리에 대한 정보는 이미 여러 곳에 노출된 상태다.

87. 클라우드와 프라이버시

일반적으로 컴퓨터를 사용할 때, 우리는 프로그램 또는 데이터를 개인이 소유한 컴퓨터에 내려 받고 다른 컴퓨터에서 그 파일을 필요로 하면 전송해야 한다.

최근에는 브라우저나 휴대전화를 사용해 인터넷 서버에 저장된 정보에 접근하고 조작하는 클라우드 컴퓨팅(cloud computing) 모델이 많이 쓰인다. 메일과 SNS는 가장 일반적인 클라우드 서비스지만, 유튜브, 링크드인, 온라인 달력 등 다른 서비스도 많다.

클라우드 컴퓨팅은 여러가지 요인들이 맞물려 가능해졌다. 우선, 개인용 컴퓨터 성능이 더 강력해짐에 따라 브라우저 성능도 높아졌다. 브라우저는 디스플레이 요구사항이 높은 대형 프로그램도 효율적으로 실행할 수 있고, 이는 별도 해석 과정이 필요한 자바스크립트가 프로그램 구현에 사용되더라도 마찬가지다. 대부분의 클라이언트와 서버 간 대역폭 및 레이턴시가 개선됨에 따라 데이터를 끊김없이 빠르게 보내고 받을 수 있다. 브라우저 기반 시스템은 이제 거의 데스크톱 시스템만큼 응답성이 좋고, 어느 곳에서나 데이터에 접근할 수 있도록 한다.

웹 기반 서비스는 사용자가 이용하려면 계속 요금을 지불해야 하는 구독형 모델을 적용하기 쉽기 때문에 제공 업체 입장에서는 매력이 있다. 하지만 소비자들은 대개 소프트웨어를 한 번 구매하고 필요할 때만 업그레이드 비용을 지불하는 방식을 선호한다.

클라우드 컴퓨팅은 클라이언트 측의 빠른 처리 능력충분한 메모리, 그리고 서버로 연결되는 높은 대역폭이 필요하다. 클라이언트 측 코드는 자바스크립트로 작성되며 대개 복잡하다.

인터넷에 접근하기가 쉽다면 클라우드 컴퓨팅은 많은 편의를 제공한다. 소프트웨어는 항상 최신이고, 용량이 넉넉하고 전문적으로 관리되는 서버에 정보가 저장된다. 클라이언트 데이터는 항상 자동으로 백업되므로 데이터를 잃을 가능성이 별로 없다. 문서는 쉽게 공유되고 실시간으로 공동 작업도 된다.

반면 프라이버시보안으로 들어가면 문제가 복잡하다. 클라우드에 저장된 데이터는 누구의 소유인가? 어떤 상황에 누가 데이터에 접근할 수 있을까? 정보가 뜻하지 않게 유출되면 누가 법적 책임을 지는가? 사망한 사람의 계정은 어떻게 될까? 정부 기관이나 법정에서 공개를 요구하면 서비스 제공 업체는 이에 응해야할까?

우리의 프라이버시는 서비스 제공 업체가 얼마나 강한 압력에 기꺼이 맞설지에 달렸다. 2013년에 고객에게 보안 메일 서비스를 제공하던 Lavabit은 미국 정부가 메일에 접근할 수 있도록 회사 네트워크에 감시 프로그램을 설치하라는 명령을 받았지만, 회사 소유주 Ladar Levison은 정부 요청을 거절했다. 결국 그는 사업을 접으며 정부가 고객 메일에 접근하는 것을 끝까지 거부했는데, 나중에야 정부가 에드워드 스노든의 계정을 추적하고 있었음을 알게 되었다.

88. 요약

우리가 디지털 기술을 사용할 때는 방대하면서도 상세한 데이터 흐름이 생성된다. 이 데이터는 모두 상업적 용도로 수집되어, 인식하는 것보다 훨씬 더 많이 공유되고 결합되고 연구되고 판매된다. 이는 검색, SNS, 휴대전화 앱, 편의성 등을 위해 우리가 대수롭지 않게 여기며 이용하는 무료 서비스에 대한 대가다.

데이터는 또한 정부가 사용할 목적으로도 수집된다. 정부는 권력이 있기에 저항하기 어렵다. 정부의 행동을 바꾸는 것은 구성원들에게 달렸지만, 어찌 되었든 올바른 정보를 아는 것이 첫걸음이다.

인터넷에 접속하면 우리는 전 세계 어디서든 눈에 띄고 접근 가능해지는데, 모든 사람이 우리의 이익에 도움되진 않는다.