얼마든지 조작할 수 있는 빅데이터로 의료·기술 혁신한다고?

    • 어니스트 데이비스 뉴욕대 교수

입력 2017.02.18 03:00

SNS 정치 글 상당수가 컴퓨터 프로그램이 생성
개인 정보 유출돼도… 알고리즘 추천 피해봐도… 항의할 방법 없어

어니스트 데이비스 뉴욕대 교수
어니스트 데이비스 뉴욕대 교수
지난 15년간 인류가 이용할 수 있는 디지털 데이터가 폭발적으로 증가했다. 이 데이터를 처리하는 데 필요한 컴퓨터 기술도 크게 향상됐다. 빅데이터는 과학·기술·의료 분야의 발전으로 이어질 것이 분명하다. 그러나 빅데이터가 잘못 사용되면 심각한 문제가 생길 수도 있다.

이미 방대한 데이터에 머신러닝 기법을 적용해 인터넷 검색 엔진과 기계 번역 등의 분야에서 큰 혁신이 일어났다. 그러나 데이터양이 증가한다고 해서 고품질 데이터를 확보할 수 있는 것은 아니다. 소셜미디어에는 수많은 정치적 견해가 올라오지만, 이런 의견이 꼭 유권자의 생각을 대표하지는 않는다. 정치에 관해 올라오는 트위터와 페이스북 게시글의 상당수는 사람이 아닌 컴퓨터가 생성해낸 것이다. 최근 몇 년간 편향된 데이터를 기반으로 한 자동 검색 프로그램이 많은 논란을 일으켰다. 작년 6월에는 한 대학생이 구글에서 '직장에서 전문가답지 않아 보이는 헤어 스타일' 이미지를 검색했을 때 검색 결과로 대부분 흑인 사진이 나오는 일이 있었다. 검색어를 '전문가다운'으로 바꿨을 때는 대부분 백인 사진이 나왔다. 이는 구글 프로그래머들이 편견을 가지고 있기 때문이 아니라, 인터넷 사용자들이 각 사진에 이런 식으로 이름을 붙였기 때문이다.

빅데이터는 조작 위험도 있다. 자신에게 영향을 줄 결정이 빅데이터에 기초해 내려진다는 것을 알게 되면 사람들은 본인에게 유리한 쪽으로 결정이 내려지도록 행동할 것이다. 교사 평가가 학생의 시험 성적에 따라 이뤄질 때 교사는 시험 성적을 높이는 것에 치중해 학생들을 가르치거나 부정행위를 저지를 가능성도 있다.

빅데이터에는 개인 정보가 대거 들어 있기 때문에 사생활 침해 가능성도 있다. 최근 몇 년간 공공기관과 민간 기업 웹사이트에서 막대한 양의 개인 정보가 유출된 사례가 속출했다. 여러 연구 결과를 보면 사람들이 익명으로 온라인에 글을 올릴 때도 이들의 정치 성향이나 성적 선호도가 정확하게 수집되기도 한다.

마지막으로 빅데이터는 책임 소재가 불분명하다는 문제도 갖고 있다. 알고리즘에 따라 나온 결과가 부당하게 느껴질 때 항의할 방법이 거의 없다. 최근 유럽연합이 알고리즘 때문에 피해를 본 사람에게 '설명을 요청할 권리'를 보장하는 정책을 채택했지만, 실제로 얼마나 효과가 있을지는 시간이 지나봐야 안다.

빅데이터와 관련된 위험은 대체로 예방할 수도 있다. 그러나 개인 정보 보호를 소홀히 하거나 알고리즘이 결정하는 것을 신중하게 사용하지 않으면 빅데이터는 위험한 존재가 될 것이다.

ⓒ프로젝트신디케이트

놓치면 안되는 기사

팝업 닫기

WEEKLY BIZ 추천기사

내가 본 뉴스 맨 위로

내가 본 뉴스 닫기