본문 바로가기

책, 서평, 요약/사회과학

<숫자는 거짓말을 한다> 알베르트 카이도 (데이터와 차트에서 진실을 가려내는 방법)

책을 읽기 전 나의 문제 의식

공공의제에 대한 우리의 정치적 논의에서 서로가 지지하는 당의 입장을 내려놓고, 의제를 벗어난 도덕적 비난을 유보하고 토론을 할 수 있을까.

난 이 부분에 대한 이상적인 답, 우리가 달성한다면 위 문제를 해결할 방안으로서 수치적 해석을 얘기한 적 있다.

 

https://chartist1206.tistory.com/288

 

<숫자는 어떻게 진실을 말하는가> 바츨라프 스밀

초 가공 정보 시대: 수치적 해석에서 편익 분석, 그리고 악마화까지두 농부가 새벽부터 각자의 밭을 갈고 있었다. 정오 무렵, 그들은 허리를 피고 숨을 고르며 자신의 밭을 바라보았다. 둘 다 같

chartist1206.tistory.com

 

 

거기서 나는 저자인 바츨라프 스밀이 인구, 삶의 행복 수준, 에너지, 환경 등 다양한 영역에서 논의에 대한 상호 간의 주장을 비교 분석하는 것을 살펴보았다. 그는 상대방의 주장을 계측 가능한 명제로 변환하고 관련 데이터를 수집하여 평가하였다.

 

이런 방식은 적어도 우리가 각자 서로 다른 언어로 공론 사안을 해석하고 서술하더라도 숫자는 양 측 모두에게 동일하여 토론에서 공통의 토대가 될 수 있다는 믿음에 근거한다.

 

나는 저자의 이야기를 바탕으로 공공의제의 계량화 및 수치적 분석과 이를 바탕으로 한 각자의 주장을 평가하는 방식으로 양자가 정치적 입장의 간극을 타협할 수 있을 거라 생각하였다. 그리고 그 전제로서 숫자는 반박 불가한 중립성을 지닌다라고 생각하였다.

(적어도 엉터리 숫자를 제시하지 않는 한 말이다)

 

책을 고른 이유

그러던 중 오늘 쓰게 될 이 책을 발견하게 되었다.

숫자는 거짓말을 한다라는 제목에서부터 내 생각과 상반되는 주장에 끌렸고, 또 한편으로는 정말로 데이터와 수치적 분석이면 공공 의제의 공통 토대를 마련할 수 있을까라는 의구심을 품고 있어서 이 책을 보게 되었다.

 

저자의 주장1: 현대 사회에서 차트의 높은 위상

저자는 오랜 기간 데이터를 보기 좋게 시각화 하면서도 정확하게 전달하는 방법에 대해 연구해왔으면서도 미디어에서 차트를 디자인해왔다.

그리고 오늘날 현대 사회의 수많은 목소리에서 차트를 일반적으로 사용한다고 말한다. 분야로 따지면 뉴스 같은 기성 미디어 뿐만 아니라 SNS 매체에서도 차트를 통해 데이터를 직관적 메시지로 바꾸면서도 주장에 대한 힘을 싣고 있다. 뉴스 뿐만 아니라, 기업의 광고에서도 분석가의 PPT 발표에서도 학생들의 과제에서도 차트는 주장에 공신력을 뒷받침하는 가장 일반적인 수단이다.

 

저자의 문제 제기: 차트의 위상에 비해 오해와 왜곡의 위험성에 대한 인지가 불충분

따지고 보면 공론에 데이터를 직접 뒷받침해 주장하진 않아도, 데이터를 시각화한 차트를 사용한다면 두 말은 비슷한 거 아닐까. 그렇다면 차트를 통해 우리의 공론은 서로 간에 정치적 간극을 줄여나가고 있는걸까.

 

이 질문에 대해 저자는 2016년 미국 대선 당시 양 당 측이 결과를 설명하는 것에 대해 얘기하며 내 예상은 빗나갔다.

책 내 차트 자료 인용

 

트럼프 지지 측은 위 차트를 제시했다. 차트에서는 미 전역을 휩쓸은 붉은 색깔(트럼프가 승리한 주)을 보여주며, 대선에서 그가 국민들의 압도적 지지를 받았다는 것을 강조하였다.

 

그렇다면 정말로 그는 압도적인 지지를 받은 걸까.

이 차트에서는 정말로 미국 영역의 80% 가량이 트럼프의 승리로 보인다. 하지만, 그렇다고 해서 국민의 80% 가량이 그를 지지한 것은 아니다. 사실 그가 이긴 지역은 주로 연안의 대도시가 아닌 내륙의 상대적으로 인구가 작은 주였고 민주당은 영역은 작아도 인구밀도가 높은 대도시에서 높은 승률을 자랑했다.

 

책 내 차트 자료 재인용

 

그래서 일각에서는 각 당이 승리한 지역의 인구를 버블 차트로 보여주어서 민주당이 이긴 지역의 높은 인구 수를 강조하였다.

 

이처럼 동일한 사안에 동일한 데이터를 두고도 완전히 다른 해석이 나올 수 있다는 점, 그리고 차트는 이 해석을 극명하게 다르게 강조할 수 있다는 걸 알 수 있다.

 

저자는 말한다.

우리 사회는 이미 데이터에 대한 큰 신뢰를 가지고 있고 차트를 충분히 많이 사용하고 있다. 하지만, 데이터와 차트가 어떻게 사람들에게 왜곡된 실제를 전달하는지에 대해서는 충분히 알지 못한다고 말한다.

 

예컨대, 데이터를 집계하고 우리의 상식과는 다른 데이터를 사용할 수도 있고, 한 쪽의 주장에만 부합하는 데이터를 선별할 수도 있으며, 데이터를 시각화 할 때 실제보다 과장되게 표현하거나 데이터가 말하는 논증 이상의 주장으로 비약할 수도 있다.

 

이를 통해, 차트는 우리의 선입견을 올바르게 수정해주는 이정표가 아니라 오히려 선입견을 강화하면서도 자신은 객관적이고 상대는 불합리하다는 인식을 강화할 위험성을 알 수 있다.

 

내용 목차 소개

이 글에서는 저자가 우리가 차트와 데이터를 올바르게 해석하고 잘못된 주장을 비판하기 위한 4가지 장을 아래처럼 제시한다.

 

- 차트를 읽는 방법 : 차트의 기본 문법

- 문제1. 차트의 시각화를 왜곡하는 것

- 문제2. 데이터의 신뢰성: 데이터의 투명성, 표본 선별 및 집계 문제

- 문제3. 비약적인 결론을 하는 원인: 차트는 상관관계일 뿐. 인과관계와의 동일시, 생태학적 오류

 

1. 차트를 읽는 방법과 오해

좋은 차트는 논증할 여지를 준다.

내 경험 상, 비즈니스나 교육, 미디어의 발표 자료에서 많이 접하는 차트는 독자가 충분히 관찰할 시간이 많지 않다. 대신, 발표자의 주장과 함께 아주 빠르게 지나간다. 발표자는 차트 상단에 전달하고자 하는 주장을 제시하고 그 아래에 시각화한 데이터 패턴을 묘사하며 주장의 신뢰성을 강조하거나 때로는 암시적으로 뒷받침한다.

(예컨대, ‘아침에 커피 한잔을 먹으면 집중력이 상승하여 업무 생산성이 증가합니다.' 라는 주장에 맞춰 커피 소비율과 1인당 소득이 우상향하는 차트를 보여준다던지)

 

시각화를 곁들인 주장은 문자나 데이터 표로 제시하는 주장에 비해 한눈에 들어오며 주장을 강렬하게 각인시키고 설득력을 강화한다’.

이는 발표자에게 긍정적이지만 독자는 데이터와 차트가 믿을만한 것인지, 그리고 주장과 관련성이 있는지 고려할 여지를 충분히 주지 못한다. 따라서 좋은 정보를 얻기 위해 독자는 빠르게 읽는 차트가 아니라 좋은 차트를 선별할 수 있는 능력이 절실하다.

좋은 차트는 좋은 과학과 유사하다. 독자에게 믿어야 할 것을 제시하는 게 아니라 의심하고 검증할 것을 제시한다.

과학 철학자 칼 포퍼(carl popper)는 과학이 과학이기 위한 조건으로 반박 가능성(falsifiability)을 주장했다.

어떠한 상상 가능한 사건에 의해서도 반박될 수 없는 이론은 비과학적이다. 반박 불가능성은 이론의 미덕이 아니다(…) 모든 진정한 이론의 검증은 그것을 반박하려는 시도다.

(A theory which is not refutable by any conceivable event is nonscientific. Irrefutability is not a virtue of a theory Every genuine test of a theory is an attempt to falsify it.)”

- Karl Popper, Conjectures and Refutations “

* 1)

 

여기서 알 수 있는 건 과학이 과학일 수 있는 이유는 그것이 진실이기 때문이 아니라 주장과 근거를 명확히 드러내어 검증과 반박가능성을 투명하게 공개하기 때문이다. 좋은 차트도 마찬가지로, 주장과 근거로서 차트, 그리고 차트의 데이터에 대한 논증의 여지를 제공한다.

 

차트의 구성요소

기본적인 읽기 방식 스캐폴딩 => 시각화

차트는 크게 두 가지 구성 요소로 스캐폴딩과 시각화로 구분한다.

차트를 볼 때는 먼저 스캐폴딩을 읽는다. 스캐폴딩이란, 차트의 제목, 부제, 캡션 같은 자료의 설명이다. 이는 차트 제작자가 말하는 주제와 주장을 보여준다. 다음 예시를 들 수 있다.

 

소득 수준과 기대 수명의 상관관계

두 지표는 양의 상관관계를 가진다.”

 

제목은 위처럼 드라이하게 쓰기도 하지만, 때로는 결론부터 제목으로 드러나는 경우도 있다(“가난할수록 일찍 죽는다라던지)

이런 경우는 그 메시지가 더욱 명확히 와닿지만, 섣불리 이를 판단하지 않고 다음 과정인 데이터 논증을 살펴야 한다.

, “음 이런 주장이구나. 일단 다음 데이터를 살펴보고 판단할까라는 정도로 파악하자.

 

데이터를 보기 전에는 척도를 살펴본다. 척도는 막대 차트나 꺾은 선 차트에서 x, y축처럼 데이터의 종류와 수치를 보여준다.

다음은 척도에서 파악한 데이터를 바탕으로, 시각화된 데이터를 살펴본다.

시각화는 일반적으로 점, , 막대, 원 같은 도형으로 표출하며 데이터의 수치는 점의 위치, 막대의 높이나 길이, 선이 기울기 및 흐름, 원 내 파이의 비중에 비례하여 보여줄 수 있다.

 

이를 토대로 데이터에서 패턴을 도출할 수 있다. 점들의 분포 양상이나 흐름, 원에서 파이의 지분 양상, 꺾은 선의 기울기 등을 보면 척도 내 지표 간에 관계가 비례나 반비례 같은 양상, 혹은 아무것도 아닌 관계인지를 파악할 수 있다.

 

여기까지 본 차트는 두 개의 데이터 지표와 하나의 패턴을 보여준다. 하지만, 더 많은 지표와 패턴을 보여주고 싶을 때에는 추가적으로 색상이나 명도를 통해 데이터를 시각화 한다. 예컨대, 막대 그래프에서 막대의 높이 외에 색상을 다르게 하여 데이터에 대한 정보를 나타날 수 있다. 색상이나 명도를 제3, 4척도로 선택했다면 정확한 표기를 위해 범례(legend)를 제공하기도 한다.)

 

마지막으로 스캐폴딩의 주장과 데이터 간에 논증을 본다. 차트 제작자가 제시한 데이터는 스캐폴딩의 주장을 직접 뒷받침하는가. 아니면 논리적 비약인가.

 

차트의 해석을 비트는 오해와 실수

위에서 제시한 차트 읽기는 어찌 보면 너무 당연한 내용처럼 느껴진다. 하지만 이 부분들은 생각만큼 당연하거나 쉽지 않고 여러 오해가 발생하는 부분이다.

 

먼저 데이터를 어떤 집계 방식으로 선택했는지 봐야 한다. 흔히 사용하는 평균 값은 우리에게 가장 익숙하지만 경우에 따라 대표성이 현저히 떨어진다. 예컨대, 평균 소득은 집단 내 빈부격차가 극단적일 경우, 평균에 가까운 사람들은 감소한다. 극단적으로 큰 값이나 작은 값이 있을 때에도 마찬가지다.

 

데이터의 신뢰성 역시도 생각해봐야 한다. 차트는 데이터를 바탕으로 하는 만큼 믿을 수 있는 데이터를 선택해야 한다. 따라서 데이터 출처를 밝히지 않는 차트는 일단 의심해야 하며, 출처를 밝히더라도 신빙성이 떨어지거나 데이터 검증 결과 옳지 못한 데이터라면 제작자에 대한 신뢰를 거둘 수 밖에 없다.

 

하지만 두 조건보다도 근본적으로 사람들이 차트에 대해 행하는 가장 큰 실수는 차트는 생각보다 많은 걸 말하지 않는다는 것이다.

차트는 시각화에 쓰인 두 지표 간에 상관관계, , 두 지표가 양의 상관 관계(한 쪽이 증가하면 다른 쪽도 증가)이거나 음의 상관 관계(한 쪽이 증가하면 다른 쪽은 감소)인지만 알려줄 수 있다. 이런 공변성은 두 조건이 인과관계라는 걸 확인하는 증거가 아니다. 예컨대, 아이스크림 판매량과 익사 사고 수가 양의 상관 관계라고 해서, 아이스크림 때문에 익사 사고가 나거나 익사 사고가 날 사람은 아이스크림을 먹는 경향이 있는 건 아니다. 이게 바로 단순하고 직관적인 차트일수록 매력적이지만 섣불리 판단할 수 없는 이유다. 차트는 상관 관계일 뿐 인과 관계를 증명하는 건 아니다. 이를 위해서는 더 복잡한 논의가 필요하다. 이 때문에, 더 신뢰성 있는 자료를 만들려는 정보 제공자는 단순함을 양보하더라도 차트의 척도를 두개 보다 더 많이 제공하거나 복수의 차트를 병기하기도 한다. 필요하다면, 앞서 본 데이터의 신뢰성이나 집계 방식, 차트 해석의 오해를 예방하기 위해 주석을 추가하여 이해를 돕고 논리의 비약을 예방한다.

 

정리. 차트를 읽는 방법 - 차트 해석의 5단계 원칙

지금까지 차트를 읽는 기본적인 방법과 거기서 파생될 수 있는 오해들을 살펴보았다.  잘못된 해석을 피하려면 차트를 주제와 근거의 논증의 구조로 파악하고 주요 내용인 차트를 해석하는 데 단계적으로 접근할 필요가 있다. 저자는 차트를 해석하는 5단계 원칙을 제시한다

제목, 설명 읽기

먼저 차트의 제목과 설명을 읽고 다루는 주제와 그에 대한 결론을 이해한다.

 

척도, 범례로 지표 파악

주장을 뒷받침하는 근거로서 차트를 보기 위해서는 먼저 척도와 범례에 사용된 변수(지표)의 종류를 이해해야 한다. 이는 어떤 지표 간에 상관 관계를 파악하는 건지 알게 해준다.

 

시각적 부호화 방식 파악

이제 척도 내에 차트를 보고 데이터의 크고 작음, 그리고 성질을 시각화 했는지 파악한다. 이는 수치를 어떤 방식으로 표현했는지(위치, 길이, 넓이, 색상, 명도)를 의미한다.

 

주석

패턴을 읽고 결론을 내리기 전에 주석을 읽어 차트 내 특이사항, 보충설명을 참고한다.

 

전체적 흐름 및 해석

전체적으로 데이터들의 흐름, 군집 등 패턴 탐색, 결론을 내린다.

 

스스로 패턴을 읽어내는 건 쉬운 작업이 아니다. 다만, 몇 가지 노하우가 있는데, 일반적으로 사용되는 막대 차트나 산점도에서는 다음 내용을 활용하자.

 

가상 사분면을 그리거나 데이터 간에 가상의 흐름 선을 그려서 데이터의 우상향 혹은 우하향 등을 확인한다.

 

점이나 꺾은 선의 모이고 흩어지는 양상이 일정한지 아닌지는 데이터 지표 간에 상관관계가 얼마나 강력한지 보여준다.

 

 

여기까지 차트를 읽는 기본적인 흐름에 대해 알아보았다. 다음은 차트 해석의 왜곡을 낳는 주요 케이스들을 자세히 살펴볼 것이다. 이 책에서 다루는 문제는 다음과 같다.

 

차트가 데이터를 오해할만한 디자인일 때

잘못된 데이터 집계 방식 및 출처

표시된 데이터양이 너무 많거나 적어서 실제 패턴을 왜곡

결론과 다른 불확실성을 숨길 때

패턴에서 논리적 비약을 할 때

편견에 기댈 때

 

 

2. 같은 데이터로도 다른 차트를 만들 수 있다

차트는 얼마든지 조작 가능하다 프로파간다로써 차트

정보 제공자는 데이터를 어떤 차트로 보여줘야 할까.

설득을 위해서라면 주장을 뒷받침하는 차트가 돋보이도록, 더 강렬하고 직관적인 메시지를 선호하지 않을까. 차트를 본 사람들의 뇌리에 메시지가 확연히 새겨지도록 말이다.

 

설득자가 자신의 임무에 최선을 다하는 건 나쁜 일이 아니다. 하지만, 임무를 위해서 시민들을 기만하는 차트를 만든다면 문제가 될 수밖에 없다. 시민들은 적어도 차트가 데이터에 기반하여 거짓말을 하진 않을 거라 생각할 수 있다. 하지만 차트는 마음만 먹으면 데이터와 상관없이 원하는 메시지를 만들어낼 수 있다.

 

이에 대한 사례를 잘 보여주는 것이 책에 나오는, 2015년 공화당 제이슨 차페즈(Jason Chaffetz) 의원의 하원 청문회이다. 그는 미국의 가족계획연맹(Planned Parenthood)이 임신중절 서비스를 늘리는 반면 암, 건강검진 서비스를 줄이고 있다 주장하며, 다음 같은 차트를 제시하였다. (1)

책 내에 차트 자료 재인용

 

차트에서는 임신중절 서비스의 증가 폭과 암, 건강검진 서비스의 감소 폭이 유사한 기울기와 수준으로 나타난다. 따라서 이 차트는 필수적인 예방, 건강 서비스가 임신중절이라는 다소 논쟁적인 서비스로 인해 도외시되고 있다는 비판의 근거가 되었다.

하지만, 이 차트에는 큰 문제가 있었다.

차트의 라벨을 잘 보면 임신중절 서비스와 암 건강검진 서비스는 서로 유사한 위치에 있음에도 서로 다른 데이터 수치를 가지고 있다.

이는 두 데이터가 서로 다른 y축을 사용함을 의미한다,

게다가 가족계획연맹은 두 서비스 외에 다른 서비스들을 함께 운영하고 있다. 이들의 데이터를 포함하면 어떨까.

 

두 데이터는 위치도 기울기 양상도 달라지며 서로 간에 관계가 확연히 약해진다. 위 사진에서 두 데이터만 콕 집어서 임신 중절이 늘었기 때문에, 암 건강검진 서비스가 줄었다고 말할 수 있을까

 

데이터 학자 슈크는 암 건강 검진 감소는 미 부인과 대학에서 자궁경부암 검사 빈도를 매년에서 3년으로 변경했기 때문이라고 반박한다.

 

미국에서 정치적 발언의 사실 여부를 체크하는 사이트 PolitiFact는 이 차트가 이중 축 차트를 사용하여 오해의 소지를 낳았으며 속이려는 의도까지 있었다고 비판했다. (2)

 

차트에서 데이터의 양상은 척도와 범례를 주무르면 얼마든지 조작할 수 있다. 예컨대, 정부 부채가 100에서 400%로 증가했다고 가정할 때, 어마어마한 수치이지만 차트의 최소, 최대값을 0 ~ 10000% 정도로 잡아버리면 차트의 기울기는 거의 수평선에 가까울 것이다(늘어난 부채 량을 말하는 게 호들갑처럼 보일 것이다)

원 차트에서 데이터 수치와 파이 크기가 정비례하지 않는다면 어떨까. 22%, 23%의 크기 차이를 1%보다 훨씬 큰 20%, 30% 크기 차이로 잡는다면 말이다.

데이터가 참이라면 차트도 틀리지 않았다는 생각은 버려야 한다. 차트를 조금만 주무르면 얼마든지 입맛대로 차트를 만들 수 있다

 

차트가 인지 수준에 끼치는 영향

혹자는 차트가 다소 오해의 여지가 있더라도 데이터 수치를 나타내는 라벨과 척도가 있다면 이중 척도 같은 방식에 문제가 없다고 반박할 수 있다. 하지만, 우리의 인지 체계는 경험하는 대상 및 사건으로부터 시각적으로 바로 눈에 들어오는 데이터를 먼저 인지하고 뒤에 보이는 구체적인 수치는 앞선 인식에 끼워 맞추는 경향이 있다.

예컨대, 대학 진학율이 5% 상승했다는 사건도 차트로 크게 표현한다면 크게 느껴지고 작게 표현하면 작게 느껴지는 것이다. 특히 공론에서는 일상에서 접하기 어려운 큰 단위의 숫자나 생소한 단위, 어려운 전문 영역을 논한다. 이런 상황에서 차트는 시민들이 구체적인 수치를 인식하는 프레임을 형성한다.

 

데이터의 의미에 따라 차트의 목적을 고려하기

따라서, 차트 제작자는 데이터의 증가 및 감소 추세 등의 양상에서 그 의미와 맥락을 이해하고 차트를 제작하여야 정확한 의미 전달을 할 수 있다.

예컨대, 기후 변화 문제에서 자주 거론되는 이야기로 산업화 이전(보통 1850~1900년 사이)의 평균 기온과 비교했을 때, 현재 지구의 평균 기온이 약 1(섭씨) 높아졌다는 이야기를 하곤 한다. 여기서 1도는 어느 정도로 큰 변화일까.

이는 평범한 일상에서는 큰 수치처럼 느껴지지 않는다. 그래서 이것을 일반적인 온도 변화를 보여주듯 차트로 보여준다면 별 변화가 없는 것처럼 보일지도 모른다. 하지만 이 1도의 변화로 인해 해수면이 상승하고 이상기후가 증가하며, 2도까지 증가하면 기후 재앙을 더 이상 돌이킬 수 없다는 걸 알게 되면, 1도를 더 심각하게 표현해야 한다는 걸 알 수 있다.

 

3. 어떤 데이터를 신뢰할 것인가 데이터 신뢰성

동일한 대상을 보고도 데이터는 다양할 수 있다.

지금까지는 차트가 데이터의 패턴을 왜곡하고 잘못된 해석을 만들 수 있다는 걸 보았다. 이번에는 데이터 자체의 문제와 왜곡 가능성에 대해 살펴볼 것이다. 우리는 강력한 데이터와 과학을 팩트로 인정하는 분위기 속에 살고 있지만, 동일한 대상을 바라보는 상반된 데이터와 견해를 심심치 않게 보곤 한다. 이는 우리가 동일한 대상으로부터 표본을 수집, 데이터 추출 및 집계, 해석(논증, 결론) 과정에서 다양한 이견과 오류가 발생할 수 있다는 사실을 암시한다. 이 장에서는 이런 발생가능한 오류를 살펴보겠다.

 

데이터 수집 문제: 표본이 모집단을 대표하는가?

데이터 수집은 대상인 모집단을 충분히 대표할 수 있는 표본을 선정하는 작업에서 시작한다. 모집단 전체를 전수 조사하는 것은 대표성 확보에 있어서 가장 이상적이지만 현실적으로 불가능하며, 국가 차원에서 정기적으로 발표하는 통계나 무작위 표본 추출 방식이 상대적으로 현실적이고 신뢰성 있는 방법으로 여겨진다.

하지만 관련 제도나 여력이 부족한 경우 자발적으로 참가자를 선택하는 자기선택 표본(self-selected sample)” 방식을 사용한다. 이 방식은, 집계 단체에 영향을 많이 받아서 모집단을 충분히 대표하지 못하고 편향된 데이터를 얻을 가능성이 있다. 예컨대, 언론의 소셜 미디어 설문 조사는 해당 매체의 독자를 중심으로 이루어지므로 매체의 정치적 성향이 반영된 결과를 낳을 수 있다.

 

데이터 집계 방식: 집계 방식은 대중의 인식에 부합하며 오해의 여지가 없는가?

데이터를 집계하는 방식과 대중이 이해하는 방식 사이에는 종종 괴리가 존재한다.
예를 들어, 실업률의 경우 통계기관이 정한실업자의 정의는 일정 기간 동안 적극적으로 구직 활동을 했음에도 불구하고 직장을 구하지 못한 사람만을 포함한다. 그러나 일반 대중은 단순히 일을 하지 않는 모든 사람을 실업자로 인식할 수 있다.
또한, 퍼센트(%) 단위로 된 데이터에서 자주 발생하는 실수는 40%에서 80%로 변화한 데이터를, 100% 증가나 40 퍼센트포인트(%p)가 아니라, 40% 증가했다고 표현하는 것이다. 이처럼, 표현상의 차이가 실제 수치 해석에 중대한 영향을 미치는데도 불구하고 이 둘을 혼동해 오해를 낳는 경우도 많다.

 

다각적 해석의 필요성: 데이터의 해석에서 논리적 비약이 존재하지 않는가?

데이터 상에 나타나는 패턴은 지표 간에 상관 관계 그 이상을 의미하지 않는다. 이를 인과관계로 해석하기 위해서는 유사 사례의 교차 검증, 상관관계의 발생 이유에 대한 다양한 맥락 고려가 필요하다.

 

잘못된 데이터 해석은 사회에 어떤 파장을 가져올까? 대표적으로 2015년 딜런 루프의 아프리카 감리교회 총기 난사 사건을 들 수 있다. 딜런 루프는 2015년 미국 사우스캐롤라이나의 아프리카계 감리교회에 들어가 총기를 난사했고 이로 인해 9명이 사망하였다. 조사 결과, 그는 이 일을 저지른 이유가 흑인이 백인을 의도적으로 범죄 대상으로 사실 때문이라 진술했고, 그러한 사실을 한 보수 시민단체의 보도 및 차트에서 알게 되었다고 말하였다.

 

이 보도는 다음과 같은 범죄 가해자 중 백인과 흑인이 범죄를 저지른 피해자의 인종 비율을 제시한다:

백인 가해자백인 피해자 vs. 흑인 피해자: 82 : 4

흑인 가해자백인 피해자 vs. 흑인 피해자: 39 : 41

 

이 수치는 미국 사법통계국의 신뢰 가능한 데이터에서 가져온 것이지만, 보도의 해석은 심각한 논리적 비약이 포함돼 있다.

예컨대, 백인은 전체 인구의 약 60%, 흑인은 약 15%를 차지한다. 만약 범죄 대상을 무작위로 고른다면, 인구 비율 상 백인이 범죄 피해자가 될 확률은 자연스럽게 더 높다.

무엇보다 중요한 문제는, 해당 차트를 만든 단체가 인종 간 범죄가 인종 증오 범죄라는 주장을 뒷받침할 더 명확한 교차 데이터 없이 해석을 일반화했다는 점이다. 이런 사건 흐름은 데이터 자체는 사실일 수 있으나, 그것을 해석하는 틀에 따라 전혀 다른 결론이 도출될 수 있다는 점을 보여준다.

(* , 여러 보도에서 이 사건을 증오 범죄로 서술하는 것처럼 그는 이 차트를 접하기 전에도 백인우월주의를 가졌었다)

 

신뢰할 수 있는 데이터를 선별하는 방법

데이터의 한계를 인지하고 다각도로 해석하기 위해서는 시간적 한계를 고려하면서도 충분히 신뢰할 만한 데이터를 선별할 수 있어야 한다. 저자는 몇 가지 원칙을 제시한다.

 

- 출처의 투명성 & 신뢰성

모든 데이터를 검증하는 건 현실적으로 시간이 충분하지 않다. 따라서 믿을만한 미디어 매체를 선별하는 것이 중요하다. , 아무리 전문적인 미디어라도 단 한번의 실수조차 하지 않을 수는 없다. 하지만, 실수를 바로잡기 위한 충분한 정정 노력이 없다면 과감히 배제해야 한다. 정정은 최초 보도 못지 않게 전파가 충분히 될 수 있도록 노력해야 한다.

 

- 데이터와 차트의 한계를 인지하는 것

데이터의 집계 과정에서 평균 값은 편차의 정도에 따라 모집단 대표성이 떨어진다. 이처럼 집계 방식의 한계를 감안하여 중위 값 분석처럼 보완적인 데이터를 함께 확인해야 한다. 또한, 모든 차트는 상관 관계에 불과하며, 그것을 인과관계로 확증하기 위해서는 다방면의 해석을 수렴해야 한다.

 

- 다양한 정치적 범주의 정보를 수렴할 것

데이터에 대한 다각적 해석을 위해서는 익숙한 매체 외에도 다양한 매체를, 때로는 정 반대의 견해를 들어볼 필요가 있다. 우리의 정신은 나와 반대되는 견해에서 불편을 느끼지만, 자연스레 비판적인 해석을 하며 더 나은 결론에 도달할 수 있다.

 

- 프로파간다, 지나친 논리적 비약을 경계할 것

누구나 정치적 견해가 있지만, 그렇다고 증거에 위배되는 주장을 해서는 안 된다. 증거에 기반한 가장 보수적인 추론만이 향후 더 나은 공론을 이끌 원동력이 된다. 반면, 당파성이나 권위에 기대어 자기 논리 외에 다른 논리를 악마화 하는 사람, 감정에 호소하거나 공격적인 어조로 논의를 비트는 사람을 경계해야 한다. 공론이 발전하기 위해서는 타인을 설득함에 있어서 가장 중립적인 근거로 신중하게 논의를 접근하며, 얼마든지 자신도 틀릴 수 있음을 인정하고, 반론을 자기에 대한 공격이 아니라 더 나은 결론으로 도약하기 위한 기회로 받아들일 수 있어야 한다.

 

- 냉소주의의 일반화 경계

데이터 분석 및 해석의 복잡성에 염증을 느끼면 더 단순하면서도 화끈한 발언들에 끌리곤 한다. 특히 오늘 날은 다양한 매체를 통해 비전문가의 의견이 힘을 얻는 경우가 많다. 비전문가의 의견도 타당성이 있지만 데이터 및 특정 주제의 전문가만큼 전문적일 순 없다. 타당성의 유무가 전문성의 동일을 의미하진 않으며, 그렇다고 권위가 항상 옳지도 않다. 데이터에 대한 회의적 의심은 필요하지만, 이것이 전문가 집단 전체에 대한 불신으로 일반화되면 안 된다.

 

4. 데이터 패턴을 읽기

차트는 표시되어 있는 것만 보여준다.

인간은 주어진 정보로부터 기존의 믿음을 증명하려는 경향이 있다. 이런 경향은 차트나 데이터를 볼 때 필요 이상의 논리적 비약을 하는 경향으로 이어진다. 하지만, 데이터와 차트는 그 자체만으로는 지표 간의 공변 관계 그 이상도 그 이하도 아니며, 이상의 어떤 해석도 보장하지 않는다. 차트를 해석하는 마지막 과정은 차트와 데이터의 패턴에서 논리적 비약의 여부를 검증하고 다각적 해석을 통해 점진적인 결론을 도출하는 것이다. 이 장에서는 일반적으로 발생하는 논리적 비약인 상관관계와 인과관계의 혼동, 합병 패러독스, 생태적 오류에 대해 살펴본다.

 

교란 요인과 역 인과관계

상관관계가 인과관계가 아닐 수 있는 이유를 알기 위해, 국가별 담배 소비량과 기대 수명 간의 상관 관계를 생각해보자. 담배는 건강에 해롭다는 통념과 달리, 두 데이터 지표는 양의 상관 관계를 가진다. , 담배 소비량이 높은 국가일수록 기대 수명이 높은 양상을 띈다. 그렇다면, 담배를 많이 필수록(원인) 기대수명이 증가할까(결과)

여기서 교란 요인과 역 인과관계가 존재할 수 있다. 교란 요인이란 독립 변수와 종속 변수에 영향을 끼치는 제3의 변수를 의미한다. 위 예시에서는 담배 소비량과 기대 수명이 서로 직접 인과관계를 가지는 것이 아니라, 국가의 경제적 수준과 정치적 안정성이 양 쪽에 양의 상관관계를 가지는 것일 수 있다. 역 인과 관계는 독립 변수와 종속 변수의 인과 흐름이 반대인 것을 의미한다. 예컨대, 담배를 소비할수록 기대수명이 증가하는 것이 아니라, 기대수명이 증가할수록 담배 소비의 경향성도 올라가는 것일지 모른다.

 

생태 오류와 합병 패러독스

위 예시에서 발생 가능한 다른 논리적 오류로는 생태 오류(ecological fallacy)가 있을 수 있다. 생태 오류 란, 개인, 가족, 지역, 국가 등 한 단위의 상관 및 인과관계를 더 작은 단위에 적용하려는 것을 의미한다. 예컨대, 한 국가에서 특정 정당에 대한 투표율이 우세하다고 해서 국가 내 지역별 집단이나 연령별 집단에서도 동일한 양상이 나타날 거라 판단하는 것이다. 이런 현상이 발생하는 이유는 모집단의 단위가 달라지면 그들에게 영향을 끼치는 주요 환경과 맥락 역시 달라지기 때문이다(반대로 개인에서 발현되는 현상, 혹은 작은 집단 단위에서 발생하는 현상을 더 큰 사회 집단의 특성으로 일반화하려는 것을 개인주의적 오류라고 부른다. 그리고 생태적 오류와 개인주의적 오류 모두 집단 단위에 따라 달라지는 상관관계를 무시하고 병합하려 한다는 점에서 합성의 오류라 부르기도 한다) 이전의 담배 예시에서 국가 단위에서 담배 소비량과 기대 수명은 양의 상관관계를 가지지만 개인 단위에서는 음의 상관 관계를 가진다. 이를 무시하고 담배를 피는 개인은 기대수명이 높은 경향이 있다고 얘기한다면 생태적 오류를 저지르는 것이다.

생태 오류는 합병 패러독스(책 내용은 심플슨의 역설을 설명하는 것 같다)와도 관련이 있다. 합병 패러독스는 데이터를 부분적으로 잘라내거나 하위 그룹으로 나누면 기존 패턴이 약해지거나 역전되는 현상을 말한다. 장기적으로는 우 상향하는 주식 차트에서도 단기적으로는 하향하는 부분이 존재하는 것이 하나의 예시이다. 아까 담배 얘기에서는 국가들을 소득 별로 분할하여 보면 담배 소비와 기대 소득 간의 양의 상관관계가 확연히 약해진다.

 

복합적 인과관계

인과 관계라는 용어는 두 변수가 외부 맥락과는 관계없이 서로 간에 특별한 영향 관계를 맺는 것처럼 보일 수 있다. 하지만 실제로는 제3의 요인에 의해 두 변수 간의 관계가 약해지거나 양상이 아예 달라지는 경우도 존재한다. 예컨대, 종교와 삶의 만족도 간의 관계는 종교 자체를 떠나, 믿는 사람이 얼마나 어려운 삶에 처해있으며 그것이 종교로서 해소 가능한지에 크게 영향받는다. 경제적 불평등이 크고 정치적으로 불안정하며 사회적 인프라와 네트워크가 열악한 환경일수록, 종교는 심리적 위안과 대안적 공동체로써 큰 역할을 하고 삶의 만족도를 향상시킨다. 이는 인과 관계가 다양한 요인들의 단순한 합이 아닌, 서로 얽혀서 상관 관계를 변화시키거나 강화 혹은 약화시키는 복합적 구조임을 보여준다.

 

인과 관계를 확립하기 위한 다양한 연구

이처럼 통계적 상관관계 그 자체만으로 인과관계를 추론하려 하면 위 오류들을 범하기 쉽다. 따라서 다양한 시각에서 추가적인 연구가 필요하다. 예컨대, 상관 관계가 다른 분석 단위(: 개인, 국가 등)에서도 유지되는지를 확인하는 교차 연구나 다른 교란 요인을 고려하여 실험 조건을 바꿔서 반복적으로 진행하는 연구들, 그리고 실험적 또는 통제된 조건에서, 독립 변수의 변화가 종속 변수에 미치는 영향을 정량적으로 검증하는 연구를 수행할 수 있다.

이는 차트나 데이터가 새로운 인과적 가능성을 열어두는 것에 불과하며, 그것을 확정하기 위해서는 여러 해석 가능성을 둔 다각적 접근이 필요하다는 걸 보여준다.

 

5. 우리의 마음에 대해: 인지 편향성

나는 팩트가 서로가 서로의 이해관계와 프로파간다를 넘어 합의 가능한 토대라고 생각했다. 왜냐하면 적어도 우리는 진실을 향한 의지와 양심을 가지고 있다 생각했기 때문이다. 하지만, 이 책을 읽으며 우리의 마음은 유연하게 생각을 바꾸기에는 생각보다 더 견고하고 고집스럽다는 걸 새삼 알게 되었다.

 

1) 자기정당화와 현실 왜곡의 심리

인지심리학자 위고 메르시에(Hugo mercier)는 그의 저서 <이성의 진화>에서, 인간의 정신은 기본적으로 증거에 의한 유연한 추론보다는 자기 합리화에 가깝다고 주장한다. 통념은 인간의 정신이 경험적 증거에 의해 인식을 끊임없이 개선한다고 생각하지만, 실제로는 태어나면서 집단의 문화를 흡수하며 경험보다 먼저 가치관이 형성되고, 이에 반하는 경험과 증거를 만나면 인식을 수정하기 보단 증거를 의심하고 수정하여 기존 인식을 정당화하고 강화하려 한다.

그의 주장은 사회 심리학자 엘리엇 에런슨(Elliot Aronson)은 그의 저서 <거짓말의 진화: 자기정당화의 심리학>에서 주장한 선택의 피라미드 이론으로 뒷받침된다. 그의 실험에서는 두 학생이 커닝의 부도덕성에 대한 인식이 비슷한 상황에서 한 학생이 커닝을 하고 어떤 심경의 변화가 생기는지 관찰하였다. 그 결과, 커닝을 한 학생은 자신의 행동에 대한 강력한 자기 정당화를 겪으며 커닝에 대한 인식이 긍정적으로 변화하였다.

이런 현상은 통상적으로, 인간은 자신이 처한 현실보다 도덕적으로 이상적인 자아상을 확립하려는 경향에서 시작하는 것 같다. 이 자아상에 충돌하는 실수를 저지르거나 자기 모순에 빠지면 인지부조화를 겪게 된다. 인지 부조화란, 서로 다른 두 사건 혹은 인지 간에 충돌을 겪을 때 심리적 불편함을 느껴서 어느 한쪽을 수정하여 이 불편함을 해소하려는 경향이다. 인지의 수정 작업은 기존이 인식에 부합하는 데이터를 쉽게 믿고 선별하며 더 의미의 비중을 두는 확증 편향, 기존 인식에 모순되는 증거를 더 의심하고 비판하거나 부정하는 동기에 의한 추론의 경향에 의해 결국은 기존 인식에 반대되는 증거를 왜곡함으로써 이상적인 자아상을 지키는 방향으로 나아간다.

 

2) 비판적인 사고와 유연한 정신을 확립하는 방법

견해에 대한 진지한 질문과 건설적인 피드백을 해줄 동료

자기정당화의 틀 안에서 벗어나 정신이 현실을 직시하는 유연함을 가지기 위해서는 어떻게 해야 할까?

먼저, 자신의 견해에 동조하기 보단 질문과 건설적인 비판을 해줄 동료를 찾아야 한다. 혼자서는 아무리 많은 책을 읽고 지식을 습득하더라도, 내면의 가치관과 인식 자체를 수정하기는 어렵다. 왜냐하면 정신은 새로운 지식으로 내면을 비판하기 보단, 지식 자체를 자기 합리화를 위해 수정하기 때문이다.

따라서, 자신과 견해에 질문을 던지고 반박을 할 동료나 공동체가 필요하다. 책에서 저자는 다음같이 설명한다.

"안타깝게도 인간은 혼자서는 이성적으로 추론하기 힘들며 특히 사고방식이 비슷한 이들에게 둘러싸여 있을 때는 더욱 어렵다는 점을 배울 수 있다. 그럴 경우 자기 강화를 위해 논거를 사용하는 경향에 따라 결국 합리화에 도달한다. 최악의 뉴스는 우리가 지적이고 정보가 많을수록 성공적으로 자기 합리화를 한다는 것이다

 

건설적인 논의를 위한 자세

건설적인 논의는 쉬운 작업이 아니다. 현실에서 우리는 나의 견해에 부딪히는 수많은 사람들을 만날 수 있지만 그렇다고 그것이 건설적인 토론과 더 나은 합의를 도출하는 경우는 드물다는 걸 감안하면 그 어려움을 느낄 수 있다.

 

저자는 이를 위해 스스로가 변화해야 함을 강조한다. 마치 자신의 견해에 전혀 동의하지 않는 사람을 설득하듯, 자기 주장을 보편 타당한 논리와 근거, 이를 뒷받침하는 신빙성 있고 정량화된 증거 자료. 예상 가능한 반박과 재 반박의 논증 구조를 만들어야 한다. 그렇게 해보면 자기 마음에 담고 있던 상식들이 생각보다 허술하여 의도치 않게 권위에 의존하거나 상식이라는 식으로 얼렁뚱땅 논증을 넘어가고 때로는 상대를 이유 없이 멍청한 악마로 몰아 갈려는 걸 발견할 지도 모른다.

 

이러한 자기 반박은 괴롭고 시간이 많이 들지만, 타인의 상반된 의견에 대한 겸허함을 가지고 자신이 틀리는 것에 대한 두려움을 버리게 해준다. 자기 의심은 견해를 바꿀 수 있는 가장 강력한 힘이다. 생각이 확고한 사람을 설득할 때에도 반박과 증거를 성급히 던지면 오히려 인지부조화를 느끼며 수비적으로 돌아설 수 있지만, 진심 어린 경청과 구체적인 설명 요구, 질문으로 빈 곳을 찔러서 서로 간 격차를 상대화하고 스스로 혼란과 의심을 품게 하면 조금씩 확고한 인식을 부드럽게 바꿀 수 있다. 저자는 다음같이 건설적인 추론을 위해 상호 간에 필요한 태도를 설명한다.

 

한편 추론은 토론을 시작하기 전에 자신의 의견에 동의하지 않는 상대방을 가능한 한 보편적으로 타당하고 일관적이며 구체적인 주장으로 설득하기 위한, 동시에 그 과정에서 언제든 스스로 설득당할 준비가 되어 있는 정직하고 솔직하며 열린 대화다."

 

인간은 다양한 도구와 지식을 축적하며 육체와 정신의 한계를 극복하고 영역을 확장했다. 발전된 교통 수단이 활동의 범위를 확장하고 계산기나 컴퓨터, 고도화된 전산 시스템이 상호 간에 협력이나 개인 정신의 한계를 확장한 것처럼 말이다.

 

지적인 측면에서 차트와 데이터는 세상에 대한 우리의 인식을 단순한 직관, 믿음에서 더욱 확장하여 더 생산적인 논의를 이끌어 낼 수 있다. 반대로, 개인의 이익을 위해 거짓 정보로 상대를 기만하고 반론을 공격하며 침묵시킬 수도 있다. 차트를 통한 성급한 결론은 그것을 믿고 싶은 자에게 매력적이고, 너무 많은 데이터로 피로감을 느끼는 많은 사람들에게 공감을 한다. 나 역시도 그랬으니까. 하지만, 저자는 우리가 더 생산적인 논의를 지속하려면 차트는 공변하는 데이터를 아는 것에서 멈춰야 하며, 그것이 애매모호한 결론이지만 이를 바탕으로 ""라는 추가 논의와 "정말인가" 교차 검증을 이어나갈 수 있다는 점에서, 세상은 더욱 나아질 수 있다는 점을 강조한다.

 

결론

오늘날 공론을 논하면서 차트는 시민들에게 데이터를 보여주는 주요 수단으로 자리 잡은 것 같다. 하지만, 동시에 차트와 데이터를 주물러 자신의 주장에 성급하게 연결하고 다른 반론과 시각을 고려하지 않은 채 공격적으로 단언하는 사례들이 늘고 있다. 이 책은 사람들이 너무 쉽게 차트와 데이터에 팩트라는 권위를 부여하는 것을 우려하며, 시각화 데이터를 이해하는 기본 문법 뿐만 아니라, 차트와 데이터를 이해할 때 수많은 오류가 생길 수 있음을, 그리고 인간의 추론 능력이 생각보다 이성적이지 못하고 한계가 있음을 경고한다

 

미주

1.

1) 칼 포퍼(Karl Popper)반박 가능성(falsifiability)’ 이론은 20세기 초 논리실증주의의검증 가능성원칙에 대한 비판적 대안으로 등장했다. 그는 과학 이론이 과학이기 위해서는 단순히 경험에 의해확인될 수 있는 것이 아니라, 명확히 반박될 수 있어야 한다고 주장했다. 이로써 과학은 절대적 진리를 지향하기보다, 끊임없는 반박과 수정의 과정을 통해 진보한다는 비판적 합리주의 관점을 제시했다.

이 이론은 과학을 독단적 주장이나 신념 체계와 구별 짓는 기준을 제공하며, 과학적 사고와 공적 담론의 투명성과 개방성을 강조하는 데 기여했다. 이는 시각화나 데이터 기반 논증 등에서도 검증 가능성과 반박 가능성의 균형을 요구하는 철학적 기반이 된다.

다만, 반박 가능성 기준은 모든 학문에 일괄 적용되기 어려우며, 사회과학이나 심리학처럼 이론의 구체적 반박이 어려운 분야에서는 제한적으로만 유효하다는 비판도 있다. 또한 실제 과학사는 항상 반박을 통해만 진보한 것은 아니며, 토마스 쿤(Thomas Kuhn)의 과학사 이론처럼 과학 패러다임의 전환을 통해 발전한 측면도 존재한다.

 

2

(1) 2015, Jason Chaffetz 의원 주도 하원 청문회는 책 내용 외에 아래 내용을 교차 검증함

 https://en.wikipedia.org/wiki/Jason_Chaffetz#Planned_Parenthood_hearings

 

(2) 속이려는 의도가 있었다는 판단은 책 내용 외에 아래의 보도자료를 기준으로 서술함

https://oversightdemocrats.house.gov/news/press-releases/politifact-awards-chaffetz-a-rating-of-pants-on-fire-for-using-misleading-chart?utm_source=chatgpt.com