본문 바로가기

통계 속 숫자의 거짓말 - 마케팅 데이터를 읽는 새로운 시선

📑 목차

    요즘 마케팅 관련 자료를 찾다 보면 온통 숫자 천지입니다.

     

    클릭률, 전환율, ROI... 데이터 기반 의사결정이 중요하다는 건 알겠는데, 막상 그 숫자들을 보면 "이게 정말 맞는 걸까?" 싶을 때가 많았습니다.

     

    특히 같은 캠페인인데 보고서마다 다른 수치가 나오거나, 그래프만 봤을 땐 대박인 것 같은데 실제론 별로였던 경험이 있으신가요?

     

    저는 그런 의문이 쌓이던 차에 이 책을 만났습니다. 제목부터 확 꽂혔어요. "통계 속 숫자의 거짓말"이라니, 제가 느낀 불편함을 정확히 짚어주는 것 같았거든요.

     

    통계 속 숫자의 거짓말을 보여주는 이미지
    통계 속 숫자의 거짓말을 보여주는 이미지

    왜 하필 이 책이었나? - 데이터 분석의 함정을 경험한 후

    사실 이 책을 선택한 건 우연이 아니었습니다. 몇 달 전 블로그 운영하면서 애드센스 수익 분석 자료를 보다가 이상한 점을 발견했어요. 

     

    구글 애널리틱스에서 보여주는 페이지뷰와 애드센스 리포트의 페이지 노출 수가 계속 달랐습니다. 처음엔 시스템 오류인 줄 알았는데, 알고 보니 집계 방식 자체가 달랐던 거죠.

     

    수치는 거짓말을 하지 않지만, 어떻게 보여주느냐에 따라 완전히 다른 이야기가 됩니다. 마케팅 대행사에서 일하는 친구에게 물어봤더니 비슷한 경험담을 쏟아냈어요. 

     

    클라이언트한테 보고할 때 같은 데이터로도 좋게 보이게 만드는 게 가능하다는 거예요. 그래프 축만 조정해도, 비교 기간만 바꿔도 성과가 달라 보인다고요.

     

    이게 정말 맞는 건가 싶어서 관련 책을 찾다가 "통계 속 숫자의 거짓말"을 발견했습니다. 

     

    독일 저자들이 쓴 책이라 번역서인데, 리뷰를 보니 마케팅뿐 아니라 일상의 모든 통계를 다루고 있더라고요. 기대했던 건 단순했습니다. 

     

    숫자를 어떻게 의심해야 하는지, 그 기준점을 배우고 싶었어요. 서점에서 책을 펼쳤을 때 눈에 들어온 문장이 있었는데요. "숫자는 객관적이지 않다. 

     

    누군가의 의도가 담겨 있다." 이 한 줄만으로도 살 가치가 있다고 느꼈습니다.

    평균의 함정 - 우리가 놓치는 통계의 맹점

    책에서 가장 인상 깊었던 건 '평균'에 대한 이야기였습니다. 우리는 평균을 너무 당연하게 받아들이잖아요? 

     

    평균 수익, 평균 체류 시간, 평균 구매 금액... 그런데 저자들은 이렇게 묻습니다. "평균이 과연 '보통'을 의미하는가?"
    구체적인 예시가 기억에 남는데요. 

     

    어느 동네의 평균 연봉이 1억이라고 칩시다. 듣기에는 부자 동네 같죠? 그런데 실제론 재벌 한 명이 100억을 벌고 나머지 99명은 천만 원씩 버는 구조일 수도 있습니다. 

     

    통계적으론 맞는 숫자지만, 그 동네의 실제 삶을 전혀 반영하지 못하는 겁니다. 블로그 운영에 바로 적용해봤어요. 제 블로그 평균 체류 시간이 3분이라고 나왔거든요. 

     

    나쁘지 않다고 생각했는데, 자세히 들여다보니 80%는 10초 안에 나가고, 나머지 20%가 10분 이상 머물러서 평균이 그렇게 나온 거였습니다. 

     

    평균만 보고 "사람들이 내 글을 잘 읽는구나" 착각할 뻔했죠. 실제론 대부분이 제목만 보고 뒤로가기를 누른 건데 말이에요.

     

    저자들은 중앙값과 최빈값도 함께 봐야 한다고 강조합니다. 같은 데이터라도 어떤 대푯값을 쓰느냐에 따라 해석이 완전히 달라지니까요. 

     

    마케팅 보고서에서 "평균 전환율 5%"라고 하면 좋아 보이지만, 실제론 상위 10% 제품이 20% 전환율이고 나머지는 1%일 수도 있다는 거죠.

     

    이런 걸 모르면 잘못된 의사결정을 하게 됩니다. 여기서 재밌었던 건 저자들이 제시한 '신발 사이즈 비유'예요. 

     

    한 나라 남성의 평균 신발 사이즈가 270이라고 해서 그 사이즈만 만들면 어떻게 될까요? 아무도 못 신죠. 250도 있고 280도 있고 다양하니까요. 

     

    평균은 참고용일 뿐, 실제 전략을 세울 때는 분포를 봐야 한다는 겁니다. 이 부분을 읽고 나서 제 블로그 유입 키워드를 다시 분석했는데, 정말 생각보다 훨씬 다양하더라고요. 

     

    평균적인 독자를 가정하고 글을 쓸 게 아니라, 각각의 니즈에 맞는 콘텐츠를 만들어야겠다는 생각이 들었습니다.

    그래프가 만드는 착시 효과 - 시각화의 양면성

    3장에서 다룬 그래프 조작 사례는 정말 충격적이었습니다. 아니, 조작이라고 하기엔 애매해요. 

     

    기술적으론 틀린 게 없거든요. 그냥 보여주는 방식만 바꾼 건데 인상이 완전히 달라집니다.

     

    예를 들어볼게요. 매출이 1000만 원에서 1100만 원으로 올랐다고 칩시다. 10% 성장이죠. 그런데 Y축을 0부터 시작하지 않고 900부터 시작하면 어떻게 될까요? 

     

    시각적으로 엄청난 성장처럼 보입니다. 반대로 0부터 10억까지 축을 잡으면 거의 변화가 없어 보여요. 같은 데이터, 같은 성장률인데 말이죠.

     

    그래프는 객관적 도구가 아니라 설득의 도구입니다. 책에서 나온 실제 사례 중에 이런 게 있었어요. 

     

    어느 제약회사가 신약의 효과를 보여주는 그래프를 만들었는데, 효과가 있는 집단만 크게 강조하고 효과 없는 집단은 작은 글씨로 각주에 넣었대요. 

     

    거짓말은 아니지만, 보는 사람 대부분은 효과가 대단한 줄 알게 되는 거죠. 저도 비슷한 경험이 있습니다. 

     

    애드센스 수익 그래프를 보고 있는데 어느 달은 수익이 확 올랐더라고요. 기분 좋게 분석하려는데 자세히 보니 그달만 31일이었고 다른 달은 30일이었어요. 

     

    당연히 하루치 수익이 더 많을 수밖에요. 일평균으로 따지면 오히려 전달이 더 나았던 거죠.

     

    이런 게 바로 저자들이 말하는 '숫자의 맥락'입니다. 숫자 자체보다 그 숫자가 나온 배경을 이해하는 게 중요하다는 거예요. 

     

    책에서는 색상 선택도 중요하게 다루더라고요. 같은 상승 그래프라도 빨간색으로 그리면 위험해 보이고, 파란색이나 초록색으로 그리면 긍정적으로 보인다는 거죠. 

     

    특히 인상 깊었던 건 3D 그래프 이야기였는데, 입체감을 주면 멋져 보이지만 실제론 수치를 왜곡해서 보여준다는 겁니다. 앞쪽 막대가 뒤쪽보다 커 보이는 착시 효과 때문이에요.

     

    그 이후로 저는 마케팅 리포트를 볼 때 꼭 원본 데이터를 요청하게 됐습니다. 

     

    그래프만 보고 판단하지 않으려고요. 특히 블로그 분석 툴에서 제공하는 예쁜 대시보드도 의심의 눈으로 봅니다. 어떤 걸 강조하고 어떤 걸 숨겼는지 살펴보는 거죠.

    상관관계와 인과관계의 혼동 - 마케터가 가장 조심해야 할 오류

    이 부분이 마케팅 실무에서 가장 중요하다고 느꼈습니다. 우리는 두 가지가 함께 움직이면 자동으로 인과관계가 있다고 생각하기 쉽거든요.

     

    책에 나온 유명한 사례가 있어요. 아이스크림 판매량과 익사 사고가 함께 증가한다는 통계요. 그럼 아이스크림이 익사를 유발하나요? 

     

    당연히 아니죠. 둘 다 여름이라는 공통 원인 때문에 증가하는 겁니다. 상관관계는 있지만 인과관계는 없는 전형적인 케이스입니다.

     

    실제 마케팅에서 이런 실수가 얼마나 많은지 몰라요. 제가 본 사례로는, 어떤 쇼핑몰에서 이메일 발송량을 늘렸더니 매출이 올랐대요. 

     

    그래서 더 많이 보냈는데 어느 순간부터 효과가 없어졌죠. 알고 보니 매출이 오른 진짜 이유는 시즌 특수였던 거예요. 이메일은 그냥 같은 시기에 보낸 것뿐이었고요.

     

    저자들은 이걸 피하려면 "왜?"를 세 번은 물어보라고 조언합니다. A와 B가 함께 움직인다면, 정말 A가 B를 일으켰나? 

     

    아니면 제3의 변수 C가 둘 다 영향을 준 건 아닌가? 혹시 우연의 일치는 아닌가? 이런 질문들이요.

     

    블로그로 치면 이런 거예요. 특정 키워드로 글을 쓴 날 방문자가 늘었다고 해서, 그 키워드가 효과적이었다고 단정할 수 있을까요? 

     

    같은 날 네이버 알고리즘이 바뀌었을 수도 있고, 경쟁 블로그가 업데이트를 안 했을 수도 있고, 그냥 사람들이 그 주제에 관심이 많았던 시기일 수도 있습니다. 

     

    원인을 정확히 모르면 다음 글 전략도 틀어지게 되는 거죠. 책에서 소개된 또 다른 사례는 교육 분야였어요. 

     

    어떤 연구에서 아침을 먹는 학생이 성적이 더 좋다는 결과가 나왔대요. 그럼 아침 식사가 성적을 올리는 걸까요? 저자들은 다르게 봤습니다. 

     

    아침을 챙겨 먹을 수 있는 가정환경 자체가 중요한 변수일 수 있다는 거죠. 

     

    경제적 여유, 부모의 관심, 규칙적인 생활 패턴 같은 것들이 아침 식사와 좋은 성적 둘 다에 영향을 미쳤을 가능성이 크다는 겁니다.

     

    이 개념을 블로그에 적용하면서 재미있는 걸 발견했어요. 저는 오후 3시에 글을 올리면 조회수가 더 높다고 생각했거든요. 

     

    실제로 그 시간에 올린 글들이 성과가 좋았으니까요. 그런데 자세히 보니까 제가 오후 3시에는 퇴근 후 여유롭게 글을 다듬어서 올리고, 아침에는 급하게 올렸더라고요. 

     

    시간대가 중요한 게 아니라 글의 완성도가 중요했던 거죠. 시간과 조회수 사이에 상관관계는 있었지만, 진짜 원인은 따로 있었던 겁니다.

     

    저자들은 이런 오류를 피하려면 실험 설계가 중요하다고 강조해요. A/B 테스트처럼 다른 조건은 모두 동일하게 만들고 하나만 바꿔서 테스트해야 한다는 거죠. 

     

    블로거 입장에서 당장 실천할 수 있는 방법은 기록을 남기는 거더라고요. 

     

    글을 올릴 때 시간대, 키워드, 작성 시간, 그날의 이슈 같은 것들을 메모해두면 나중에 패턴을 찾기 훨씬 쉽습니다.

    "통계 속 숫자의 거짓말"을 읽고 나니 숫자를 보는 눈이 달라졌습니다. 

     

    이전엔 데이터만 보면 무조건 신뢰했는데, 이제는 그 숫자가 어떻게 만들어졌는지, 무엇을 숨기고 있는지 먼저 의심하게 됐어요.

     

    솔직히 말하면 이 책도 아쉬운 점은 있습니다. 번역서라 그런지 몇몇 예시가 한국 상황과 안 맞아서 이해하는 데 시간이 좀 걸렸어요. 

     

    그리고 통계학 기초가 없으면 중반부가 다소 어렵게 느껴질 수 있습니다. 저도 몇 부분은 두 번씩 읽었거든요. 

     

    특히 표준편차나 신뢰구간 같은 개념이 나올 때는 검색을 좀 해야 했습니다.

     

    그래도 마케팅 공부하시는 분들, 특히 데이터 분석 보고서를 자주 접하는 분들께는 꼭 추천하고 싶습니다. 

     

    구글 애드센스 승인받으려고 블로그 운영하시는 분들도 마찬가지예요. 내 블로그 데이터를 제대로 읽을 줄 알아야 개선 방향도 보이니까요. 

     

    숫자에 속지 않는 힘, 그게 결국 더 나은 콘텐츠를 만드는 시작점이 아닐까 싶습니다.

     

    다음 글에서는 이 책에서 배운 내용을 실제 블로그 데이터 분석에 어떻게 적용해볼 수 있을지, 구체적인 사례와 함께 정리해보려고 합니다.