Ежедневно политики, журналисты и прочие публичные личности вываливают на наши головы потоки цифр и статистических данных – от динамики ВВП до соцопросов на тему одобрения курортных романов, – а слушатели, толком не разобравшись, спешат им верить. Помимо прямой лжи и фальсификаций, которые тоже явно имеют место, есть и более тонкие способы ввести в заблуждение при помощи цифр и графиков. Вот некоторые из них.

Георгий Неяскин, slon.ru


Корреляция без причины

images«В целом 57% людей считают, что развлекаться лучше в вечер пятницы, чем в вечер субботы. Но среди читающих молитву перед едой 83% считают, что развлекаться лучше в вечер пятницы, чем в вечер субботы». Так звучит одна из сотен неожиданных и странных корреляций, обнаруженных Шоном Галлахером, создателем сайта correlated.org и автором одноименной книги. Несмотря на корреляцию, никакой причинно-следственной связи между молитвой и отдыхом, скорее всего, нет: если вы начнете молиться перед едой, то вряд ли расхотите развлекаться в субботу. Возможно, среди активно молящихся много тех, чья религия почему-то не одобряет развлечений в субботу, а может, все дело в маленькой или неправильно подобранной выборке.

Классический пример, поясняющий разницу между корреляцией и причинностью, таков – чем больше люди едят мороженое, тем чаще люди тонут в водоемах. Это корреляция, но не причинно-следственная связь: если вы перестанете есть мороженое, то ваши шансы утонуть не понизятся. Дело в том, что когда наступает лето, люди из-за жары начинают больше есть мороженого, и одновременно начинается купальный сезон, – естественно, люди тонут, ведь зимой тонуть просто негде. Формально статистика видит корреляцию между мороженым и утопленниками, но по сути оба этих явления – следствие общей причины (лето).

Методы Галлахера далеки от научных (это попросту опросы на его сайте), но он на нее и не претендует. Другое дело, когда подобные сомнительные взаимосвязи серьезно подаются в СМИ, рекламе или специализированных журналах без пояснений о том, что речь идет о корреляции. Примеров достаточно. Это и выявленная экономистами взаимосвязь между подушевым ВВП страны и средней длиной пениса ее мужчин, и связь между долей верящих в ад и экономическим ростом, и зависимость динамики биржевого индекса S&P 500 от национальности полуобнаженной модели на обложке летнего номера журнала Sports Illustrated (с американками рынок растет лучше) и тому подобное. Разумеется, какая-то из этих закономерностей вполне может существовать в реальности, а не являться статистическим миражем.

Хитрая карта

Источник: Darrell Huff. How to Lie with Statistics (Penguin Books, 1973)

Источник: Darrell Huff. How to Lie with Statistics (Penguin Books, 1973)

Карты – сильный инструмент познания мира. В нашу эпоху расцвета всяческой инфографики можно найти карты абсолютно всего: распределения мирового населения, коррупции, экспорта оружия, вымирания российских городов и тому подобного. Но даже такой, казалось бы, непредвзятый способ отображения можно использовать для манипуляций. Сама проекция, в которой взята карта мира, может влиять на расстановку сил в мире. В привычной всем проекции Меркатора Россия и США занимают чересчур большую площадь, а Африка и Южная Америка – слишком маленькую.

Если же на карту наносят какие-то данные, то стоит внимательно следить, что это за данные и как именно они отображены на территории. На карте ниже можно увидеть, как много тратило федеральное правительство США в 50-е годы прошлого века (пример взят из книги «Как лгать при помощи статистики» Даррела Хаффа). Темным цветом закрашены штаты, жители которых в сумме зарабатывают столько же, сколько тратит федеральное правительство. Эту карту очень любили распространять группы интересов, борющиеся за низкие налоги.

Однако тень, накрывающая пол-Америки, выглядит так угрожающе, только если брать штаты с большой территорией на Западном побережье, где доходы и плотность населения в то время были невелики. Совсем другой вид на Штаты (его могли бы использовать сторонники большого государства) открывался, если взять Восточное побережье с его маленькими, богатыми и густонаселенными территориями. Тогда выходило, что центральные власти тратили не больше, чем зарабатывали граждане небольшой кучки штатов вокруг Нью-Йорка.

Обманчивое среднее

Распределение зарплат между сотрудниками компании. Источник: Darrell Huff. How to Lie with Statistics (Penguin Books, 1973)

Распределение зарплат между сотрудниками компании. Источник: Darrell Huff. How to Lie with Statistics (Penguin Books, 1973)

Средняя зарплата московских учителей «вплотную приблизилась» к 70 тысячам рублей, гордо отчитался в конце июня мэр города Сергей Собянин. Должно быть, многие офисные работники в этот момент начали сожалеть, что в свое время не стали поступать в хронически непрестижный «пед», предпочтя ему диплом менеджера или юриста.

Обычно под средним значением понимают среднее арифметическое – в случае с зарплатой складывают заработки всех учителей и делят на количество учителей. Нужно помнить, что этот показатель отражает реальное положение дел не всегда. Например, если платить 20 процентам московских учителей по 150 тысяч рублей в месяц, а 80 процентам по 50 тысяч, то арифметическим средним будет число 70 тысяч, хотя на самом деле большинство педагогов будет зарабатывать меньше этой суммы. Можно прописать пару долларовых миллиардеров в Бирюлеве, это поднимет средний доход жителя района, но никак не повлияет на зарплаты большинства его жителей.

Когда речь идет о заработке людей, полезно смотреть и на другие статпоказатели – моду и медиану. Мода в примере с зарплатами – это просто наиболее часто встречающееся значение зарплаты в выборке. Медиана – зарплата, выше которой получают 50% работников в выборке. По данным Росстата, среднедушевой денежный доход москвича (сюда включаются зарплаты, пенсии, пособия, доходы предпринимателей и доходы в неформальном секторе) – 55 тысяч рублей. Отличная цифра для сторонников лозунга «Хватит кормить Москву». Однако медианный среднедушевой доход жителя столицы заметно скромнее этой цифры (36 тысяч рублей), модальный – более чем втрое меньше (15 тысяч рублей). Максимально наглядно обманчивость средней показана на иллюстрации из книги Даррела Хаффа.

Плохая выборка

Альфред Моссман Лэндон Alfred Mossman Landon 52-й губернатор Канзаса

Альфред Моссман Лэндон
Alfred Mossman Landon
52-й губернатор Канзаса

Накануне президентских выборов 1936 года журнал Literary Digest спросил у 10 миллионов американцев о том, кого они видят президентом США. 57% симпатизировали Альфреду Лэндону, из чего редакция заключила, что победит он. Имя республиканца Лэндона сейчас помнят в основном специалисты по американской истории, поскольку в тех выборах (в 46 штатах из 48) победил демократ Франклин Делано Рузвельт.

Выборка 10 млн человек – гигантская по социологическим меркам. Обычный размер выборки для современных российских опросов – 1600 человек при населении 146 млн человек. Gallup ежедневнозамеряет рейтинг Обамы, опрашивая 1500 американцев из 318 миллионов. И, несмотря на это, мнение 10 миллионов оказалось нерепрезентативным для 128-миллионных США, включая детей и афроамериканцев (последние тогда не имели права голоса).

Почему так произошло? Журнал отправлял карточку с вопросом, в которой надо было указать ответ и бросить ее в почтовый ящик, только тем, кто был в его базе потенциальных подписчиков. А в эту базу попали, в свою очередь, лишь владельцы телефонов и автомобилей – в годы Великой депрессии это были в основном обеспеченные люди, поддерживавшие республиканцев и их представителя Альфреда Лэндона. Бедняки, голосовавшие в основном за Рузвельта, в опрос не попали.

Поэтому прежде, чем доверять данным очередного опроса населения, лучше посмотреть подпись внизу мелким шрифтом, которая рассказывает о выборке. Если это «200 пользователей сайта «Репрезентативная-выборка.ру», либо этой информации нет вовсе, впору насторожиться.

Выбор точки отсчета

Индекс промышленного производства (1860 = 100), логарифмический масштаб: Российская империя / СССР / Россия, 1861–2012 годы. Источник: Смирнов С.В. Динамика промышленного производства и экономический цикл в СССР и России, 1861–2012

Индекс промышленного производства (1860 = 100), логарифмический масштаб: Российская империя / СССР / Россия, 1861–2012 годы. Источник: Смирнов С.В. Динамика промышленного производства и экономический цикл в СССР и России, 1861–2012

За период с 1920 по 2012 год американское промпроизводство выросло в 19 раз, российское – в 198 раз. За этот период российская промышленность пережила 6 кризисов, американская – 15. В США отрицательные темпы роста этого показателя наблюдались в течение 20 лет, в России и СССР – в общей сложности 15 лет. Роскошные цифры, прямо-таки просящиеся на первую полосу газеты «Завтра» или брошюру для посетителей молодежного лагеря «Селигер». Они взяты из препринта Сергея Смирнова, работающего в Центре развития ВШЭ, который довольно трудно заподозрить в жонглировании статистикой в патриотических целях.

И действительно, автор продолжает и делает несколько важных оговорок. Во-первых, налицо эффект низкой базы – в 1919–1920 годах российская промышленность пребывала в ужасном состоянии, и брать этот период за 100% не совсем корректно (в работе он берется только потому, что годовая статистика по США начала публиковаться с 1919 года). Во-вторых, российские экономические кризисы были намного глубже. И наконец, самое главное. Согласно разным оценкам, по уровню производства российская промышленность в 2012 году находилась то ли в 1984-м (оптимистичная оценка Росстата), то ли в 1974 году (пессимистичный консенсус альтернативных оценок). Полная картина выглядит примерно так.

Игра слов

Следить нужно не только за цифрами и графиками, но и за словами. Простой, но зачастую действенный способ запудрить голову статистикой – вывалить на слушателя набор впечатляющих цифр, которые при ближайшем рассмотрении не значат практически ничего. Пример такого приема приводит один из пользователей портала Quora: «80% всех Toyota Camry, проданных за последние 20 лет, все еще ездят по дорогам». Услышав подобную фразу из уст представителя японской корпорации или автодилера, неопытный слушатель, возможно, и выдохнет «Вау!», но стоит перечитать это предложение пару раз, как магия цифр постепенно исчезнет.

Не исключено, что подобное утверждение правдиво. С 1994 года увидели свет шесть поколений Toyota Camry, и вполне возможно, что четыре из пяти проданных с того времени автомобилей все еще можно встретить на улицах. При всем уважении к машинам Toyota налицо недостаток информации, которым продавцы могут воспользоваться в своих целях. А что, если 80% продаж Camry приходится на последние 5 или 10 лет? Это резко меняет картину, но в исходной фразе об этом ничего не говорится. Намного убедительнее звучит вариант: «80% всех Camry в возрасте 20 лет и старше все еще ездят по дорогам».

Отсутствие альтернатив

Золотое правило медицинских экспериментов – сравнивать эффективность препарата с ситуацией, в которой больной не принимает никаких препаратов (эффект плацебо). Пример, приводимый на Quora, – вентилируемые пепельницы, которые когда-то продвигали как средство избавления помещения от табачного дыма. Другое дело, что, как показали исследования, если выключить пепельницу, то дым рассеется по комнате быстрее, чем с включенной вентиляцией. Но производители, разумеется, предпочли опустить эту часть.

Другой аспект – препарат рекламируется как эффективный, показывается, как хорошо он действует по сравнению с употреблением плацебо, однако ничего не говорится об альтернативах, особенно если они оказываются намного дешевле. Можно попытаться рассмотреть в этом контексте и пример с пепельницами. В этом случае обычная пепельница – более дешевая альтернатива вентилируемой. Другой пример – производителям средств от простуды невыгодно сравнивать себя с более дешевыми аналогами вроде парацетамола, упаковка которогосодержит большее количество действующего вещества, хотя и стоит на порядок дешевле.

Спецэффекты в 3D

Фото: Quora

Фото: Quora

Когда график, который вполне можно представить в двухмерном виде, зачем-то делают трехмерным, это явный повод держать ухо востро. От подобного приема не смог удержаться даже мастер презентаций Стив Джобс – и у него неплохо получалось. Сравните доли рынков Apple и Other («Другие компании») на диаграмме: первая визуально кажется больше, хотя на самом деле доля компании и меньше.