Манипулиране на статистиката

Както се казва, „има лъжа, има явна лъжа и има статистика“. И защо? Но защото статистика често манипулиран, за да изглежда фалшивите данни научни и правдоподобни.

Когато се прилага към политическия живот, манипулирането на статистиката е важно при изборите. Можете да имитирате всестранната подкрепа на кандидата и да превърнете разклатеното предимство в уверено. И можете да посеете семена на съмнение относно целостта на изборите.

Съдържание

[редактиране] Манипулиране на източници на данни

[редактиране] Непредставителна извадка

Има две оплаквания относно лоши извадки: малка (твърде големи грешки) и изкривена (не отразява структурата на цялата генерална съвкупност).

Събирането на доста представителна извадка е своеобразно изкуство и ако не се получи, могат да се случат забавни неща.

Друг пример от същото място. За да се тества ваксината срещу полиомиелит, бяха ваксинирани 450 деца, оставени 680. По време на епидемията никой ваксиниран не се разболя. Тук въпросът е в изключителната рядкост на заболяването, при група с такъв размер средно двама ще се разболеят, а за да бъде статистически значим резултатът, е необходима проба от петнадесет пъти.

[редактиране] Вариация: Survivor Error

Един от най-важните начини да получите изкривена проба, така че никой да не подозира нищо. Когато има „оцелели“, за които информацията е лесно достъпна, и „мъртви“, за които няма информация, е изкушаващо да вземем проба от „оцелелите“ и да кажем: ето представителна извадка. Но това не е вярно: важна информация се крие сред „мъртвите“ и бих искал да възстановя кой. Особено ако задачата не е да се „загубите“.

Нека започнем с пример, който въведе грешка в оцеляването в практиката на математиците. Абрахам Уолд, докато работеше като математик за коалиционните сили през Втората световна война, получи задачата. Не всички атентатори се завърнаха от полети. Тези, които се върнаха, бяха осеяни с дупки. Всички дупки бяха нанесени на един модел; крилата и опашката бяха пробити, а пилотската кабина и централната част бяха чисти. Вярно ли е да добавите броня към крилата и опашката? Уолд каза не! Всички са в дупки, защото са достатъчно здрави. Самолетът, който е бил ударен в пилотската кабина, няма да се върне, но ще лети. Ето защо е необходимо да се укрепят само чистите зони.

"Мъртвите" могат да бъдат направени изкуствено, това е грехът на риалити шоутата, които извеждат най-малко обещаващите участници, докато не получат своите фенове.

[редактиране] Метод на шутър от Тексас

Методът на тексаския стрелец е да стреля и да нарисува цел, където сте я изстреляли, и да закърпи неуспешните дупки. Това е свързано с друг метод на демагогия: Piggy.

[редактиране] Дайте напълно различни числа за сравнение

Но дори не мислех за това. Да тръгнем отново: обещават ми забележим резултат след две седмици. Как те провериха? Измихме косата си с това нещо и, внимание, трик, с друго нещо. И тези две неща заедно имаха забележим резултат. Почти перфектна логика.

От „Как да лъжа Дарел Хъф, използвайки статистика“:

Напълно възможно е г-н Дюи да се е показал като приятел на учители, но посочените цифри не показват това. Това е стар от света трик с „беше“ и „сега“, когато редица фактори се привеждат тайно в действие, за да покажат драматични промени, и тогава случаят се представя така, сякаш тези фактори нямат нищо общо с това. Тук имаме "беше" $ 900 и "стана" от $ 2500 на $ 5325. Това несъмнено създава впечатлението, че ситуацията се е подобрила. Но по-ниската цифра отразява по-ниския праг на учителските заплати в някои селски райони на щата, докато по-високите цифри отразяват диапазона на заплатите на учителите в самия Ню Йорк. Възможно е при губернатора Дюи да се случват подобрения или може би не.

[редактиране] Източник на фалшиви данни

Както се казва, "според проучване, проведено в интернет, 100% от населението е свързано с интернет.".

По-фина манипулация: кажете възрастта на съпругата. На 35 години ще има пик, по-висок от 34 или 36 - просто защото, ако някой не помни възрастта, той дава закръглена цифра. Много по-безопасно да попитате годината на раждане на жена си.

[редактиране] Обработка на манипулация

[редактиране] Объркайте средно, медиана, режим и квантил на достатъчно ниво

Нека започнем с неформални определения.

  • Математическото очакване на случайна променлива е, грубо казано, "средната стойност за безкрайна извадка".
  • Модата е най-често срещаното значение.
  • Квантилът на ниво α е такъв, че вероятността за попадане в диапазона (−∞; x) ще бъде α и в диапазона [x; + ∞) - съответно 1 - α. Думата "квантил" е мъжка.
    • Квантил на ниво 0,5 - вероятността за "недоизстрелване" 0,5 и вероятността за "прелитане" 0,5 - наречен медиана.
    • Три квантили от нива 0,25, 0,5 и 0,75 са квартили. Девет квантила от нива от 0,1 до 0,9 са децили. 99 квантили от 0,01 до 0,99 - процентили.

В нашата статистика, за съжаление, няма математически дадена случайна променлива, има само извадки. Какво може да се направи с тях?

  • Математическото очакване може да бъде апроксимирано чрез примерната средна стойност.
  • За да намерят мода, те изграждат хистограма, изглаждат я, премахвайки случайни колебания и нейният максимум ще бъде мода. Няколко върхове - множество модификации.
  • За да намерите медианата, подредете експерименталните стойности по ред и вземете централната. По същия начин - при достатъчен размер на извадката - можете да получите всеки квантил.

Когато разпределението е симетрично и с форма на камбана, средната стойност, медианата и режимът съвпадат. Но статистиката често се занимава с изкривени разпределения. И така, ако една компания има шеф, който печели 10 000 долара, двама инженери с доход 1500, пет стругаря с доход 800 и седем хамала с доход 300, имаме средно 1273 долара, медиана 800, и мода от 300. Изберете всяка средна стойност в зависимост от това коя искате да показвате доход.

Друго погрешно схващане е по-фино - и, за съжаление, много често. Вземаме медианата или средната стойност и смятаме, че тази цифра е надеждна граница. Пример на живо.

Не всички живеем под метрото и автобусите обикновено се движат на случаен принцип и на неприемливо дълги интервали. Да приемем, че пътуването "средно" продължава 45 минути. Подсъзнателно искам да изляза 45 минути преди времето на H, особено за силни мъже, които могат да прережат пешеходното си рамо с бягане. Но твърде често трябва да бягате: ако средната стойност е средната, половината от времето ще закъснеете; ако това е средната аритметична стойност, то е малко по-рядко. Справя се добре при всякакви обстоятелства? Непрактично е, особено ако планирате такива редки събития като две инциденти подред, разтягащи задръстванията по цялата улица. Затова трябва да кажем: ние например сме доволни, че имаме време за 90% от срещите. С други думи, необходимата дата на излизане е квантил от ниво 0.9.

От „Как да лъжем със статистика“ на Дарел Хъф: По същия начин малките пропуснати подробности в „Нормите на развитие“ на Гезел изпаднаха в паника при татковците и майките. Просто оставете родителя да прочете раздела, в който се казва, че на възраст от толкова месеци детето вече трябва да седи и веднага ще го опита на собственото си бебе. И тъй като около половината от децата към посочената възраст все още не се бяха научили да седят, това направи много, много родители нещастни. Това недоразумение би могло да бъде избегнато до голяма степен, ако заедно с показателя за „нормата“ или средната стойност се посочи и обхватът на тази норма. Тогава родителите щяха да видят, че децата им попадат в нормалните граници и да спрат да се притесняват за незначителни и безсмислени отклонения. ".

[редактиране] Объркайте предишни, условни и задни вероятности

Да приемем, че изследваме вероятността да се разболее, ако е бил ваксиниран и ако не е бил. Тогава имаме:

  • Априорна вероятност - вероятността да се разболеете (дали е убодена - неизвестно е).
  • Условна вероятност - вероятността да се разболее, ако е бил ваксиниран. Или ако не.
  • Задна вероятност - вероятността да сте ваксинирани, ако се разболеете (или ако не сте се разболяли).

Предишната вероятност е свързана с условна съгласно формулата на общата вероятност. Задната вероятност е свързана с условното според формулата на Байес.

Например (цифрите са измислени): от 100 инжектирани хора се разболяха 20. От 10, които отказаха, всички се разболяха. Тогава:

  • Предварителна вероятност - 30/110 ≈ 0,27.
  • Условната вероятност, ако е ваксинирана, е 0,2. Условна вероятност, ако не е ваксинирана - 1.
  • Задната вероятност да бъдете ваксинирани, ако не сте болни - 1. Ако сте болни - 20/30 ≈ 0,67.

Затова разглеждаме последната цифра и казваме: двама от трима болни са ваксинирани! Но ваксинацията превръща почти сигурна болест в 20%!

На езика на математиката: предишната вероятност (вероятността да умреш в цивилния живот, независимо дали си годен за армията) се предава като условна (вероятността да умреш в цивилния живот, ако си в състояние).

Ако една от вероятностите е ниска, получените числа са много различни от интуитивните. Например: алкотестер взема един от стоте трезви за пиян (но винаги намира пиян). На път един пиян от хиляда трезвен. В този случай само 9% от уловените са наистина пияни. Това усложнява борбата с тероризма: когато стотина терористи обикалят град с население над един милион, какви вероятности са необходими, за да не се разруши животът на невинни хора! (rwp: Грешка в основен процент)

Свързани методи: Подправяне на източник на данни, презамплиране

[редактиране] Агрегацията изкривява тенденцията (парадоксът на Симпсън)

Ако пробите имат дисбаланси в обема и условните вероятности, тогава когато те се комбинират, тенденцията може дори да се промени в обратната.!

През 1972 г. и впоследствие през 1992 г. в Обединеното кралство е проведено проучване на заболяванията на щитовидната жлеза и сърцето при жените. Интересува ни едно парче от това проучване - смъртността на възрастните жени при пушене. Проверено е дали жената е починала 20 години по-късно или не (посочена възраст в началото изследвания).