Иконометрични информационни технологии

Примерни методи за умножение (методи за първоначално зареждане)

Иконометрията и приложната статистика се развиват бързо през последните десетилетия. Сериозен (макар, разбира се, не единствен и не основен) стимул е бързо нарастващата производителност на изчислителните съоръжения. Следователно живият интерес към компютърно интензивни статистически методи е разбираем. Един от тези методи е т. Нар. "Bootstrap", предложен през 1977 г. от Б. Ефрон от Станфордския университет (САЩ).

Самият термин „bootstrap“ е „bootstrap“ с руски букви и буквално означава нещо като: „издърпване (от блатото) за връзките от ботушите си“. Терминът е специално измислен и ви кара да си спомняте подвизите на барон Мюнхаузен.

  • по мнението на своите пропагандисти той напълно е решил спешен научен проблем;
  • беше разбираемо (при задаване на проблема, при решаването му и при тълкуване на резултатите) за широките маси от потенциални потребители;
  • използва съвременните възможности на изчисленията.

Пропагандистите на метода като правило избягват непредубедено сравнение на възможностите му с възможностите на други иконометрични методи. Ако бяха направени сравнения, то с умишлено слаб "враг".

Говорим за такива методи като bootstrap, невронни мрежи, метод за групово разглеждане на аргументи, стабилни оценки на Tukey-Huber ("Проблеми за стабилността на иконометричните процедури"), асимптотика на пропорционален растеж на броя на параметрите и количеството на данни и др. Има локални изблици на ентусиазъм, например московските социолози през 80-те години на миналия век популяризират така наречения "анализ на детерминацията" - прост евристичен метод за анализ на непредвидени таблици, въпреки че по това време в Новосибирск, по това време, напреднали софтуер за анализ на вектори от различни видове характеристики отдавна е разработен ("Статистика на нечислови данни").

Каква е основната идея на група методи за "умножение на проби", най-известният представител на които е bootstrap?

Нека се даде пробата. В вероятностно-статистическата теория приемаме, че това е набор от независими еднакво разпределени случайни променливи. Нека иконометрията се интересува от някои статистически данни.Как да проучим нейните свойства? Справяли сме се с подобни проблеми в цялата книга и знаем колко е трудно. Идеята, предложена през 1949 г. от М. Кенуй (това е „методът на крик нож“), е да се правят много от една проба, като се изключва едно наблюдение наведнъж (и се връщат предишните изключени). Нека изброим пробите, които са получени от оригинала:

знай

Общо нови (умножени) проби всяка. За всеки от тях можете да изчислите стойността на статистиката, представляваща интерес за иконометрията (с размер на извадката, намален с 1):

информационни

Получените стойности на статистиката ни позволяват да преценим за нейното разпределение и за характеристиките на разпределението - за математическото очакване, медиана, квантили, разсейване, стандартно отклонение. Стойностите на статистическите данни, изградени от умножените подпроби, обаче не са независими, тъй като видяхме "Многовариатен статистически анализ" на примера на редица статистически данни, възникващи в метода на най-малките квадрати и в клъстерния анализ (когато се обсъжда възможността за комбиниране два клъстера), с увеличаване на размера на извадката влиянието на зависимостта може да бъде отслабено и стойностите на статистиката като например могат да бъдат третирани като независими случайни променливи.

Въпреки това, дори без никаква вероятностно-статистическа теория, разпространението на стойностите дава ясна представа за точността, която разглежданата статистическа оценка може да даде.

Самият М. Кенуи и неговите последователи използваха умножението на проби главно за изграждане на оценки с намалено пристрастие. Но Б. Ефрон предложи нов начин за умножаване на извадки, като по същество използва сензори за псевдослучайни числа. А именно той предложи да се изградят нови мостри, моделиране на проби от емпирично разпределение (виж определенията в терминологията, допълнение 1). С други думи, Б. Ефрон предложи да вземе краен набор от n елемента на първоначалната извадка и с помощта на генератор на случайни числа да формира произволен брой умножени проби от нея. Процедурата, макар и нереалистична без компютър, е проста по отношение на програмирането. В сравнение с описаната по-горе процедура се появяват нови недостатъци - неизбежни съвпадения на елементи от умножените извадки и зависимост от качеството на псевдослучайните числови сензори (виж по-горе). Съществува обаче математическа теория, която позволява (при определени предположения и неограничен растеж на размера на извадката) да се оправдаят процедурите за първоначално зареждане (виж колекцията от статии [21]).

Има много начини да се развие идеята за умножаване на проби (вж. Например статия [22]). Възможно е да се изгради емпирична функция на разпределение въз основа на първоначалната извадка и след това по някакъв начин да се премине от функция на части на константа към функция на непрекъснато разпределение, например чрез свързване на точките с отсечки от права. Друга възможност е да преминете към непрекъснато разпределение чрез изграждане на непараметрична оценка на плътността. След това се препоръчва да се вземат умножени проби от това непрекъснато разпределение (което е последователна оценка на оригинала), непрекъснатостта ще предпази от съвпадения на елементи в тези проби.

Друг вариант за конструиране на умножени извадки е по-директен. Оригиналните данни не могат да бъдат определени абсолютно точно и недвусмислено. Поради това се предлага към първоначалните данни да се добавят малки независими еднакво разпределени грешки. С този подход, ние едновременно комбинираме идеите за устойчивост („Проблеми за устойчивост на иконометричните процедури“) и първоначално. При внимателен анализ много идеи за иконометрия са тясно свързани помежду си (вж. Статия [22]).

Подобна е ситуацията и в редица други случаи. Там, където иконометричната теория е добре развита, където са открити методи за анализ на данни, които в един или друг смисъл са близки до оптималните, бустрата няма нищо общо. Но в нови области със сложни алгоритми, чиито свойства не са достатъчно ясни, това е ценен инструмент за изучаване на ситуацията.