SavePearlHarbor

Още едно копие на хабора

Главно меню

След навигация

В Skyeng рядко преподаваме английски от нулата. Обикновено при нас идват хора, които вече имат определен набор от знания и този набор е много различен. За да бъде ученето полезно, трябва по някакъв начин да определим границата на това знание. Ако в случая с граматиката това е относително просто (това се установява в първите уроци с методист), то изясняването на границите на лексиката не е най-тривиалната задача. За да го разрешим, разработихме и стартирахме инструмента WordMash.

Подреждане на думи

Запаметяването на думите е един от основните компоненти на изучаването на чужд език, за който се изразходва по-голямата част от времето и усилията на ученика. Думите на който и да е език, включително английски, обаче не са еквивалентни: някои са по-полезни, защото по-чести (разходка срещу перамбулат); някои са по-лесни за запомняне (процес срещу израстване), с някои ученикът постоянно се занимава за работа или поради интереси. За да се изгради най-ефективната учебна програма (даваща осезаеми резултати за възможно най-кратко време), тези фактори трябва да се вземат предвид.

За ефективното усвояване на нови думи и поддържането на старите в паметта е важно да можете да определите речника (речника) на ученика. Традиционният подход е интуитивното определяне на обема на речника от учителя въз основа на комуникация и тестове. Този подход обаче се основава изцяло на опита и квалификацията на учителя и не може да бъде обективно контролиран.

Идеалният метод за определяне на всички думи, известни на ученика, би бил въпросник в целия речник на езика с два отговора - „знам“ и „не знам“. Ясно е, че е почти невъзможно да се приложи такъв метод: малко ученици са готови да отделят няколко седмици непрекъснато да отговарят на въпроси.

Следователно методът, основан на предположението, че е възможно да се състави списък, подреден по сложност от всички думи на езика, се е доказал добре. Започва с „прости думи“, например тези, които децата научават в самото начало на живота: „мама“, „татко“, „добро“, „лошо“ и т.н. Накрая има „трудни“ думи - професионална лексика, архаизми, местни наречия и т.н. В опростен случай се приема, че ако човек знае някаква дума в този подреден списък, тогава той знае всички предишни думи в този списък; ако човек не знае определена дума, то той не знае и следните думи. По този начин, в идеалния случай, за да се оцени речника на човек, се изисква да се определи позицията на границата на неговото знание: броят на последната дума, която той знае.

Приблизителна графика на познаване на думи в подреден списък в идеален случай. Границата на „знанието“ определя точно размера на речника на ученика.

За съжаление такова перфектно подреждане на думи не е възможно, тъй като реалната лексика на различните хора е различна (освен ако, разбира се, не е нула). Изучаването на думите не се извършва последователно според списъка, одобрен от някой отгоре, то се влияе от избраната програма, учителя, личните и професионалните интереси на ученика. По този начин математик и лекар знаят терминологията на своите области, но не са наясно с термини, които не са от тяхната област; те ще възприемат по различен начин сложността на думите "диференциал" и "карцином".

Следователно има смисъл да говорим за средното подреждане на думите. В този случай няма концепция за ясна граница: ученикът може да знае дума # 1000, да не знае дума # 1001 и отново да знае дума # 1002. За да опишем реални ситуации, има смисъл да разгледаме следния подход.

Нека разбием думите в нашия списък, подредени по трудност, на интервали (например по 100 думи) и за всеки интервал определете процента на думите от този интервал, който студентът знае. Резултатът е относително гладка крива; ако знаем броя на думата, тогава с помощта на графиката можем да видим с каква вероятност ученикът го знае. За тази функция можете да определите медианата: число на думата, така че броят на неизвестните думи преди да е равен на броя на известните думи след. Тази медиана ще играе ролята на аналог на границата и ще характеризира числено речника на ученика.

Типична зависимост на вероятността ученикът да знае дума от номера на думата. Червената вертикална линия показва медианата на разпределението.

Изглежда страхотно, ако не един проблем: как, всъщност, да подготвите списък с думи, сортирани по сложност?

Честотен анализ Британски корпус

Съществува теория, според която средната сложност на думата зависи пряко от нейното разпространение (честота). Всъщност, колкото по-често срещаме дадена дума в учебния процес, толкова по-бързо ще я научим. По този начин, подреден списък с думи може да бъде изграден чрез анализ на честотата на всички думи в тялото на текстовете - специално подбран и обработен набор от различни текстове на езика.

Така че започнахме, като направихме честотен анализ на Британския национален корпус. Корпусът съдържа писмени текстове (книги, статии, документи), разговорни (транскрипции на разговори, записи, филми) и цитати от доклади, адреси и речи. Тези три подкорпуса се различават по обем, но те са еднакво важни за анализа на живия език, поради което при изчисляване на честотата се изравнява тяхното „тегло“ в общия резултат. Освен това честотите бяха изчислени и нормализирани от подкорпуса (бяха осреднени три резултата). Ето извадка от получения списък и графика на честотата спрямо номера на думата: