Заключителна работа по предмета "Основи на информационните технологии" използване на информация

Беларуски държавен университет

Заключителна работа по темата

"Основи информационни технологии"

ИЗПОЛЗВАНЕ НА ИНФОРМАЦИОННИТЕ ТЕХНОЛОГИИ В ЛИНГВИСТИКАТА

Катедра по теоретично и славянско езикознание

Базилева Ирина Сергеевна

Доктор по филология, професор

старши учител П.П. Кожич

Съдържание

Резюме по темата "Използването на информационните технологии в лингвистиката" 4

ГЛАВА 1
ЗНАЧЕНИЕТО НА КОРПУСНАТА ЛИНГВИСТИКА В ИЗСЛЕДВАНЕТО НА СЪВРЕМЕННИЯ ЕЗИК 7

1.1. Основни понятия на корпусната лингвистика: текстови корпуси, анализ на корпуса 7

1.2. Универсални и специални текстови корпуси 9

Глава 2
Използване на интернет ресурси в лингвистичните изследвания 11

2.1. Съвременното състояние на интернет ресурсите, посветени на проблемите на лингвистиката 11

2.2. Анализ на съдържанието на интернет ресурси, посветени на лингвистичните въпроси 13

списък с препратки към резюмето 17

ИНТЕРНЕТ РЕСУРСИ В ПРЕДМЕТНАТА ОБЛАСТ НА ИЗСЛЕДВАНИЯ 19

Валиден личен уебсайт в Интернет 21

Графика на изследователския интерес 22

Презентация на докторска дисертация 24

Основи на тестовите въпроси за информационните технологии 25

Резюме по темата "Използването на информационни технологии в лингвистиката"

Информационните технологии (наричани по-долу ИТ) започнаха да играят огромна роля при преподаването на чужди езици, в процеса на алгоритмизиране на езикови задачи, при обработката на езикови текстове и т.н. (виж Зубов 2004). Използването на информационни технологии в лингвистиката се превърна в необходимост. В действителност обаче само малка част от целия обем ИТ се използва за лингвистични задачи: електронни речници и справочници, някои програми от пакета Microsoft Office. Най-често срещаната езикова задача у нас е търсенето на информация в Интернет [3, 239].

За съжаление значителният потенциал на съвременните информационни технологии остава неизползван поради недостатъчна компютърна грамотност на филолозите, липса на финансиране за изследователски проекти по приложни въпроси на лингвистиката, тясно специализирани интереси на изследователите и редица други причини.

Целта на тази работа е да идентифицира основните начини и области на приложение на информационните технологии в лингвистичните изследвания.

Тази работа се състои от въведение, две глави, заключение, списък на използваните източници в размер на 13 заглавия, както и тематичен указател.

Въведението обосновава уместността на изследваната тема. Първата глава обхваща основните понятия на корпусната лингвистика, както и начините за нейното приложение в езиковите изследвания. Втората глава описва текущото състояние на интернет ресурсите, анализира проблемите на езиковото търсене в мрежата, извършва анализ на съдържанието на някои сайтове в Интернет.

ГЛАВА 1
ЗНАЧЕНИЕТО НА КОРПУСНАТА ЛИНГВИСТИКА В ИЗСЛЕДВАНЕТО НА СЪВРЕМЕННИЯ ЕЗИК

1.1. Основни понятия на корпусната лингвистика: текстови корпуси, анализ на корпуса

С помощта на текстови корпуси могат да бъдат решени различни задачи, поради което работата с тях се е превърнала в един от водещите методи за лингвистични изследвания [6, 68-77]. Така че, въз основа на анализа на набор от текстове, може да се направи заключение за езиковия феномен, който представлява интерес за изследователя, например за поведението на граматическа или синтактична структура, използването на изразителни средства в естествена езикова среда, т.е. в реалния живот, а не изкуствено конструиран контекст. В допълнение, корпусните изследвания позволяват, използвайки статистически методи, да се формулира, потвърди или опровергае хипотеза за определен лингвистичен феномен върху голямо количество материал. Освен това, ако изследователят използва вече съществуващ корпус, той напълно заобикаля дългия и трудоемък етап на събиране на материали (интервюиране на информатори, работа с картотечни речници или писмени текстове). По този начин възможността за широко използване на електронни ресурси, от една страна, значително улесни процеса на събиране на информация за филолози и лингвисти, от друга страна, затегна изискванията за доказателствената база на лингвистичните изследвания.

Централната концепция на корпусната лингвистика е писмен текстов масив или корпус от текстове. В лингвистичната литература има няколко определения за текстов корпус. Например, А. Н. Баранов разглежда текстовия корпус като вид корпус с данни, чиито единици са текстове или техните доста значими фрагменти, включително например някои пълни фрагменти от макроструктурата на текстове от дадена проблемна област. В този случай корпус от данни се разбира като извадка от проблемна област, оформена съгласно определени правила, т.е. от областта на внедряване на езикова система, съдържаща явления и която е обект на лингвистично описание [1, 112-113].

А.В. Зубов разглежда корпуса от текстове „като колекция от текстове, които са достатъчна основа за осигуряване на надеждни научни заключения за определен език или друга подгрупа на езика“ [4, 64]. След D.Biber, S. Conrad, R. Reppen, A.V. Zubov разбира анализа на корпуса като използване на текстови корпуси за лингвистичен анализ и подчертава следните характеристики на този тип анализ:

1. Той е чисто емпиричен, тъй като разчита на анализа на реални примери, използвани в естествени текстове.

2. Базира се на специално изградена голяма колекция от текстове на естествен език.

3. Той широко използва компютърния анализ, включително автоматични и интерактивни техники.

4. Разчита на количествена и качествена аналитична техника [4, 64].

Има няколко изисквания за състава и структурата на тялото. Първото е изискването за пълнота. Всеки лингвистичен феномен, колкото и рядък да е той, трябва да бъде отразен в корпуса. Второ, изискването за представителност. Корпусът трябва да отразява определени параметри на изучавания лингвистичен феномен в същата пропорция, както в езика като цяло. Важен параметър на тялото е и неговият обем. Така че, ако първите корпуси достигнаха милион символи, тогава обемът на съвременните корпуси се изчислява на стотици милиони или дори милиарди (известно е, че обемът на английския корпус Bank of English надхвърля 2,5 милиарда думи).

1.2. Универсални и специални текстови корпуси

Повечето съвременни корпусни мениджъри (т.е. програми, които осигуряват сортиране на резултатите от търсенето, статистически изчисления, съставяне на конкорданси и речници, базирани на корпуса) ви позволяват да търсите различни видове информация. Например, търсете конкретни форми на думи, търсете форми на думи по лема (т.е. търсете всички форми на една и съща дума, намерени в текста), търсете нечупливи и прекъснати комбинации от думи. Освен това, благодарение на наличието на специална мета-маркировка, потребителят има възможност да създаде свой собствен подкорпус от текстове, подбрани по жанр, тема, време на писане и т.н. Всеки от изходните примери е снабден с информация за източника, от който е взет примерът. В някои трупове е възможно също така да се получи статистическа информация за определен лингвистичен феномен; относителната му честота, разпределение по жанрове или времеви срезове, честотата на неговата съвместимост.

Глава 2
Използване на интернет ресурси в лингвистичните изследвания

2.1. Съвременното състояние на интернет ресурсите, посветени на проблемите на лингвистиката

В момента Интернет, както и най-популярната услуга на тази мрежа - WWW (World Wi de Web), създаден през 1991 г., позволява на потребителите да обменят почти всякаква информация, да получат достъп до различни информационни източници, които не се намират в непосредствена близост. Отдалечавайки се от чисто утилитарната бизнес употреба на Интернет, съвременното общество започна компетентно и най-важното - също така бързо - да използва услугите на глобалната мрежа за научни цели.

Ресурсите на Интернет се използват в значителна степен за решаване на редица езикови проблеми. Така се разработват сайтове, създадени от групи изследователи по конкретен проблем (http://www.ruslang.ru/; http://www.mapryal.org/), членове на университетски филологически катедри (http://slavic.princeton.edu/events/calendar/detail.php?ID=1921; http://kateosia.by.ru/zaslugi.htm), или от любители потребители, интересуващи се от съвременни езикови проблеми (http://www.kluver.ru/). На тези сайтове има свободно достъпни текстове на статии от различни учени, списък на публикациите, които имат.

Най-популярният ресурс през последните години се превърна в т. Нар. „Дневници на живо“ - онлайн блогове (или дневници) на потребители, на страниците на които се организират и общности на филолозите (http://community.livejournal.com/philologist_ru/profile, http://community.livejournal.com/terra_linguarum/profile). Стойността на този ресурс е не само, че с негова помощ можете да общувате с колегите си, но и че списанията на живо служат като източници на най-новата информация по различни тематични раздели.

В сравнение с голямото разнообразие от езикови сайтове и списания на живо, използването на други интернет ресурси е незначително. Те включват бази данни (включително електронни речници и текстови корпуси) и системи за онлайн машинен превод.

За езиков потребител наличието на речникови източници в мрежата позволява решаване на няколко проблема едновременно: бърз достъп до източника; качествено ново ниво на работа с източника поради удобния интерфейс на онлайн речника; едновременна работа с няколко източника и др. На пръв поглед тези проблеми не биха могли да бъдат решени с помощта на речници на хартия. На този етап от развитието на лингвистиката повечето специални и преводни речници имат електронен формат, оборудвани са с удобна система за търсене и позволяват не само преглед, но и слушане на отделни компоненти на речника. Една от първите едноезични речникови среди беше онлайн речникът Merriam-Webster (http://www.m-w.com). В Интернет ресурсът "Речници и енциклопедии онлайн" (http://dic.academic.ru/), както и официалния уебсайт AskOxford, където можете да търсите лексикални единици на английския език (http://www.askoxford.com/dictionaries/?view=uk) в различни речници едновременно.

Наличен е уебсайт в пълен формат за беларуските филолози, където потребителите имат достъп до редица специални речници онлайн. Този продукт представлява интерес и в смисъл, че съдържа корпус от текстове на беларуски (http://knihi.com). Корпусите от текстове на руски език са от не по-малко значение за изследователски цели (www.рускопор.ru) и английски (http://www.natcorp.ox.ac.uk).

Този кратък преглед на интернет ресурсите ни позволява да осъзнаем, че обемът на сайтовете, наличието на голям брой форуми, речници и енциклопедии могат да бъдат добър инструмент за изследовател-лингвист. Въпреки това, не само броят на уебсайтовете, колко е необходимо качеството на тяхното съдържание, за да се считат за достатъчно подходящи за изследователска работа, включително при писане на дисертационно изследване.

2.2. Анализ на съдържанието на интернет ресурси, посветени на лингвистиката

1) Бързо търсене на информация;

2) Идентифициране на източника на информация;

3) Получаване на най-новата информация;

4) Получаване на важни данни [3, 239].

Има и редица статии, които помагат на потребителя да намери необходимата информация в мрежата (например Интернет LikBez). Както обаче Л.Е. Голубева, „има все повече и повече полезна информация, но намирането на всичко, от което се нуждаете, е все по-трудно“ [3, 240].

От друга страна се появяват специални сайтове, които съдържат множество връзки към източници в определена тематична област (http://orus.slavica.org/taxonomy/term/12).

Трябва също да се отбележи, че не всички сайтове са еднакво полезни за изследователски цели. Интересен пример е форумът "Международна конференция по компютърна лингвистика" (http://www.dialog-21.ru/forum/actualtopics.aspx?bid=16). Вниманието към този ресурс се обръща от факта, че основните лидери на този форум са известни лингвисти. Така раздел „Лингвистична семантика“ се ръководи от известната лингвистка Ирина Кобозева (Москва). Във форума всеки потребител има възможност да задава въпроси на ръководителя на форума. Но очевидно е, че най-информативните в случая са именно отговорите на лингвиста. Това, от една страна, е липсата на форуми (те привличат некадърни хора на място), а от друга, благодарение на бързата обратна връзка, специалистите могат да отговарят на въпроси наведнъж на голям брой потребители, което би било невъзможно в други случаи.

Освен това лингвистичната литература под формата на монографии, дисертации и др. Все още е недостъпна в мрежата. В популярните библиотеки, например, в библиотеката на Максим Мошков (www.lib.ru) и някои други, въпреки наличната литература по икономика, физика, кибернетика, няма раздел, посветен на лингвистичните въпроси. И въпреки че много библиотеки имат свои онлайн каталози, самата работа е почти невъзможна за достъп през Интернет.

Всички изброени интернет ресурси се използват активно от нас при писане на дисертационно изследване. Корпусите от текстове на различни езици и електронни речници са от особено значение. Банките лингвистични статии, които се публикуват на уебсайтовете на университети и лингвистични асоциации, са не по-малко важни.

Заключение

Съвсем очевидно е, че не след дълго ще се появи моментът, в който се появят поръчки за компютърни програми, предназначени да предоставят лингвистични цели и задачи. По-специално остава неотложен проблемът със статистическото преброяване и обработка на лексикални единици, който традиционно се извършва ръчно, но без който не е немислимо нито едно изследване в областта на лингвистиката.

По този начин на съвременния етап от развитието на технологиите компютърната грамотност за филолог вече не е изискване, а необходимо условие и един от компонентите на професионалния успех.