Виктория Куканова, директор Калмыцкого научного центра Российской академии наук:

 – Национальный корпус калмыцкого языка был разработан молодыми учеными-филологами.  Не секрет, что проблема сохранения родного языка, разнообразия культурных ценностей народов РФ приобрели сегодня особую актуальность, поскольку достаточно широко распространяются компьютерные технологии дистанционного глобального пространства. Это модное развитие приводит к тому, что с одной стороны происходит унификация культур и сокращается культурное разнообразие и многообразие России, а с другой стороны именно это бурное развитие компьютерной технологии создает новые возможности для сохранения национальной культуры и языка.

Корпус калмыцкого языка, который был создан нами, является компьютерным инструментом исследования языка.

Сразу же возникает вопрос: что такое корпус? В лингвистике этот термин стал применяться во второй половине 20 века. Под корпусом понимается информационно-справочная система, которая содержит сведения о тексте и в то же время информацию о языковом знаке этих самих текстов. Все тексты делятся на части и слова.  Практически каждая единица получает свое языковое описание.

В 2012 г. на заседании молодых ученых мы докладывали Главе РК Алексею Орлову о перспективных проектах молодых ученых тогда еще КИГИ РАН и заявили о своей идее создать корпус калмыцкого языка как фонд хранения письменного наследия калмыцкого народа. Сейчас уже спустя четыре года этот корпус у нас существует и функционирует, он размещен на портале kalmcorpora.ru . Также имеются локальные диски, которые используются непосредственно учеными РНЦ РАН для исследования лексики и грамматики.

Следует отметить, что работа по разработке корпуса проводилась по двум направлениям. Во-первых, это был титанический труд по оцифровке, сканированию текстов на калмыцком языке, т. е. мы книги сканировали и уже через специальные программы проверяли ошибки. Во-вторых, перед нами стояла еще одна задача – разработка программного обеспечения, нужно было создать программу, которая зацементировала бы автоматическую версию с приписанной ей грамматической информацией.

Первая задача – оцифровка текста – решалась при финансовой поддержке РГНФ, были отсканированы тысячи книг, в том числе переводы на русский язык произведений калмыцкий поэтов и писателей. Затем мы создали свой портал в интернете и что самое главное – мы привлекли широкую общественность. В этой работе участвовали учителя калмыцкого языка, студенты КалмГУ им. Б. Б. Городовикова и даже школьники. Мы оцифровали всего 7281 текст, в настоящий момент фонд национального корпуса калмыцкого языка составляет 8,7 млн слов.

В него вошли произведения различного характера: художественные тексты, поэтические, правоведческие, образцы устного народного творчества, газетные, научно-популярные статьи, переводные тексты.

Другой трудновыполнимой для нас гуманитариев работой являлась проблема создания программного обеспечения, которое могло бы сегментировать текст на части и выписывать к слову грамматическую характеристику. Например, берем слово и четко определяем: к какой части речи оно относится, в каком падеже, числе стоит и т. д.

Мы привлекли программиста, который перевел разработанный нами алгоритм с обычного на компьютерный язык.

В настоящее время на разработанные программы и те базы данных, которые были созданы, центром получены уже соответствующие патенты по результатам интеллектуальной деятельности.

Работа корпуса очень эффективна, разбирает текст практически на 90 процентов.

 

Фото Николая Бошева