«Мы делаем просто потрясающую историю»: Елена Северина о проектах центра Digital Humanities

Руководитель Центра цифровых гуманитарных исследований ЮФУ, профессор кафедры лингвистики и профессиональной коммуникации Елена Северина рассказала о работе над проектом «Конвергенция языковых пластов русского языка в зеркале цифровых решений» в рамках соглашения о научном сотрудничестве с НИУ ВШЭ.

— Из чего состоит проект «Конвергенция языковых пластов русского языка в зеркале цифровых решений»?

В рамках этого большого проекта мы, совместно с коллегами из НИУ ВШЭ, делаем три проекта: «Корпус диалектных текстов», русский учебный корпус «Восток» и проект «Chekhov Digital». В этих проектах участвуют два подразделения — Международная лаборатория языковой конвергенции НИУ ВШЭ и Центр цифровых гуманитарных исследований ИФЖиМКК, который был создан в июне этого года. Эти три проекта связаны между собой востребованностью качественных языковых ресурсов, причем востребованы они для разных задач — как для лингвистических, филологических, исследовательских, образовательных, так и для задач, связанных с искусственным интеллектом. Потому что тексты, которые существуют в интернете, появившиеся уже в цифровом формате, активно используются, их легко скачать, но все-таки они про современные социальные медиа. В общем, это тексты, которые к литературе мало имеют отношения. Поэтому создание хороших языковых ресурсов, которые не просто собрали лингвисты или филологи, они их еще и разметили, — это как раз тот подход, который позволяет решать очень многие задачи в области как лингвистического, филологического исследования текста, так и для любых других исследовани — социологических, философских, политологических и других. С другой стороны, это ресурсы, которые очень востребованы для решения инженерных задач в области искусственного интеллекта — необходимость хороших языковых ресурсов для машинного обучения отмечают все специалисты, например, обучать помощников типа Алисы разговаривать не только на языке социальных сетей, но и на языке литературы.

— Как проходит работа над проектом «Корпус диалектных текстов»?

У нас в Институте силами кафедры общего и сравнительного языкознания собрана потрясающая коллекция донских диалектов. Еще с 90-х годов в РГУ проводились этнолингвистические экспедиции по сбору материалов именно по Ростовской области. Есть много неоцифрованного материала, есть целые тетради записей, интервью на аудиокассетах. Сейчас такие экспедиции тоже проводятся, и информация сразу записывается в цифровом формате.

Если говорить о диалектном корпусе, то диалектные тексты надо не только оцифровать, их еще нужно превратить в формат корпуса. Это означает, что эксперты-лингвисты должны внести некоторый набор тегов, так называемую разметку, специально для компьютера. Работа очень трудоемкая, здесь, с одной стороны, нужна транскрипция потому, что мало записать текст, нужно сделать еще фонетическую разметку, орфографическую разметку, и это делают диалектологи. Затем это все необходимо превратить в формат корпуса, потом уже можно проводить исследования. Мы планируем сделать частотный словарь донских говоров, словарь донских народных географических терминов. Над этим проектом мы работаем совместно с Мариной Флягиной и специалистами кафедры.

— Чем отличаются исследования текстов эритажных носителей и изучающих русский язык как иностранный в Учебном корпусе русского языка?

И одни и другие — это тексты с ошибками. Люди с другим доминантным языком, изучая русский язык, делают определенные ошибки, причем совершенно другие, чем носитель русского языка. И оказывается очень интересным, что люди с разными доминантными языками делают разные ошибки в русском языке, и такого рода исследования проводились и активно проводятся. Различие эритажных носителей и изучающих русский язык как иностранный заключается в том, что эритажные носители — это билингвы, которые русский язык с детства изучали, но какое-то время по разным причинам его не использовали. И потом, когда они начинают снова использовать русский язык, то делают ошибки, и эти ошибки ‑ другие, чем ошибки изучающих русский язык как иностранный. Поэтому для изучения таких ошибок в корпусе должна стоять пометка, что это эритажный язык, и эти пометки ставят эксперты. Поэтому цель этого проекта — сделать корпус текстов, в которых ошибки размечены экспертами. Над этим проектом работают специалисты кафедры русского языка для иностранных учащихся под руководством Юлии Бец.

— «Chekhov Digital» — что это за проект?

В рамках проекта создан сайт, на который загружены первые три тома Полного собрания сочинений А. П. Чехова и 3 тома писем. Каждый текст представляет собой сложную структуру для организации семантического поиска, в отличие от других ресурсов, позволяющих получить контексты, в которых встречаются запрашиваемые слова или словосочетания. У нас сложный расширенный поиск, который позволяет осуществлять поиск по размеченным смысловым сущностям, то есть где-то в тексте должна быть информация о значениях и смыслах, а также метаинформация — где и в каком году этот текст был написан, в каком томе находится, тип текста. В самом тексте есть примечания и ссылки, они находятся прямо в тексте, можно со всем этим работать. Разметку значений и смыслов достаточно сложно сделать автоматически, поэтому ее и делают вручную. Работа идет над тем, чтобы эксперты могли эту информацию размечать. В самом тексте есть примечания и ссылки, они находятся прямо в тексте, можно со всем этим работать. «Chekhov Digital» — это ресурс для исследователей со сложным семантическим поиском. Для того чтобы это стало возможным, тексты должны быть специальным образом размечены.

— Почему Вы взяли произведения именно А. П. Чехова?

Почему мы создаем семантическое издание произведений именно А. П. Чехова? Полагаю, что наше культурное наследие должно быть включено в проект Семантической сети культуры человечества, и, в первую очередь, самые известные наши литераторы. Это Толстой, Чехов, Набоков, Достоевский. Мы видим развитие нашего проекта именно в этом направлении. Почему Чехов? Чехов — это наше все, особенно для нашего региона. Над проектом мы работаем не только с коллегами из НИУ ВШЭ, но и с Мариной Ларионовой — одним из ведущих специалистов-чеховедов.

Погружение в творчество Чехова происходит всю жизнь, так же, как и погружение в тексты любого другого великого писателя, например, Л. Н. Толстого. И хорошие литературоведы — это, как правило, специалисты достаточно узкие. Для организации взаимодействия между текстами разных писателей и их исследованиями могут помочь как раз такого рода издания. Сейчас, например, мы работаем в рамках «Chekhov Digital» над очень любопытным проектом по созданию базы данных имен реальных людей и названий реальных объектов, которые упоминаются в письмах и текстах А. П. Чехова и Л. Н. Толстого. Мы сейчас собираем эту информацию автоматически и хотим ее связать с существующими базами данных, в которых есть уже информация о реальных людях, например, Wikidata. Если удастся связать тексты Толстого и Чехова, информацию о реальных людях, с которыми они взаимодействовали в своих письмах, то, по сути, это дает возможность восстановить культурный контекст второй половины XIX века. Для создания такого ресурса нужны компьютерные технологии, но автоматически с помощью тех ресурсов, которые есть на сегодняшний день, это сделать затруднительно. Такую базу данных для текстов А. П. Чехова мы создаем, следующий шаг — это найти информацию о людях, упомянутых в письмах Чехова, на Wikidata и связать ее с информацией о людях, упомянутых в текстах и письмах Л. Н. Толстого — такая база данных уже собрана нашими коллегами из НИУ ВШЭ.

— Что для Вас было самым сложным в работе над проектом «Chekhov Digital»?

Я вообще не живу в категориях легкости и сложности. Я занимаюсь тем, что для меня важно, интересно, нужно, но не только для меня — это востребовано для развития цифровой среды, для сохранения нашей культурной памяти, для совершенно нового взгляда на нашу культуру. Я занимаюсь тем, что важно и интересно. Необходимо организовывать работу людей, которые работают над этим проектом, много взаимодействовать с коллегами, постоянно готовиться, постоянно чем-то заниматься, постоянно учиться. Для меня это удовольствие. Я делаю это потому, что это важно для меня самой, потому что это нужно для моих студентов, потому что у команды «глаза горят». Мы делаем просто потрясающую историю.

— Что Вас вдохновило на создание «Chekhov Digital»?

Digital Edition — это совершенно новое направление, которое активно развивается. Таких текстовых ресурсов не так уж много. А первым был Роберто Буза, итальянский священник, который создавал набор текстов Святого Фомы Аквинского и некоторых других авторов, одним из первых начал применять компьютерные технологии в литературоведении. Он вручную собирал тексты, со всеми переводами и комментариями. С 2005 года эти тексты существуют в формате корпуса Index Thomisticus онлайн. Вдохновение он дает всем цифровым гуманитарием, потому что это великий пример служения Тексту — Священному Тексту.

Беседовала Лада Семик