18+
18+
Образование и наука, Профессии будущего, ТГУ, профессии будущего ТГУ компьютерная лингвистика томские ученые искусственный интеллект Профессии будущего.Кто ищет экстремистов по слогам
РЕКЛАМА

Профессии будущего.
Кто ищет экстремистов по слогам

Томский Обзор продолжает серию материалов, посвященных профессиям будущего. О них не прочитаешь в брошюрах и на сайтах вакансий, однако в скором времени без этих людей не сможет обойтись ни одна из крупных компаний.

В новом выпуске рассказываем о компьютерных лингвистах, которых готовят в Томском государственном университете.

Кто такие компьютерные лингвисты?

Компьютерные лингвисты занимаются описанием естественных языков, то есть, тех, которые используются для общения людей, с помощью математических моделей. Например, они могут задать машине определенные критерии: конкретные слова, последовательность их употребления, контекст — и компьютер определит тональность текста.

Зоя Резанова
Заведующая кафедрой общего, славяно-русского языкознания и классической филологии ФилФ ТГУ, заведующая Лабораторией когнитивных исследований языка ТГУ, профессор, доктор филологических наук

Роль информации в обществе возрастает, поэтому компьютерная лингвистика — это профессия будущего. Я думаю, что мы стоим на пороге ее развития в России, и в дальнейшем роль этой профессии будет увеличиваться в геометрической прогрессии. В США 20 топ-вузов готовят компьютерных лингвистов, в России таких лишь четыре, один из них — в Томске.

Потенциальный абитуриент магистерской программы ТГУ «Компьютерная лингвистика» может быть либо лингвистом, который собирается освоить или «подтянуть» программирование, чтобы подтверждать или опровергать различные лингвистические теории, либо программистом, который понял, что ему необходимо освоить лингвистику.

Выпускник программы будет обладать синтетическим знанием: с одной стороны, он освоит навыки лингвистического анализа текста, с другой — навыки создания и использования систем компьютерной обработки текстов.

Что делают?

Компьютерные лингвисты изучают естественный язык, который устроен так же сложно, как человеческий интеллект. Специалисты ищут части языка, которые легко формализовать и с помощью программных сред «объяснить» компьютеру. Другими словами, задача лингвиста — «разложить по полочкам» слабо поддающиеся этому структуры естественного языка, а программиста — передать их машине в понятном для нее виде.

Для того, чтобы проводить лингвистический анализ, необходимо создавать специальные ресурсы. Например, Национальный корпус русского языка, над созданием которого и работают компьютерные лингвисты. Это своего рода интерактивный словарь, в котором находятся не только полностью разобранные слова (от морфологии до контекстов употребления), но и тексты различных стилей. Специалисты обращаются к этой базе, чтобы формировать, проверять, подтверждать теории по употреблению определенных слов в определенной форме в текстах определенного стиля.

И практически в любой сфере, где ведется текстовая коммуникация, пригодятся навыки компьютерных лингвистов. Например, они учат машины правильно пересказывать большие объемы текстов и работают над адаптацией поисковых систем, вроде Google или Яндекс, к человеческому языку. Одни специалисты занимаются проблемами определения пола автора сообщения по употребленным словам, а другие таким образом даже учатся искать потенциальных (или реальных) террористов!

Где нужны?

Компьютерные лингвисты требуются в любой крупной фирме, которая работает с лингвистическим компонентом передачи информации. Эти специалисты будут востребованы в аналитических центрах почти всех предприятий, поскольку могут качественно оценить отношение клиентов к компании, руководствуясь деловой/соцсетевой перепиской. Компьютерные лингвисты могут анализировать и лояльность сотрудников, изучая их тексты и помогая «написать» картину отношений внутри компании, поэтому их навыки пригодятся не только маркетологам или разработчикам, но и HR-специалистам.

Где готовят?

В мировой практике компьютерных лингвистов готовят либо на факультетах лингвистики, либо на факультетах компьютерных наук. В ТГУ две эти составляющие объединяют в междисциплинарный курс, соединяя и взаимно обогащая гуманитарную науку и науки математического цикла. Магистранты здесь изучают способы формализации языка — синтаксис, грамматику и тому подобные, а также язык программирования Python, статистику. После этого здесь учат предметы синтетические, например, анализ естественного языка с использованием языка программирования, методов машинного обучения и многое другое.

Курс в ТГУ создавали, ориентируясь на разработки Высшей школы экономики. Предполагается, что студенты смогут проходить два вида практики. Одна исследовательская, другая — на базе предприятий. Первая предусматривает участие в больших проектах, например, по исследованию коррупции в сфере государственных закупок, проявлений экстремизма в онлайн пространстве или созданию тех самых корпусов языка, о которых говорилось выше.

Вторая — включение магистрантов в решение конкретной задачи на предприятии. Например, магистранты могут оценивать лояльность клиентов какой-нибудь крупной компании. Для этого они будут собирать при помощи специальных инструментов и изучать весь массив текстов, созданных потребителями заказчика. Это могут быть посты в соцсетях, ответы в комментариях, переписка со службой поддержки — все, что выражает мнение человека с помощью слов. Собранные данные обработают с помощью специальной программы, а после того, как машина выдаст свои результаты, магистранты проанализируют их. В итоге, компания получит детальный анализ отношения к ним клиентов, а магистранты — выпускную квалификационную работу.

Вячеслав Гойко
технический специалист лаборатории наук о больших данных и проблемах общества Института человека цифровой эпохи ТГУ

Появление новой магистратуры радует меня, в первую очередь, как исследователя, ведь ее выпускники — это кадры для следующих интересных проектов. Сейчас мы занимаемся самыми разными темами — от анализа данных социальных сетей и качества жизни в них, до системы управления университетом, поэтому заинтересованы в новых специалистах в этой области. И да, отмечу, что повсеместное внедрение технологий автоматической обработки и анализа текстовой информации вызвало громадный спрос на специалистов в области компьютерной лингвистики не только в России, но и в мире.