С «рюкзаком» интеллекта — в цифровой мир
Вызовы времени. Чем компетентнее специалисты, тем умнее нейросеть
Научные сотрудники ХакНИИЯЛИ с группой приглашённых по договору специалистов-языковедов создали в Яндексе программу перевода с русского языка на хакасский, запуск которой состоится в начале 2026 года.
Идея эта получила конкретное воплощение именно в силу своевременности и востребованности такого перевода. Как и любое рождение нового дела — не без предыстории.
Хоть и с препятствиями, но старт
Директор научно-исследовательского института Нина Майнагашева рассказала, что работа по составлению Яндекс-переводчика началась в 2024 году. Тогда же была создана инициативная группа сектора языка ХакНИИЯЛИ под руководством Ирины Чебочаковой и в общих чертах определена команда приглашённых учёных-языковедов. С этой конкретикой в руках Нина Семёновна и главный специалист по нейросетям Василий Адёшкин на одном из заседаний рабочей группы по сохранению и развитию хакасского языка при правительстве РХ попросили денег на реализацию большого проекта. А когда Василий Иванович вкратце рассказал о возможностях нейросети (к слову, он окончил физтех, и тема его магистерской работы — обучение нейросети хакасскому языку, который он прекрасно знает), правительство приняло проект на ура.
У министерства национальной и территориальной политики республики появилась возможность получить на это дело деньги (их выделяет Федеральное агентство по делам национальностей, курирующее развитие языков в регионах) — два миллиона рублей. Министерство объявило торги, которые выиграла московская компания, занимающаяся арабскими языками и ничего не понимающая в хакасском.
Нас же они хотели сделать субподрядчиком, — пояснила Нина Майнагашева. — Чтобы мы сделали работу, а деньги получили москвичи. А ведь наша группа, напомню, начала это дело до торгов, пока без денег.
Причины расторгнуть такой договор были, что называется, налицо, и следующие торги выиграл ХакНИИЯЛИ. Правда, сумма уже уменьшилась до полутора миллионов рублей. В секторе языка института вплотную занялись переводом с русского на хакасский 11 кандидатов филологических наук, приглашённых учёных — раза в четыре больше, ведь объём работы предстоял колоссальный. Среди совместителей — Клара Бурнакова, доктор филологических наук из Московского городского педагогического университета, Ольга Шагдурова из Института филологии СО РАН (Новосибирск), доктор филологических наук Мария Чертыкова из ХГУ, представители СМИ, писатели, учителя родного языка из школ Хакасии... Из 43 приглашённых некоторые отсеялись: нагрузка неподъёмная при основной работе, сложности перевода, а то и сомнение, получится ли проект. Ведь надо было перевести на хакасский язык необходимый для запуска программы объём — 100 тысяч предложений.
Почему именно предложений?
Для перевода на хакасский из базы Яндекса выгружаются предложения на русском языке (они там есть, когда, в частности, переводили на английский) — короткие, длинные, сложносочинённые и сложноподчинённые, где каждое считается за одну единицу. Затем они загружаются в базу Яндекса уже переведённые на хакасский. Предложения (а не просто слова) нужны для того, чтобы нейросеть увидела все формы слов, грамматику, связи, синтаксические варианты, выучила, какое слово употребляется в том или ином контексте, и так далее. И при определённом количестве предложений (напомним, «прожиточный минимум» в 100 тысяч) нейросеть начнёт сама разбираться со всеми тонкостями — значит, программа готова к запуску для пользователей. И хотя лето 2025-го было сложным (отпуска и прочие причины), работа не останавливалась.
— В сентябре, по мере загрузки предложений на хакасском, мы обнаружили, что уже сама программа помогает нам переводить, нейросеть стала обучаться самостоятельно, — сказала Нина Семёновна.
Каков учитель, таков и ученик
— Сейчас мы готовим корпус, это такой своеобразный учебник для нейросети, — объяснил Василий Адёшкин. — Сеть смотрит, как строятся предложения, включая грамматику. Как она учит внутри себя, мы не понимаем, но учит! Так же примерно, как дети в школе, но она существует в цифровом мире (и если школьнику надо несколько лет для изучения, то наша виртуальная ученица с этим объёмом справится за пару часов). Мы даём корпус (учебник) из 100 тысяч предложений, и нейросеть по этому корпусу переводит, сравнивая свой результат и результат человека, смотрит, в чём разница и что она сделала не так. Шаг за шагом: сначала перевод похуже, по мере увеличения объёма предложений — всё лучше и лучше. Поэтому количество предложений в объёме корпуса напрямую влияет на качество перевода.
— Это первый этап — загрузка 100 тысяч предложений, — продолжила Нина Майнагашева. — Сейчас идёт процесс редактирования переведённого и согласования с компанией «Яндекс». В феврале 2026 года программу перевода с русского на хакасский уже можно запускать. Следующий этап — 300 тысяч предложений, затем 500 тысяч и до миллиона. И вот тогда перевод станет идеальным. (К слову, параллельно мы работаем над переводом с хакасского на русский язык, тоже в Яндексе.) Со временем нейросеть научится точно различать и подбирать такие сложные вещи, как идиоматические выражения, фразеологизмы, устойчивые словосочетания.
— Тут нужен баланс, — дополняет Василий Иванович, — и перевести дословно точно, и сохранить структуру языка, чтобы не было кальки. Нейросеть зависит только от качества перевода, который мы ей дадим. Чем умнее переводчик, тем умнее нейросеть. Это инструмент, который нужно сделать качественно, дать лучший корпус. И тогда Яндекс подготовит программу-переводчик.
Творчество перевода
«Рюкзак», с которым учёные-переводчики отправились в цифровой мир, тяжёл, но содержание его интересно, ведь эта работа, ко всему прочему, подковывает профессионально самих языковедов. Например, как говорят сотрудники сектора языка института, слова, которые, казалось, вот-вот уйдут в архаизмы, можно актуализировать, включая стиль героических сказаний. Но уровень перевода у специалистов всё же разный. С учётом этого обстоятельства в ХакНИИЯЛИ создана редакторская группа, которую возглавила заведующая сектором языка Ирина Чебочакова (она и сама переводит, и редактирует тексты коллег).
— Перевод — работа сложная, — поясняет Ирина Максимовна. — Русский и хакасский языки разные типологически, с разной грамматикой. Но надо добиваться максимальной точности. Поэтому я подготовила рекомендации для специалистов, учитывая универсальную базу Яндекса, чтобы не было кальки, а перевод опирался на структуру самого языка, его семантические особенности.
— И рекомендации Ирины Максимовны помогли, — говорит Вия Субракова. — К тому же в Хакасии нет тематических словарей (только единственный — Марии Дмитриевны Чертыковой), а при переводе, как правило, возникает много вопросов. Те или иные слова, чувствуешь, в хакасском языке есть, но они нигде не отражены, тогда мы сообща решаем, как перевести. Архаичную, высокую, фольклорную лексику перевести не так-то просто. Порой очень помогают пояснения к эпосу Валентины Евгеньевны Майногашевой. Нейросеть должна видеть разные стили, разную лексику: юридическую, техническую, бытовую и так далее, компьютерные термины, которые и в русском языке являются заимствованными, неологизмы...
— Ирина Максимовна разработала и мини-словарь для новых слов, — добавляет Роман Киргинеков. — Привести к единообразию некоторые термины необходимо, ведь каждый из нас переводит так, как знает язык.
— Приходится искать глубокий смысл русского слова, чтобы подобрать точный хакасский эквивалент. И здесь незаменим толковый словарь русского языка Ожегова, — говорит Раиса Абдина.
И Пётр Белоглазов, и Артём Кызласов убедились на практике: хотя работа по переводу тяжёлая, такой объём и такое углубление в смысл языков чрезвычайно интересны. Конечно, наши языковеды благодарны за поддержку правительству Хакасии, министерствам национальной и территориальной политики, образования и науки.
А Нина Майнагашева, главный человек и в этом деле, с благодарностью перечислила всех, кто причастен к созданию Яндекс-переводчика.
Сотрудники сектора языка ХакНИИЯЛИ
Ирина Чебочакова, к. ф. н., зав. сектором языка; Раиса Абдина, к. ф. н., старший научный сотрудник; Василий Адёшкин, научный сотрудник; Ольга Абумова, к. ф. н., (внешний совместитель, основное место работы — ХГУ имени Н.Ф. Катанова); Пётр Белоглазов, к. ф. н., старший научный сотрудник; Клара Бурнакова, д. ф. н. (внешний совместитель, основное место работы — Московский городской педуниверситет); Артём Кызласов, к. ф. н., ведущий научный сотрудник; Роман Киргинеков, к. ф. н., научный сотрудник; Вия Субракова, к. ф. н., старший научный сотрудник; Мария Чертыкова, д. ф. н. (внешний совместитель, из ХГУ); Ольга Шагдурова, к. ф. н., (внешний совместитель, основное место работы — Институт филологии СО РАН, Новосибирск).
Приглашённые переводчики
Татьяна Казанцева (ХНГИ), Юрий Челтыгмашев (РТС, журналист), Татьяна Тютюбеева («Хакас чирi»), Алевтина Кайдачакова (Бейский район, школа), Татьяна Боргоякова, к. ф. н. (Москва), Инна Тодинова (ГТРК), Изольда Кольчикова (Аскиз, лицей), Карина Кулумаева (Хакасское книжное издательство), Инга Кызласова (ХГУ), Ирина Идимешева (Аскиз, лицей), Ольга Сагалакова (Красный Ключ, школа), Зинаида Патачакова (Нижние Сиры, школа), Нелля Тормозакова (ХНГИ), Сибдей Том (поэт, переводчик, член СП России), Олеся Улугбашева (Абакан, школа № 24), Елена Мамышева (ТВ), Игорь Мамышев (поэт, переводчик, член СП России), Наталья Сюптерекова («Хакас чирi»), Татьяна Кыштымова («Хакас чирi»), Оксана Котюбеева («Хакас чирi»), Клавдия Чебодаева (Куйбышево, школа), Марина Тахтаракова (Национальная библиотека), Алёна Чугунекова (ХГУ), Елена Сагатаева (ХНГИ), Карим Побызаков (журналист).
Идея эта получила конкретное воплощение именно в силу своевременности и востребованности такого перевода. Как и любое рождение нового дела — не без предыстории.
Хоть и с препятствиями, но старт
Директор научно-исследовательского института Нина Майнагашева рассказала, что работа по составлению Яндекс-переводчика началась в 2024 году. Тогда же была создана инициативная группа сектора языка ХакНИИЯЛИ под руководством Ирины Чебочаковой и в общих чертах определена команда приглашённых учёных-языковедов. С этой конкретикой в руках Нина Семёновна и главный специалист по нейросетям Василий Адёшкин на одном из заседаний рабочей группы по сохранению и развитию хакасского языка при правительстве РХ попросили денег на реализацию большого проекта. А когда Василий Иванович вкратце рассказал о возможностях нейросети (к слову, он окончил физтех, и тема его магистерской работы — обучение нейросети хакасскому языку, который он прекрасно знает), правительство приняло проект на ура.
У министерства национальной и территориальной политики республики появилась возможность получить на это дело деньги (их выделяет Федеральное агентство по делам национальностей, курирующее развитие языков в регионах) — два миллиона рублей. Министерство объявило торги, которые выиграла московская компания, занимающаяся арабскими языками и ничего не понимающая в хакасском.
Нас же они хотели сделать субподрядчиком, — пояснила Нина Майнагашева. — Чтобы мы сделали работу, а деньги получили москвичи. А ведь наша группа, напомню, начала это дело до торгов, пока без денег.
Причины расторгнуть такой договор были, что называется, налицо, и следующие торги выиграл ХакНИИЯЛИ. Правда, сумма уже уменьшилась до полутора миллионов рублей. В секторе языка института вплотную занялись переводом с русского на хакасский 11 кандидатов филологических наук, приглашённых учёных — раза в четыре больше, ведь объём работы предстоял колоссальный. Среди совместителей — Клара Бурнакова, доктор филологических наук из Московского городского педагогического университета, Ольга Шагдурова из Института филологии СО РАН (Новосибирск), доктор филологических наук Мария Чертыкова из ХГУ, представители СМИ, писатели, учителя родного языка из школ Хакасии... Из 43 приглашённых некоторые отсеялись: нагрузка неподъёмная при основной работе, сложности перевода, а то и сомнение, получится ли проект. Ведь надо было перевести на хакасский язык необходимый для запуска программы объём — 100 тысяч предложений.
Почему именно предложений?
Для перевода на хакасский из базы Яндекса выгружаются предложения на русском языке (они там есть, когда, в частности, переводили на английский) — короткие, длинные, сложносочинённые и сложноподчинённые, где каждое считается за одну единицу. Затем они загружаются в базу Яндекса уже переведённые на хакасский. Предложения (а не просто слова) нужны для того, чтобы нейросеть увидела все формы слов, грамматику, связи, синтаксические варианты, выучила, какое слово употребляется в том или ином контексте, и так далее. И при определённом количестве предложений (напомним, «прожиточный минимум» в 100 тысяч) нейросеть начнёт сама разбираться со всеми тонкостями — значит, программа готова к запуску для пользователей. И хотя лето 2025-го было сложным (отпуска и прочие причины), работа не останавливалась.
— В сентябре, по мере загрузки предложений на хакасском, мы обнаружили, что уже сама программа помогает нам переводить, нейросеть стала обучаться самостоятельно, — сказала Нина Семёновна.
Каков учитель, таков и ученик
— Сейчас мы готовим корпус, это такой своеобразный учебник для нейросети, — объяснил Василий Адёшкин. — Сеть смотрит, как строятся предложения, включая грамматику. Как она учит внутри себя, мы не понимаем, но учит! Так же примерно, как дети в школе, но она существует в цифровом мире (и если школьнику надо несколько лет для изучения, то наша виртуальная ученица с этим объёмом справится за пару часов). Мы даём корпус (учебник) из 100 тысяч предложений, и нейросеть по этому корпусу переводит, сравнивая свой результат и результат человека, смотрит, в чём разница и что она сделала не так. Шаг за шагом: сначала перевод похуже, по мере увеличения объёма предложений — всё лучше и лучше. Поэтому количество предложений в объёме корпуса напрямую влияет на качество перевода.
— Это первый этап — загрузка 100 тысяч предложений, — продолжила Нина Майнагашева. — Сейчас идёт процесс редактирования переведённого и согласования с компанией «Яндекс». В феврале 2026 года программу перевода с русского на хакасский уже можно запускать. Следующий этап — 300 тысяч предложений, затем 500 тысяч и до миллиона. И вот тогда перевод станет идеальным. (К слову, параллельно мы работаем над переводом с хакасского на русский язык, тоже в Яндексе.) Со временем нейросеть научится точно различать и подбирать такие сложные вещи, как идиоматические выражения, фразеологизмы, устойчивые словосочетания.
— Тут нужен баланс, — дополняет Василий Иванович, — и перевести дословно точно, и сохранить структуру языка, чтобы не было кальки. Нейросеть зависит только от качества перевода, который мы ей дадим. Чем умнее переводчик, тем умнее нейросеть. Это инструмент, который нужно сделать качественно, дать лучший корпус. И тогда Яндекс подготовит программу-переводчик.
Творчество перевода
«Рюкзак», с которым учёные-переводчики отправились в цифровой мир, тяжёл, но содержание его интересно, ведь эта работа, ко всему прочему, подковывает профессионально самих языковедов. Например, как говорят сотрудники сектора языка института, слова, которые, казалось, вот-вот уйдут в архаизмы, можно актуализировать, включая стиль героических сказаний. Но уровень перевода у специалистов всё же разный. С учётом этого обстоятельства в ХакНИИЯЛИ создана редакторская группа, которую возглавила заведующая сектором языка Ирина Чебочакова (она и сама переводит, и редактирует тексты коллег).
— Перевод — работа сложная, — поясняет Ирина Максимовна. — Русский и хакасский языки разные типологически, с разной грамматикой. Но надо добиваться максимальной точности. Поэтому я подготовила рекомендации для специалистов, учитывая универсальную базу Яндекса, чтобы не было кальки, а перевод опирался на структуру самого языка, его семантические особенности.
— И рекомендации Ирины Максимовны помогли, — говорит Вия Субракова. — К тому же в Хакасии нет тематических словарей (только единственный — Марии Дмитриевны Чертыковой), а при переводе, как правило, возникает много вопросов. Те или иные слова, чувствуешь, в хакасском языке есть, но они нигде не отражены, тогда мы сообща решаем, как перевести. Архаичную, высокую, фольклорную лексику перевести не так-то просто. Порой очень помогают пояснения к эпосу Валентины Евгеньевны Майногашевой. Нейросеть должна видеть разные стили, разную лексику: юридическую, техническую, бытовую и так далее, компьютерные термины, которые и в русском языке являются заимствованными, неологизмы...
— Ирина Максимовна разработала и мини-словарь для новых слов, — добавляет Роман Киргинеков. — Привести к единообразию некоторые термины необходимо, ведь каждый из нас переводит так, как знает язык.
— Приходится искать глубокий смысл русского слова, чтобы подобрать точный хакасский эквивалент. И здесь незаменим толковый словарь русского языка Ожегова, — говорит Раиса Абдина.
И Пётр Белоглазов, и Артём Кызласов убедились на практике: хотя работа по переводу тяжёлая, такой объём и такое углубление в смысл языков чрезвычайно интересны. Конечно, наши языковеды благодарны за поддержку правительству Хакасии, министерствам национальной и территориальной политики, образования и науки.
А Нина Майнагашева, главный человек и в этом деле, с благодарностью перечислила всех, кто причастен к созданию Яндекс-переводчика.
Сотрудники сектора языка ХакНИИЯЛИ
Ирина Чебочакова, к. ф. н., зав. сектором языка; Раиса Абдина, к. ф. н., старший научный сотрудник; Василий Адёшкин, научный сотрудник; Ольга Абумова, к. ф. н., (внешний совместитель, основное место работы — ХГУ имени Н.Ф. Катанова); Пётр Белоглазов, к. ф. н., старший научный сотрудник; Клара Бурнакова, д. ф. н. (внешний совместитель, основное место работы — Московский городской педуниверситет); Артём Кызласов, к. ф. н., ведущий научный сотрудник; Роман Киргинеков, к. ф. н., научный сотрудник; Вия Субракова, к. ф. н., старший научный сотрудник; Мария Чертыкова, д. ф. н. (внешний совместитель, из ХГУ); Ольга Шагдурова, к. ф. н., (внешний совместитель, основное место работы — Институт филологии СО РАН, Новосибирск).
Приглашённые переводчики
Татьяна Казанцева (ХНГИ), Юрий Челтыгмашев (РТС, журналист), Татьяна Тютюбеева («Хакас чирi»), Алевтина Кайдачакова (Бейский район, школа), Татьяна Боргоякова, к. ф. н. (Москва), Инна Тодинова (ГТРК), Изольда Кольчикова (Аскиз, лицей), Карина Кулумаева (Хакасское книжное издательство), Инга Кызласова (ХГУ), Ирина Идимешева (Аскиз, лицей), Ольга Сагалакова (Красный Ключ, школа), Зинаида Патачакова (Нижние Сиры, школа), Нелля Тормозакова (ХНГИ), Сибдей Том (поэт, переводчик, член СП России), Олеся Улугбашева (Абакан, школа № 24), Елена Мамышева (ТВ), Игорь Мамышев (поэт, переводчик, член СП России), Наталья Сюптерекова («Хакас чирi»), Татьяна Кыштымова («Хакас чирi»), Оксана Котюбеева («Хакас чирi»), Клавдия Чебодаева (Куйбышево, школа), Марина Тахтаракова (Национальная библиотека), Алёна Чугунекова (ХГУ), Елена Сагатаева (ХНГИ), Карим Побызаков (журналист).
Подпись к фото:Сотрудники сектора языка ХакНИИЯЛИ Вия Субракова, Роман Киргинеков, Пётр Белоглазов, Раиса Абдина, Ирина Чебочакова, Артём Кызласов, Василий Адёшкин и директор этого научно-исследовательского учреждения Нина Майнагашева.
Источник фото:Лариса Баканова
Материалы по теме
Комментарии: 0 шт
735
Оставить новый комментарий