ru.ult.kz
  • Главная
  • Общество
  • Культура
  • Спорт
  • U magazine
  • Вторая Республика
  • В мире
No Result
View All Result
  • Главная
  • Общество
  • Культура
  • Спорт
  • U magazine
  • Вторая Республика
  • В мире
No Result
View All Result
ru.ult.kz
No Result
View All Result

Главная страница » Что следует учитывать при переводе текстов с кириллицы на латиницу?

Что следует учитывать при переводе текстов с кириллицы на латиницу?

Редакция Ult.kz by Редакция Ult.kz
15 марта, 2019
in Без рубрики
0

Для автоматического перевода текстов очень важна орфография слов для программы. В конечном итоге, при смене алфавита, в первую очередь необходимо уточнить орфографию таких слов. Это особенно важная проблема, которую необходимо решить для автоматического перевода множества текстов (литературы) с кириллицы на латиницу. И адаптация будущей орфографии к национальной системе произношения является актуальной проблемой.

Автоматический перевод текстов с кириллицы на латиницу не осуществляется легко. Поскольку смена алфавита — это не просто замена одной буквы на другую, это реформа не только лингвистическая, но и политико-социальная. Особенно сложно при смене алфавита подобрать фонды, соответствующие характеру и природе каждого народа. Изменение кириллической письменности в Казахстане, имеющей историю более 70 лет, изменение символических стереотипов, укоренившихся в общественном сознании, — непростая задача. Некоторые символы, привычные и удобные для восприятия, используемые давно на английской клавиатуре, легко воспринимаются, в то время как другие символы вызывают случайность и затрудняют восприятие и запоминание. Кроме того, двойные буквы в казахском алфавите, которых раньше не было в кириллице, создают эстетическую непривлекательность письма, орфографический облик, то есть затрудняют восприятие. Помимо алфавита, еще одна большая работа, выполняемая в письме, — это создание правил орфографии. Новая орфография — это не просто перевод старой орфографии на латиницу, она должна быть переработана для восполнения некоторых недостатков и пробелов старой орфографии, а также для восстановления орфограмм, теряющих национальный код под влиянием экспансии кириллицы, или для нормализации национальной системы речи.

Один из сложных вопросов, вызывающих различные социальные взгляды при проведении реформы письма, — это опасение потерять наши письменные литературные произведения, написанные кириллицей. Известно, что в наше время развитых компьютерных технологий решение этой проблемы не представляет больших трудностей. Конечно, могут быть расходы, такие как переиздание в виде книг, но есть все возможности сохранить литературу и письменное наследие в электронном виде. Это называется автоматическим переводом. Программа, осуществляющая такие действия, называется «конвертер». Иногда используется русское слово «перекодировщик».

Конвертеры, осуществляющие автоматический перевод текстов с кириллицы на латиницу, не просто заменяют буквы. Если бы мы сделали это, огромное количество нашей литературы было бы неправильно орфографировано без учета правил орфографии. Можно сказать, что большинство конвертерных программ, работающих на современных интернет-сайтах, сделаны таким образом, без учета правил орфографии. Создание программы для автоматического перевода — это работа не только программиста, но и лингвистов, внимательно следящих за правилами орфографии. Без контроля лингвистов компьютерная программа, осуществляющая автоматический перевод, не сможет правильно скопировать тексты. Для успешного решения этой проблемы отдел прикладной лингвистики поставил задачу создавать конвертеры в соответствии с вариантами алфавита на каждом этапе утверждения алфавита. В 2017 году была создана компьютерная программа, основанная на апострофе. В 2018 году она была переделана с новым алфавитом, основанным на последнем акуте. В связи с этим для программиста-создателя конвертера лингвистами готовится следующая лингвистическая инструкция (орфография для программы).

Первый шаг. Для компьютерной программы в первую очередь предоставляется таблица 1, показывающая кириллические и соответствующие им латинские символы.

На рисунке выше представлены 32 буквы казахского языка, буквы һ и х обозначаются одним символом – Hh. Аналогично, в латинском алфавите буквы И и Й из кириллицы обозначены только одной буквой І. В таблице общее количество букв кириллицы – 34. Буквы Ёё, Цц, Щщ, ь, ъ, Ээ, Юю, Яя кириллицы не обозначены. Если добавить эти 8 букв к 34 буквам выше, получится 42 буквы кириллицы.

Буквы Ш и Ч представлены диграфами – Ш- Sh; Ch – Ч.

Для автоматического перевода кириллицы на латиницу в тексте должна быть предоставлена инструкция (орфография) о том, как обозначаются все 42 буквы кириллицы. Для этого также составляется орфография для программы о том, как обозначаются буквы, не обозначенные в алфавите, на латинице. Подготовка орфографии для программы основывается на орфографических правилах [1]. Наш конвертер руководствуется последней версией правил орфографии, разработанных действующей орфографической группой.

Второй шаг. Помимо национального алфавита на основе латиницы, представленного выше, составляется таблица 2 с инструкцией о том, как обозначаются 8 букв, не вошедших в этот алфавит.

Таблица 2 – Орфография 8 букв, не вошедших в национальный алфавит

Ёё — Ее

Цц — S

только в двух словах пицца, ницца — ts

Щщ — в заимствованных словах — sh

а в исконных казахских словах, ащы, тұщы — shsh

Ээ — Ее

Юю — ɪý

Яя — ɪa

Как видно из таблицы, буквы ь, ъ, отсутствующие в алфавите, не будут обозначаться в казахских текстах на латинице. Программа будет автоматически удалять знаки мягкости и разделения (твердости) в соответствии с приведенной выше инструкцией в таблице.

Слова с буквами Э и Ё полностью заменяются на символ Е.

Буква Ю – обозначается двумя буквами как ɪý, а буква Я – как ɪa, что закреплено орфографическими правилами. В этом случае программа также будет переводить буквы Я, Ю, встречающиеся в тексте, двумя символами в соответствии с этой инструкцией.

В казахском языке буква Ц встречается только в заимствованных словах, терминах. Эта буква не включена в национальный алфавит. Однако, поскольку эта буква встречается в терминах, составители орфографии решили обозначить ее буквой S в национальном алфавите. В словах пицца, ницца, вошедших в употребление как термины в казахском языке, буква Ц встречается дважды, и в таких случаях она обозначается диграфом ts. Во всех остальных случаях буква Ц обозначается только одной буквой S. В соответствии с этой орфографией, в инструкции, указанной в таблице выше, конвертерная программа переводит букву Ц во всех словах, встречающихся в тексте, кроме слов пицца и ницца, на S. Слова пицца и ницца указываются в программе как исключения.

На этапе разработки правил орфографии специалисты также планировали обозначать букву Ц одной буквой S в начале слова и диграфом (ts) в середине слова (двумя буквами). Однако, поскольку это было впоследствии изменено, соответствующие изменения были внесены и в нашу программу.

Буква Щ в исконных словах казахского языка используется только в словах ащы, тұщы. В основном она встречается в заимствованных словах из русского языка. Лингвисты-специалисты, составляющие орфографию, решили обозначать Щ в словах ащы, тұщы двумя парными диграфами (shsh), а в заимствованных словах – одним диграфом (sh).

Все вышесказанное в основном является инструкциями, необходимыми для обозначения букв в алфавите. То есть, с помощью символов, представленных в таблице, программа переводит кириллические буквы в латинскую графику.

Третий шаг. При автоматическом переводе текста необходимо разработать и другие правила орфографии для программы, помимо упомянутых выше. Одно из них касается букв Я и Ю, для которых решается вопрос раздельного написания.

Хотя в казахском языке нет исконных букв я, ю (йа, йу (йұу)), они когда-то обозначались одной буквой с появлением кириллицы. Теперь, при переходе на латинскую графику, эти буквы обозначаются двумя, и при автоматическом переводе некоторых слов, содержащих эти две буквы, на латиницу, необходимо учитывать следующие моменты. Например, обе эти буквы содержат букву и, и в казахском языке есть слова, в которых перед этими буквами я, ю пишется буква и. Если буквы я, ю раздельно писать как иа – ɪa, иу – ɪŷ, то в таких словах будут идти две буквы и (ɪ) подряд. В таких случаях орфографисты-специалисты предлагают оставить только одну букву и в орфографии. В соответствии с этим программе дается следующее правило:

«Если перед словами с буквой я в текстах на кириллице встречается буква и, то при переводе на латиницу обозначается только одна буква и (ɪ)».

Например: қиял. Если бы мы автоматически перевели это слово на латиницу, оно было бы орфографировано как qɪɪal. В таких словах нет необходимости писать букву и (ɪ) дважды. Правильный вариант латинского написания этого слова будет qɪal. Аналогично, все слова, написанные с буквами ия, конвертер будет обозначать как ɪa.

Аналогично, для буквы ю дается следующее правило-инструкция:

«Если перед словами с буквой ю в текстах на кириллице встречается буква и, то при переводе на латиницу обозначается только одна буква и (ɪ)».

Например: қию. Если бы мы автоматически перевели это слово на латиницу, оно было бы орфографировано как qɪɪŷ. В таких словах нет необходимости писать букву и (ɪ) дважды. Правильный вариант латинского написания этого слова будет qɪŷ. Аналогично, все слова, написанные с буквами ию, конвертер будет обозначать как ɪŷ.

Программа разработана в среде Visual Studio 2017 на языке программирования C#. Эта программа является второй версией перевода на латиницу. При автоматическом переводе с кириллицы на латиницу был создан словарь DIC. Здесь каждая буква кириллицы сопоставляется со своим латинским эквивалентом во второй таблице.

Алгоритм программы работает следующим образом. Введенный текст сначала разбивается на предложения, затем предложения на слова, и, наконец, слова на буквы. После этого каждая буква заменяется соответствующей латинской буквой. Алгоритм программы будет совершенствоваться в будущем в соответствии с правилами перевода.

При вводе программы открывается экран ввода текста с двумя окнами. Рисунок 1.

Рисунок 1 – Компьютерная программа для автоматического перевода с кириллицы

В верхнее окно вводится казахский текст на кириллице, подлежащий переводу на латиницу. Затем нажимается кнопка «СТАРТ». При этом из нижнего окна выводится казахский текст на латинице. Рисунок 2.

Рисунок 2 – Программа перевода на латиницу

Эта программа является первой версией программы v1.0. В будущем она будет усовершенствована в соответствии с правилами орфографии казахского языка, а также будут разработаны программы для загрузки и копирования больших файлов с помощью этой программы.

Таким образом, в результате совместной работы лингвиста и программиста было создано IT-приложение, которое автоматически переводит казахские тексты на кириллице в латинскую графику на основе последнего (нынешнего) алфавита с последним акутом и последних (нынешних) правил орфографии. Программа способствует реализации планов института по латинице.

А.Ж. Жаңабекова

Институт языкознания им. А. Байтурсынова

Заведующая отделом прикладной лингвистики, д.ф.н.

К. Койбагаров

программист

Специально для Национального портала

Previous Post

Вопрос о сокращении числа легионеров в отечественных футбольных клубах рассматривается — глава правительства

Next Post

Сенат принял закон, касающийся насилия над детьми

Next Post

Сенат принял закон, касающийся насилия над детьми

Свежие записи

  • «Изнасиловали 24-летнего брата с инвалидностью»: осуждённые братья подали апелляцию 26 декабря, 2025
  • «Несколько метров отлетел»: житель Усть-Каменогорска получил удар током от двери подъезда 26 декабря, 2025
  • В Акмолинской области водитель, грубо нарушивший ПДД, привлечён к ответственности 26 декабря, 2025
  • Мурат Абенов: «Внутри банков сидят предатели и преступники» 25 декабря, 2025
  • Подводить итоги года — это не достижение, а рост 25 декабря, 2025
  • Азат Перуашев: «Токаев – человек года» 25 декабря, 2025
  • Тренды 2026 года: AI и социальные сети — интервью с экспертом 25 декабря, 2025
  • В Усть-Каменогорске задержан подозреваемый, который обманом завладел 9 млн тенге под предлогом покупки жилья 24 декабря, 2025
  • «Я родилась в СССР»: администратор ресторана вызвала резонанс в сети 24 декабря, 2025
  • На съезде партии Baytaq выгнали члена партии 24 декабря, 2025

Рубрики

ULT TV U magazine Актуальное Без категории В мире Вторая Республика Год рабочих профессий Духовность Защита Интересное Комментарии Культура Национальная история Национальное искусство Общество Политика Постtimes Преступление Регионы Спорт Экономика и бизнес
Құрылтайшы: «Tengri Gold» ЖШС
2012-2021 © Ұлт порталы
ҚР Ақпарат және қоғамдық даму министрлігі Ақпарат комитетінің №KZ71VPY00084887 куәлігі берілген.
Авторлық және жарнама құқықтар толық сақталған.

Сайт материалдарын пайдаланғанда дереккөзге сілтеме көрсету міндетті. Авторлар пікірі мен редакция көзқарасы сәйкес келе бермеуі мүмкін. Жарнама мен хабарландырулардың мазмұнына жарнама беруші жауапты.

Рубрики

  • U magazine
  • ULT TV
  • Актуальное
  • Без категории
  • В мире
  • Вторая Республика
  • Год рабочих профессий
  • Духовность
  • Защита
  • Интересное
  • Комментарии
  • Культура
  • Национальная история
  • Национальное искусство
  • Общество
  • Политика
  • Постtimes
  • Преступление
  • Регионы
  • Спорт
  • Экономика и бизнес
  • Главная
  • Общество
  • Культура
  • Спорт
  • U magazine
  • Вторая Республика
  • В мире

© 2025 JNews - Premium WordPress news & magazine theme by Jegtheme.

No Result
View All Result
  • Главная
  • Общество
  • Культура
  • Спорт
  • U magazine
  • Вторая Республика
  • В мире

© 2025 JNews - Premium WordPress news & magazine theme by Jegtheme.