В отечественном языкознании сложилось традиционное мнение, что вопросами терминологии должны заниматься только терминологи. Однако не только специалисты-языковеды, но и специалисты из различных предметных областей, переводчики, государственные служащие и другие специалисты в своей деятельности ежедневно сталкиваются с необходимостью работать с терминами, относящимися к их предметной области.
Несомненно, одной из проблем, волнующих всех ученых и практикующих специалистов в предметных областях в течение длительного времени, является систематизация терминов этих предметных областей и их внедрение в автоматизированные веб-платформы, созданные в соответствии с международными стандартами с эффективным использованием достижений современных информационных технологий.
В связи с этим мы сочли целесообразным поделиться опытом нашего проекта, начатого с целью унификации и систематизации корпуса терминов казахского языка.
В 2018 году мы начали проект по созданию многоязычного управляемого тезауруса горных терминов совместно с Институтом вычислительных технологий Сибирского отделения РАН, Новосибирским государственным университетом (Федотов А.М.) и кафедрой информационных технологий Евразийского национального университета им. Л.Н. Гумилева (Тусупов Ж.А., Самбетбаева М.А.).
Создание тезауруса на основе системы управления Digital Library
Главным разработчиком этой большой работы в рамках совместного проекта Новосибирского государственного университета и Евразийского национального университета им. Л.Н. Гумилева является доктор физико-математических наук, профессор А.М. Федотов, Ж.А. Тусупов и их ученица, доктор PhD по специальности «Информационные технологии» М.А. Самбетбаева.
Данный тезаурус был создан на основе последних международных стандартов ISO 25964-1:2011 (часть первая) и ISO 25964-1:2013 (часть вторая). Тезаурус, созданный на основе указанных стандартов, обеспечивает возможность взаимодействия с другими международными тезаурусами, то есть это означает, что при выполнении машинного или автоматизированного перевода для специальной предметной области программное обеспечение для перевода сможет видеть содержание тезауруса и участвовать в процессе поиска релевантной информации через контент на казахском, английском и русском языках, включенный в этот тезаурус.
К таким тезаурусам, соответствующим международным стандартам, относятся: тезаурус AGROVOC, тезаурус AGCOM, тезаурус EuroVOC, тезаурус SNOMED, тезаурус WordNet, тезаурус ЮНЕСКО.
Таким образом, предлагаемый нами тезаурус представляет собой полную базу словарей, предназначенных для определенной предметной области.
Тезаурус может включать в себя различные словари, а также типы, связи и группы терминов:
справочный словарь,
многоязычный словарь,
словарь синонимов,
словарь антонимов,
словарь омонимов,
толковый словарь и т.д.
В тезаурусе термины четко определяются семантически и функционально, их лингвистические эквиваленты закрепляются и представляются в иерархической классификации.
Как правило, языковые корпуса — это проекты, требующие фундаментальной работы, накопленной за несколько десятилетий. К сожалению, в Казахстане функционирует только один «Алматинский корпус казахского языка». Алматинский корпус казахского языка создан на основе художественной литературы, периодических и публицистических произведений. Термины предметных областей в данном корпусе не рассматриваются. Это возлагает большие цели и задачи на специалистов-языковедов и переводчиков в области терминологии. Поэтому необходимо исследовать терминологию в междисциплинарном направлении, на стыке компьютерной лингвистики, предметных областей, отраслевой терминологии и отраслевого перевода, а также систематизировать и унифицировать информацию, накопленную в этих областях на протяжении веков, и загружать ее на электронные управляемые платформы.
Данный тезаурус может отображать семантические связи и словарные статьи между систематизированными терминами. Это означает, что путем дополнения данного тезауруса при необходимости словарными статьями, примерами и текстами можно создать предпосылки для формирования корпуса казахского языка как научного языка.
Основой для терминов, которые мы включим в наш тезаурус, послужила терминологическая база «Горное дело и металлургия», утвержденная Терминкомом.
Вы можете увидеть страницу многоязычной терминологической базы, созданной на основе системы управления Digital Library, на следующем изображении (рис. 1).
Рисунок 1 – Страница многоязычной терминологической базы, созданной на основе системы управления Digital Library
В данном тезаурусе представлены описание (description) отраслевых терминов,