ПЕРЕВОДЧИК В СФЕРЕ ПРОФЕССИОНАЛЬНОЙ КОММУНИКАЦИИ
Информация для поступающих
Адреса и контакты кафедры Прикладная лингвистика

Прикладная Лингвистика > Статьи > Разработка словаря-глоссария терминов компьютерной лингвистики

Разработка словаря-глоссария терминов компьютерной лингвистики

Development Dictionary glossary

Е.П.Соснина

Актуальность разработки словаря связана с тем, что компьютерная лингвистика сравнительно молодая и комплексная наука, находящаяся на стыке лингвистики и информатики. В настоящее время не существует специальных терминологических словарей и стандартов в этой области. Направления компьютерной лингвистики постоянно развиваются, появляются новые задачи, растет, развивается и совершенствуется ее терминосистема, соответственно возникает необходимость систематизации основных понятий и создания терминологических словарей [1, 2, 7].

Разработка словаря-глоссария терминов компьютерной лингвистики, в первую очередь вызвана необходимостью его практического применения в учебном процессе, в частности в Ульяновском Государственном Техническом Университете на кафедре "Прикладная лингвистика" при чтении курса "Основы компьютерной лингвистики".

Объектом проводимого исследования является терминологическая система основных направлений компьютерной лингвистики, представленная в корпуса текстов предметной области. Предмет исследования - термины компьютерной лингвистики и их теоретическое толкование для представления в электронном словаре-глоссарии. Работа носит прикладной характер и ее значимость заключается в установлении границы предметной области, анализе источников для создания словаря-глоссария, выборке основных терминов проблемной области, упорядочении терминосистемы и компьютерной реализации словаря.

Для достижения основной цели исследования ставятся и решаются следующие основные задачи:


1. Определение предметной области компьютерной лингвистики как области функционирования терминосистемы.
2. Анализ источников для создания словаря-глоссария терминов компьютерной лингвистики и изучение установленных единых принципов представления и толкования единиц терминологии для создания оптимальных условий пользования ими.
3. Выбор терминов и упорядочение основных научных дефиниций.
4. Создание словаря-глоссария и его автоматической версии в виде приложения к популярному коммерческому лексикографическому продукту LINGVO [6].

Разработка словаря-глоссария терминов компьютерной лингвисми программ учебных дисциплин в облаage strucтики ориентирована на опыт разработки терминологических словарей. Их можно считать лингвистическими словарями подъязыков конкретных отраслей знания и\или видов профессиональной деятельности.

Для более точного описания терминологической системы необходимо ответить на один важный вопрос, что считать термином в системе этой науки. Под термином будем понимать единицу русского языка (слово, словосочетание, аббревиатура, символ, сочетание слова и букв-символов, сочетание слова и цифр-символов), обладающую в результате особой сознательной коллективной договоренности социальным терминологическим значением, которое может быть выражено либо в словесной форме, либо в том или ином формализованном виде и достаточно точно и полно отражает основные, существенные на данном уровне развития науки (в данном случае, Компьютерной лингвистики) признаки соответствующего понятия [5]. Термин обязательно соотносится с определенной единицей логико-понятийной системы в плане содержания и удовлетворяет ряду стандартных требований. В отличие от обычной лексики, использование терминов основывается не на интуиции, а на имеющихся определениях.

Разработка стандартов, формирование списков рекомендуемых терминов дают возможность систематизировать термины определенной проблемной области, избежать многозначности и омонимии, уточнить определение и т.д.

Работа по выделению терминов как правило начинается с их инвентаризации и упорядочения [2], что предусматривает проведение ряда этапов, основными из которых являются:


1) установление границ проблемной области,
2) отбор источников и выбор терминов,
3) лексикографическая обработка и описание терминов,
4) уточнение существующих дефиниций (научных определений),
5) кодификация терминосистемы.

Определение границ предметной области является одной из самых сложных, на наш взгляд, задач именно для области компьютерной лингвистики. Обычно границы предметной области обычно устанавливаются путем составления перечня образующих ее рубрик и подрубрик (направлений). Поскольку словарь-глоссарий разрабатывается именно для студентов изучающих курс компьютерной лингвистики, то необходимо определить основные направления (перечень рубрик и подрубрик) согласно учебной программе. Для решения проблемы по установлению границ предметной области были рассмотрены и проанализированы учебные программы крупных российских университетов, например, Московский Государственный Университет, Московский Государственный Лингвистический Университет, Российский Государственный Университет, а также учебные программы ряда зарубежных вузов, представленные на сайте Международной ассоциации компьютерной лингвистики [8].

Вторым этапом терминологической работы является отбор специальной лексики. На этом этапе первой проблемой является выбор источников специальной лексики, подлежащих обработке. Глава 2 "Источники информации и их использование" методического документа Международной организации по стандартизации "Руководство по подготовке систематизированных словарей" выделяет три наиболее общих типа источников терминов:


а) терминологические издания (terminological publications), под которыми подразумеваются словари терминов и публикации, посвященные терминологическим проблемам;
б) нетерминологические издания (publications not specially devoted to terminology) - учебники, энциклопедии, коммерческие каталоги, статьи;
в) классификационные издания (classification tables) - классифицированные перечни понятий и объектов данной области.

Первым типом источников является терминологические издания, то есть терминологические словари, например, энциклопедический словарь "Языкознание" под ред. Ярцевой В.Н. [5]. Здесь было обнаружено некоторое количество терминов компьютерной лингвистики, которые являются базовыми. Следующий тип источников - это нетерминологические издания. Использовались такие учебники как, "Введение в прикладную лингвистику" А.Н. Баранова [1], "Основы компьютерной лингвистики" Ю.Н. Марчука [3]. Эти источники занимают важное место среди привлекаемых, именно в них содержатся наиболее ясные и четкие определения терминов. В дополнение к этим источникам необходимо было взять и наиболее распространенные виды специальной литературы - монографии и статьи на web-сайтах, таких например, как российский сайт международной конференции ДИАЛОГ [7]. В сжатом и в сконцентрированном виде они дают относительно полное представление об основных терминах, функционирующих в литературе рассматриваемой области.

Лексикографическая обработка терминов компьютерной лингвистики заключалась в приведение терминов в единообразную грамматическую форму, снабжение омонимичных и полисемичных терминов пометами, при необходимости уточнялись значения и формы терминов. При описании терминов происходила запись всей доступной информации о терминах: их происхождении, особенностях употребления, значении, синонимах, вариантах и т.д. Там, где это возможно, устанавливалось авторство терминов и их принадлежность лексике конкретных научных школ. Дальнейшая лексикографическая обработка производилась при непосредственном составлении словаря-глоссария терминов компьютерной лингвистики.

Уточнение существующих дефиниций (научных определений) ориентировалось на педагогическую направленность работы. Так как словарь-глоссарий формируется для студентов, изучающих курс компьютерной лингвистики, то определения терминов должны быть наиболее точными, понятными и определенными. Все термины выделялись соответственно раннее определенного перечня рубрик проблемной области.

На последнем этапе упорядочения-унификации проводилась кодификация терминосистемы, т.е. оформление ее в виде нормативного словаря. Был определен тип словаря-глоссария, его основная структура. Особенностями разработанного словаря терминов компьютерной лингвистики является тематический (прежде всего систематический) принцип композиции, так как именно он позволяет раскрыть понятийную структуру определенной области знания или ее фрагмента и, соответственно, системные связи между отдельными терминами в упорядоченных терминосистемах. Кроме того, словарь-глоссарий был систематизирован по алфавиту в пределах темы-направления, например, по темам "анализ и синтез речи", "компьютерная лексикография", "машинный перевод" и т.п.

Была составлена модель словарной статьи словаря-глоссария, которая имеет характер, принятый для компьютерных глоссариев, и выглядит следующим образом: первая зона - лексический вход словарной статьи, вокабула или лемма, синонимы термина, англоязычный эквивалент, а затем зона толкования термина, затем ссылка на источник научной дефиниции термина.

Компьютерная реализация словаря-глоссария ориентирована на две электронные версии. Первая версия - как приложение к электронной версии лекций курса "Компьютерная лингвистика" в программе Adobe ACROBAT, а вторая - подключение к электронной системе словарей LINGVO с помощью стандартных процедур разработчика этого коммерческого электронного словаря - компании ABBYY [6].

В настоящее время сформирована базовая версия учебного словаря-глоссария, включающая 10 основных рубрик (направлений) компьютерной лингвистики, каждая рубрика содержит от 30 до 40 базовых терминов. Работа над словарем продолжается в плане дополнения терминами по каждому из направлений.

ЛИТЕРАТУРА


1. Баранов А.Н. Введение в прикладную лингвистику. - М.: Эдиториал УРСС, 2001. - 360 с.
2. Гринев С.В. Введение в терминологическую лексикографию. - М.,1986.-106с.
3. Марчук Ю.Н. Основы компьютерной лингвистики: Учебное пособие. - М., 1999. - 225 с.
4. Соснина Е.П. Введение в прикладную лингвистику: Учебное пособие. - Ульяновск: УлГТУ, 2000. - 46 с.
5. Ярцева В.Н. Языкознание. Большой энциклопедический словарь. - 2-е изд. - Я41 М.: Большая Российская энциклопедия, 1998. - 685 с.
6. http://www.abbyy.ru
7. http://www.dialog-21.ru
8. http://www.clt.mq.edu.au/survey
Вы нашли ошибку
Если Вы:
- нашли грамматическую ошибку;
- спам, рекламу;
- увидели дублирующися текст;
Выделите этот фрагмент текста, и нажмите клавиши Ctrl + Enter. Данное выделение будет отправлено нам на исправление.