ПЕРЕВОДЧИК В СФЕРЕ ПРОФЕССИОНАЛЬНОЙ КОММУНИКАЦИИ
Информация для поступающих

(8422)778-145
(8422)778-345
(8422)778-372

Прикладная Лингвистика > Соснина Екатерина Петровна > О разработке и использовании российского учебного корпуса переводов

Е.П. Соснина

О разработке и использовании российского учебного корпуса переводов

1. Введение

В связи с развитием технических средств появилась возможность более эффективных лингвистических исследования разного рода на базе корпусной лингвистики. Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык.

Направление, связанное с созданием учебных корпусов письменной или устной речи, сейчас интенсивно развивается, взять хотя бы активные исследования С. Гренджер, Дж. Лича, Дж. Милтона, а также множество реальных больших проектов в этой области корпусной лингвистики, таких как Cambridge Learner Corpus (Кембриджский учебный корпус), ICLE (Международный корпус для изучающих английский язык), LLC (учебный корпус Лонгман) и пр. В то же время в России эта область научного лингвистического исследования пока отстает в своем развитии.

Кроме того, в последнее время стали разрабатываться специализированные учебные корпусы, например, параллельных текстов (Learner Parallel Corpora), которые с успехом применяются в переводческой практике, при анализе переводов и коррекционной методике обучения студентов межъязыковому переводу.

В статье рассматриваются проект создания учебного корпуса переводов (Russian Translation Learner Corpus), его задачи и приложения.

2. Прикладные аспекты разработки учебного корпуса переводов 2.1. О проекте специализированного учебного корпуса

С 2004 года в Ульяновском государственном техническом университете на базе кафедры «Прикладная лингвистика» осуществляется проект по созданию и анализу электронного учебного корпуса переводов RuTLC (Russian Translation Learner Corpus). На данный момент это параллельный корпус, состоящий из оригинальных англоязычных текстов и их русскоязычных переводов, представленных студентами университета. В основном, это студенты, получающие дополнительную квалификацию «Переводчик в сфере профессиональной коммуникации».

Для создания корпуса переводов исходные оригинальные тексты были выбраны исходя из требований к переводческой работе, а именно, 35 переводческих страниц (около 10 000 слов) по профессиональной тематике. На данный момент объем корпуса насчитывает около 1 млн словоупотреблений, корпус удовлетворяет требованиям репрезентативности и является динамическим.

Таким образом, корпус имеет прикладной характер, а также ограничения на жанры и стили предлагаемых для профессионального перевода текстов. Каждый образец текста включает информацию или метаописание (сведения об авторе, библиографические данные, жанр и стиль текста).

Первоначальной целью создаваемого учебного корпуса являлось выявление и анализ лексических, стилистических и грамматических ошибок реального контингента студентов-переводчиков.

2.2. Классификация, кодирование и анализ ошибок

Для исследования любого учебного корпуса обычно рассматриваются способы классификации ошибок, выбирается методика их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методика количественного автоматизированного подсчета ошибок по типам, что позволяет провести их всесторонний лингвистический и лингводидактический анализ.

Анализ переводов по кодам ошибок позволяет отследить какие ошибки являются наиболее частотными у данного студента или группы, оптимизировать курс перевода, корректируя методику преподавания тех или иных аспектов.

При начальном лингвистическом анализе переводов выявляются различные типы ошибок, которые возникают вследствие расхождений в лексико-грамматическом строе родного и иностранного языков. Их можно условно разбить на классы (лексические, грамматические и пр.), а внутри классов выявить наиболее типичные случаи.

При классификации ошибок и их кодировании мы придерживались наиболее развернутой систематизации ошибок, возникающих при осуществлении трансформаций, которую предлагает О.А. Фирсов. Например, лексической ошибкой он называет переводческую трансформацию в отношении того или иного лексического явления в тексте оригинала, которое создало раскрытое переводчиком контекстуальное несоответствие. Таким образом, к лексическим ошибкам относятся все случаи неправильного словоупотребления вообще и в частности: нарушение норм лексической сочетаемости слова, неправильное определение значения слова и т.п.

Грамматические ошибки связаны со случаями несоблюдения грамматических, а именно морфологических и синтаксических норм языка. К ним в основном относятся ошибки в роде, числе и падеже (в том числе нарушение их согласования), неправильное употребление глагольно-временных форм, отсутствие согласования между ними, употребление неправильных синтаксических конструкций.

К стилистическим ошибкам следует отнести нарушение требований функционального стиля, например, употребление разговорной лексики в технических или научных описаниях, неуместное использование просторечных выражений в научных текстах, чрезмерное использование эмоционально окрашенных слов в тех случаях, где обычно принята нейтральная лексика.

Немаловажно отметить, что при выработке классификации для кодирования и разметки ошибок в корпусе приходилось изначально выявлять ошибки вообще, а только затем сводить их в классы, т.е. «идти от обратного».

Таким образом, было сформировано около 40 основных классов ошибок без учета подклассов, допускаемых при переводе. Общее количество проанализированных и размеченных ошибок в корпусе около 4 500.

На основе обзора способов кодировки и разметки ошибок, используемых в современных учебных корпусах, была выбрана простая и достаточно эффективная модель разметки (по типу тэговой в том качестве, в каком она представлена в языке HTML), предлагаемая рядом исследователей в области учебных корпусов, например, Юкио Тоно и Дж. Личем. Кроме того, такой способ разметки отвечает основным требованиям к разметке документов в учебных корпусах.

Данная модель была модифицирована с учетом специфики корпуса и целями исследования. Ошибочная конструкция помечается тегами , например, – это открывающий тег для лексической ошибки, а – ее закрывающий тег. Таким образом, можно легко автоматически определить, где начинается и где заканчивается ошибка.

Разработанный метаязык использовался для разметки ошибок вручную и для автоматического получения статистических данных корпуса при помощи программ-конкордансов.

Анализ ошибок на основе размеченных кодов показал, что лексические ошибки составляют большинство по сравнению с количественными показателями других ошибок. Лексические ошибки составляют 56 % от общего количества всех допущенных в переводах студентов, причем 33% от всех лексических ошибок связано с выбором неверного значения слова . Частыми в переводе специальных текстов являются также ошибки при передаче терминов .

Таблица 1. Примеры лексических ошибок

A disc with stickers on it. Диск с этикетками.
To investigate this possibility we analyzed their distribution in a corpus of conversation. Чтобы исследовать такую возможность, мы проанализировали их распределение в корпусе беседы .
Screening translation covers translation of materials for gathering information. Частичный перевод используется при переводе документов для сбора информации.
In Section 1.3 we consider two features of the program to be developed. В Секции 1.3 рассматриваются две функции разрабатываемой программы.

Что касается грамматических ошибок, то их несколько меньше (28%). Полученный результат объясняется тем, что набор грамматических правил относительно строго нормирован, рассматривается и отрабатывается более детально при изучении иностранного языка. Наибольшая доля ошибок (24% от всех грамматических) связана с неверным определением синтаксических связей и отношений. Популярны ошибки, обусловленные несовпадением значений или различиями в употреблении грамматических эквивалентов в языке перевода и ошибки, возникающие при осуществлении синтаксических трансформаций.

Таблица 2. Примеры грамматических ошибок

Finally, there were the project and development program that were supposed to be prepared. Наконец, существовал проект и программа развития, которая как предполагалось была подготовлена.
Concordances are particularly valuable for translating specialized texts. Конкордансы особенно полезны при переводе специальных текстов.

Следует отметить, что в ходе выявления и классификации ошибок нами были выделены такие ошибки, как «отсутствие перевода», «неверное правописание», «неверная пунктуация», которые также были детально проанализированы и отмечены как важные (хотя и немногочисленные) особенности языка переводов.

Таблица 3. Примеры нетипичных ошибок

This specification includes100,000 items. Данная спецификация включает 100,000 элементов.
Furthermore, some terminologists do not agree with this system. Кроме того, некоторые терминологисты не согласны с данной системой.

Отметим, что из всех выявленных и размеченных типов ошибок, наиболее распространенными являются лишь десять. Эти десять типов ошибок составляют две трети общего объема ошибок: неверное значение многозначного слова, ошибки транскрипции, ошибочный перевод терминов, дословный перевод, неадекватный перевод слова, ошибки в переводе предлогов, отсутствие перевода, дословный перевод атрибутивных групп, неверное определение синтаксических связей и отношений в предложении или словосочетании, ошибки в согласовании слов в переводе.

3. Заключение

Корпус создавался с целью прикладного лингвистического анализа типовых лексических, грамматических и стилистических ошибок в иноязычной письменной речи студентов-переводчиков. На первом этапе разработки проекта были выявлены, закодированы и размечены типовые лексические и грамматические ошибки. Наиболее частотны словарные ошибки, связанные с выбором неверного значения слов и неадекватным переводом терминов.

Следует подчеркнуть, что даже поверхностный анализ ошибок, допускаемых в иноязычной речи, подтверждает тот факт, что все-таки основной причиной, ведущей к возникновению ошибок, является действие законов аналогии и интерференции, т.е. стремление уподобить новое известному, построение иноязычных структур по моделям родного языка. Кроме того, появление многих ошибок в текстах в основном можно объяснить чрезмерным использованием программ-переводчиков.

В пилотной части проекта по созданию и развитию параллельного учебного корпуса переводов произведен учет и систематизация основных видов ошибок базового контингента учащихся по программе «Переводчик в сфере профессиональной коммуникации», изучен характер ошибок, а также проанализированы причины появления определенных ошибок в работах студентов. На наш взгляд, результаты исследований показывают перспективность корпусного подхода в лингводидактике и коррекционной педагогике.

Вы нашли ошибку
Если Вы:
- нашли грамматическую ошибку;
- спам, рекламу;
- увидели дублирующися текст;
Выделите этот фрагмент текста, и нажмите клавиши Ctrl + Enter. Данное выделение будет отправлено нам на исправление.