Открыть меню

Что такое электронный корпус текстов


Чем электронный корпус отличается от электронной библиотеки?

Электронная библиотека — это собрание текстов в электронной форме. Это может быть как известный ресурс, типа библиотеки Машкова http://lib.ru, так и Ваша личная библиотека. Эти тексты, как и тексты любой другой библиотеки, собирают для того, чтобы их читать.

Корпус — это также собрание текстов в электронном виде, но эти тексты предназначены не для того, чтобы их читать, а для того, чтобы их изучать, для чего их особым образом обрабатывают — вносят необходимую информацию, которая называется разметкой или аннотацией. Информация может быть любой, в зависимости от того, что мы хотим изучать: дата написания текста, место написания текста, его объем, авторство, употребление того или иного слова или грамматической конструкции, и так далее.
После того, как корпус обработали, мы можем искать в нем любую необходимую нам информацию. Для обработки информации используются специальные программы, которые называются конкордансеры. Они осуществляют поиск по тексту подобно тому, как поисковая система ищет информацию в Сети, и формируют конкорданс, то есть перечень всех контекстов, в которых какое-либо слово или слово­сочетание встречается в исследуемом тексте.
Большой корпус, который включает в себя тексты из различных источников и представляет язык исчерпывающим образом, называют национальным корпусом.

Где можно найти национальный корпус русского языка?

2015-07-07_1403

Национальный корпус русского языка объемом более 500 млн слов — один из лучших языковых корпусов в мире. Он доступен бесплатно по адресу http://www.ruscorpora.ru, им легко пользоваться, так как, во-первых, интерфейс ресурса очень интуитивный, а во-вторых, есть подробная инструкция, наглядно описывающая каждый этап работы.

Где можно найти корпусы английского языка?

2015-07-07_1425

Среди наиболее известных корпусов английского языка можно выделить следующие:

Зачем нужны электронные корпусы?

Корпус позволяет решать задачи, связанные с исследованием больших массивов текста. В «докомпьютерную» эру такие исследования были крайне трудоемкими, так как исследователям необходимо было просматривать тексты и вручную выписывать необходимые примеры. Поэтому корпусы — незаменимый инструмент работы для всех, кто занимается теоретической лингвистикой.

Также корпусы могут быть полезны для литературоведов, историков, и, конечно же, преподавателей языковых дисциплин, авторов учебных пособий, составителей словарей и справочников, так как корпус позволяет за несколько секунд найти тысячи примеров употребления того или иного слова или грамматической конструкции.

 

С уважением,

Евзикова Олеся.

 

Обсуждение: 3 комментария
  1. Как же это было интересно лет так 10 назад. Сейчас благодаря онлайн словарям можно с корпусом и не связываться. Забавно, что по одной из ссылок предлагают использовать интернет поиск в гугле как корпус. Ещё улыбнуло использование telnet как средство доступа к корпусу.

    1. Evzikova Olesya:

      Онлайн-словари и корпусы нужны для совершенно разных целей.

      Что забавного в Google Books Ngram? И что не так с telnet?

      1. есно для разных целей, но для поиска сочетаемости ЛЕ подойдет и то и другое. книжки по лингвистике и теор грамматике не каждый второй препод в вузе пишет... мы же простые смертные...

        ну по мне, телнет явно далеко за пределами компетенции обычного пользователя ПК. про библиотеку гугла? я про статью у коллинза про поиск слов в кавычках...

Комментирование закрыто

© 2023 EnglishZoom · Копирование материалов сайта без разрешения запрещено
Политика конфиденциальности Согласие на обработку персональных данных