Българският национален корпус е създаден в Института за български език „Проф. Любомир Андрейчин” от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени няколко отделни електронни корпуса, разработени в периода 2001-2009 г. за целите на двете секции.
Българският национален корпус съдържа около 320 000 000 думи и включва около 10 000 текста. Материалите в Корпуса отразяват състоянието на българския език (предимно в неговата писмена форма) от средата на ХХ в. (1945 г.) до наши дни.
Източниците и начините за набавяне на материалите, включени в Българския национален корпус, са следните:
1. Дарения от издателства и автори.
2. Дигитализиране на печатни текстове чрез сканиране.
3. Извличане на електронни текстове от интернет.
Българският национален корпус дава възможност за редица приложения в различни области на езикознанието: в компютърната лингвистика; в лексикографията; за теоретични изследвания на определени лингвистични явления; за наблюдения върху особеностите на отделни области на езика; за извличане на примери за демонстрация при обучението по български език и др. Ето някои по-конкретни възможни приложения на Корпуса:
• Извличане на специални или общи подкорпуси по определени критерии (тематика, автор, година / период на издаване, източник и др.), които да бъдат използвани като тренировъчни корпуси за редица приложения – граматично и семантично тагиране и пр., както и за други изследователски цели.
• Наблюдения върху честотата на употреба на думи или езикови конструкции, генериране на честотни списъци и др.
• Търсене в Корпуса на примери за определени лингвистични явления с цел лингвистично описание, лексикографско отразяване или с учебна цел в обучението по български език (достъпно за ползване в интернет).
В разработването и поддържането на Българския национален корпус участват следните секции и сътрудници:
Секция по компютърна лингвистика
Ръководител: ст.н.с. д-р Светла Коева
Участници: ст.н.с. д-р Тинко Тинчев; н.с. Светлозара Лесева; Ивелина Стоянова; Мария Тодорова; Борислав Ризов; Ангел Генов
Секция за българска лексикология и лексикография
Ръководител: ст.н.с. І ст. дфн Мария Чоролеева
Участници: ст.н.с. д-р Диана Благоева; ст.н.с. д-р Сия Колковска; н.с. Ванина Сумрова
Съдържащите се в корпуса текстове не подлежат на препубликуване в съгласие с разпоредбите на Закона за авторско право. Те не са достъпни за открито използване, като достъпът до тях е ограничен в рамките на параграфа, в който има срещане на търсена от потребителя дума или съчетание.
Включването на текстовете в Българския национален корпус не нарушава Закона за авторското право, тъй като:
Включването в Корпуса не е преиздаване на текстовете.
Текстовете не се използват с комерсиална цел, а изключително за изследователски и учебни цели.
При използване на Корпуса – търсене в него и др., не се възпроизвеждат текстовете в цялост.
В описанието на Корпуса са включени библиографски данни за автора и изданието (или източника) на текста. При използване на текста тези данни са достъпни.
Съгласно условията за достъп до Корпуса при всяко цитиране в научна разработка или др. на пример от материалите, включени в Корпуса, ползвателят е задължен да посочва като източник Българския национален корпус и да цитира библиографските данни за текста.
Сътрудничество и финансова подкрепа
Създаването на Структурирания корпус с печатни издания на български език, публикувани в периода от 1945 до 2009 г., който е част от Българския национален корпус, е частично финансирано от Фонд „Научни изследвания”, проект ОХН 1512/2005 г.
Научният колектив на Българския национален корпус е отворен за сътрудничество с организации и лица, които могат да допринесат за обогатяването и развитието на Корпуса.
Колективът изказва благодарност на следните издателства и автори, любезно предоставили текстове за включване в Корпуса:
1. Редакцията на в. „24 часа”
2. Издателство „Регалия”
3. Издателство „Златната ябълка” и г-н Стоян Вълев
4. г-н Борис Минчев
и други.
1113 София
бул. Шипченски проход № 52, бл. 17
Институт за български език
Български национален корпус
ст.н.с. д-р Светла Коева svetla@dcl.bas.bg
bgnc@dcl.bas.bg