Български национален корпус








    Начало



    Българският национален корпус е създаден в Института за български език „Проф. Любомир Андрейчин” от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени няколко отделни електронни корпуса, разработени в периода 2001-2009 г. за целите на двете секции.

    Българският национален корпус съдържа около 320 000 000 думи и включва около 10 000 текста. Материалите в Корпуса отразяват състоянието на българския език (предимно в неговата писмена форма) от средата на ХХ в. (1945 г.) до наши дни.

    Източниците и начините за набавяне на материалите, включени в Българския национален корпус, са следните:

      1. Дарения от издателства и автори.

      2. Дигитализиране на печатни текстове чрез сканиране.

      3. Извличане на електронни текстове от интернет.

    Българският национален корпус дава възможност за редица приложения в различни области на езикознанието: в компютърната лингвистика; в лексикографията; за теоретични изследвания на определени лингвистични явления; за наблюдения върху особеностите на отделни области на езика; за извличане на примери за демонстрация при обучението по български език и др. Ето някои по-конкретни възможни приложения на Корпуса:

      • Извличане на специални или общи подкорпуси по определени критерии (тематика, автор, година / период на издаване, източник и др.), които да бъдат използвани като тренировъчни корпуси за редица приложения – граматично и семантично тагиране и пр., както и за други изследователски цели.

      • Наблюдения върху честотата на употреба на думи или езикови конструкции, генериране на честотни списъци и др.

      • Търсене в Корпуса на примери за определени лингвистични явления с цел лингвистично описание, лексикографско отразяване или с учебна цел в обучението по български език (достъпно за ползване в интернет).

    (обратно в началото)






    Участници



    В разработването и поддържането на Българския национален корпус участват следните секции и сътрудници:

    Секция по компютърна лингвистика

      Ръководител: ст.н.с. д-р Светла Коева

      Участници: ст.н.с. д-р Тинко Тинчев; н.с. Светлозара Лесева; Ивелина Стоянова; Мария Тодорова; Борислав Ризов; Ангел Генов

    Секция за българска лексикология и лексикография

      Ръководител: ст.н.с. І ст. дфн Мария Чоролеева

      Участници: ст.н.с. д-р Диана Благоева; ст.н.с. д-р Сия Колковска; н.с. Ванина Сумрова

    (обратно в началото)






    Авторски права



    Съдържащите се в корпуса текстове не подлежат на препубликуване в съгласие с разпоредбите на Закона за авторско право. Те не са достъпни за открито използване, като достъпът до тях е ограничен в рамките на параграфа, в който има срещане на търсена от потребителя дума или съчетание.

    Включването на текстовете в Българския национален корпус не нарушава Закона за авторското право, тъй като:

    Включването в Корпуса не е преиздаване на текстовете.

    Текстовете не се използват с комерсиална цел, а изключително за изследователски и учебни цели.
    При използване на Корпуса – търсене в него и др., не се възпроизвеждат текстовете в цялост.

    В описанието на Корпуса са включени библиографски данни за автора и изданието (или източника) на текста. При използване на текста тези данни са достъпни.

    Съгласно условията за достъп до Корпуса при всяко цитиране в научна разработка или др. на пример от материалите, включени в Корпуса, ползвателят е задължен да посочва като източник Българския национален корпус и да цитира библиографските данни за текста.

    (обратно в началото)






    Сътрудничество и финансова подкрепа



    Създаването на Структурирания корпус с печатни издания на български език, публикувани в периода от 1945 до 2009 г., който е част от Българския национален корпус, е частично финансирано от Фонд „Научни изследвания”, проект ОХН 1512/2005 г.

    Научният колектив на Българския национален корпус е отворен за сътрудничество с организации и лица, които могат да допринесат за обогатяването и развитието на Корпуса.

    Колективът изказва благодарност на следните издателства и автори, любезно предоставили текстове за включване в Корпуса:

      1. Редакцията на в. „24 часа”

      2. Издателство „Регалия”

      3. Издателство „Златната ябълка” и г-н Стоян Вълев

      4. г-н Борис Минчев

      и други.

    (обратно в началото)






    Контакти



      1113 София

      бул. Шипченски проход № 52, бл. 17

      Институт за български език

      Български национален корпус

      ст.н.с. д-р Светла Коева svetla@dcl.bas.bg

      bgnc@dcl.bas.bg

    (обратно в началото)