Skip to content

nevmenandr/bashkir-corpus

Repository files navigation

Башкирский корпус

Тексты для корпуса башкирского языка

Текущий объем коллекции

20934729 токенов в текстах со случайно переставленными предложениями

Правовые вопросы

В этом репозитории хранятся лицензионно чистые тексты. Они либо не охраняются авторским правом (тексты законов), либо срок ограничений, связанных с авторским правом, истек. Такие тексты хранятся в директории public_domain. Метаданные к этим текстам лежат в таблице.

Другая категория текстов хранится в директории shuffled_texts. Это тексты, которые получились случайной перестановкой предложений в исходных произведениях, которые подпадали под ограничения, связанные с авторским правом. Так как целостность таких текстов нарушена, они уже не могут считаться объектами авторского права, но по-прежнему представляют интерес для компьютерно-лингвистической обработки.

Как добавить тексты в корпус

Тексты добавляются с помощью инструмента, который называется pull-request.

Видео про pull-request

Несколько видеороликов, которые объясняют, что это и как это сделать:

Подробное объяснение с картинками

Здесь пошагово объясняется, как сделать pull-request, начиная с регистрации на github

About

Тексты для корпуса башкирского языка

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages