В лингвистике ко́рпус (множественное число — ко́рпусы) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.
Основные свойства корпуса
Среди множества определений корпуса можно выделить его главные свойства:
электронный — в современном понимании корпус должен быть в электронном виде
репрезентативный — должен хорошо «представлять» объект, который моделирует
размеченный — главное отличие корпуса от коллекции текстов
прагматически ориентированный — должен быть создан под определённую задачу...