![]() ![]() |
Conference publicationsAbstractsXIV conferenceОписание синтаксического и морфологического разбора текста с использованием XMLРоссия, 185031, г. Петрозаводск, пр. Ленина 33, Тел.: (8142)71-10-68, E-mail: tsurovceva@psu.karelia.ru 1 pp.В Петрозаводском государственном университете ведется разработка информационной системы «Статистические методы анализа литературного текста» (ИС «СМАЛТ») [1, 2]. (Проект РГНФ № 02-04-12015в, № 05-04-12418в, рук. Рогов А.А., http://smalt.karelia.ru), которая в настоящее время содержит ряд литературных произведений (публицистические статьи из журналов «Время», «Эпоха», «Современник», «Гражданин» и др.), их морфологические и синтаксические параметры. При разработке информационной системы возникла потребность в более гибкой работе с текстами, а также общем формате, который позволил бы проводить обмен с другими подобными коллекциями, а также переводить устаревшие форматы баз данных в новые. Было предложено разработать стандарт на основе языка XML, в котором были бы включены синтаксический и морфологический разборы для текстов на русском языке, выполненные в соответствии с русской грамматикой. Разработка и описание стандарта выполнено на основе дерева синтаксического и морфологического разбора, в соответствии с которым в настоящее время проводятся разборы произведений в ИС «СМАЛТ». Использование описания с использованием языка XML позволит более гибко работать со структурой текста, в частности выполнять пометку элементов, которые следуют с разрывом, указывать вложенность предложений друг в друга. Созданную версию стандарта описания нельзя рассматривать как конечный продукт, а только материал для дальнейшей работы, направленной на совершенствование разборов, проводимой в тесном сотрудничестве со специалистами филологами.
Литература 1. Захаров В.Н., Леонтьев А.А., Рогов А.А., Сидоров Ю.В. Программная система поддержки атрибуции текстов статей Ф.М. Достоевского. Труды Петрозаводского государственного университета: Сер. Прикладная математика и информатика. Вып. 9. - Петрозаводск: Изд-во ПетрГУ, 2000. 180 стр. 2. Рогов А.А., Сидоров Ю.В., Король А.В. "СМАЛТ" - от построения корпуса текстов к способам их обработки статистическими и эвристическими методами. Региональная информатика-2004 "РИ-2004", материалы IX Санкт-Петербургской международной конференции, Санкт-Петербург, 22-24 июня 2004 г., стр. 243-244. |