Селиванова И.В.  

Классификация научных текстов посредством сжатия аннотаций на примере публикаций, индексируемых в библиографической базе данных Scopus

В последние десятилетия в связи с экспоненциальным ростом количества информации проблема классификации научных текстов является особенно актуальной. Неверно проклассифицированные публикации затрудняют поиск необходимых ученому статей, что является причиной потери актуальных исследований в интересующей его области наук. В работах [1, 2] Б. Я. Рябко и соавторами был предложен метод классификации научных текстов, основанный на сжатии информации, который показал более чем 90%-эффективность при классификации полнотекстовых документов с Архива научных текстов arXiv.org. Однако во многих научных библиографических базах данных (ББД) не всегда удается получить полный текст статьи и часто доступна только ее аннотация.  

Одной из наиболее авторитетных ББД для ученых является Scopus. В качестве системы классификации в ней используется All Science Journals Classification (ASJC).  ASJC включает в себя издания, распределенные по четырем общим научным направлениям: биологические науки, физические науки, медицина, социальные и гуманитарные науки, которые, в свою очередь, разделены на 27 крупных предметных областей и более 300 узких категорий. Несмотря на широкий охват тематик, у ASJC есть существенные недостатки. Например, в двух разных научных областях встречаются две категории: Language and Linguistics (код – 1203, область – Arts and Humanities) и Linguistics and Language (код – 3310, область – Social Sciences). Такие близкие по терминологии категории могут существенно ухудшать результаты классификации публикаций, индексируемых в ББД Scopus.

В докладе будут рассмотрены результаты применение метода классификации, основанного на сжатии информации, к аннотациям публикаций, индексируемых в ББД Scopus.

[1] Б. Я. Рябко, А. Е. Гуськов, И. В. Селиванова. Теоретико-информационный метод классификации текстов// Пробл. передачи информ. - 2017. - Т. 53. - №3. - С.100-111
[2] И. В. Селиванова, Б. Я. Рябко, А. Е. Гуськов. Классификация посредством компрессии: применение методов теории информации для определения тематики научных текстов // НТИ. Сер. 2. Информ. процессы и системы. - 2017. - N 6. - С.8-15


To reports list

Comments

Name:
Captcha: