Вебометрический рейтинг институциональных репозиториев постсоветского пространства и Восточной Европы
В рамках проекта "Открытая наука России" проводилась работа по разработке рейтинга институциональных репозиториев постсоветского пространства и Восточной Европы.
Ниже представлена информация о методике создания рейтинга.
РЕЕСТР ИНСТИТУЦИОНАЛЬНЫХ РЕПОЗИТОРИЕВ
Создан реестр активных репозиториев вузов и научно-исследовательских организаций стран постсоветского пространства и Восточной Европы, выполнена оценка статуса репозиториев.
В качестве источников данных использованы:
-
архив рейтинга репозиториев repositories.webometrics.info;
-
реестр репозиториев открытого доступа Register of Open Access Repositories (ROAR);
-
каталог репозиториев открытого доступа Directory of Open Access Repositories (OpenDOAR);
-
данные проекта «Академическая вебометрика».
Для первых трех ресурсов списки репозиториев были извлечены с помощью автоматического анализа веб-страниц, экспорта данных и доступного программного интерфейса (API). Списки унифицированы и дедуплицированы и дополнены на основе анализа данных проекта «Академическая вебометрика». Полученный каталог верифицирован на доступность указанных веб-ресурсов.
СБОР ВЕБОМЕТРИЧЕСКИХ ИНДИКАТОРОВ РЕПОЗИТОРИЕВ И ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ
Список отобранных вебометрических индикаторов приведен в разделе «Дизайн индикаторов». Ежемесячный сбор вебометрических индикаторов выполняется с июля 2019. Значения индикаторов собираются в распределенной системе, состоящей из базы данных (СУБД MongoDB), веб-сайта для управления процессом (Node JS), веб-сервиса, обеспечивающего выдачу заданий, получение и сохранение данных (Node JS) и агентов для сбора данных (PowerShell).
Предварительный анализ 38 157 значений шести отобранных индикаторов потребовал группировки ресурсов по четырем типам:
-
Институциональные репозитории
-
Электронные библиотеки
-
Журналы и журнальные платформы
-
Агрегаторы
Ресурсы представлены в реестре репозиториев открытого доступа Register of Open Access Repositories (ROAR), в каталоге репозиториев открытого доступа Directory of Open Access Repositories (OpenDOAR). Институциональные репозитории, порталы журналов и CRIS-системы представлены в последних версиях рейтинга repositories.webometrics.info. Таблица значений совокупного объема репозиториев (по данным Google Scholar) наглядно показывает лидеров и аутсайдеров этого направления движения открытой науки. В частности, Россия по этому показателю занимает первое место с большим отрывом
ДИЗАЙН ИНДИКАТОРОВ
Для сглаживания возможного влияния временных флуктуаций на рейтинг использован метод скользящей средней. Сглаженные значения показателей доступны за период ноябрь 2019 г. – март 2020 г. При этом количество документов в Google Scholar является достаточно стабильной величиной. Для составления рейтинга были рассчитаны как абсолютные показатели, так и скорость и направление их изменений.
Полученные сглаженные показатели скомбинированы в ряд индикаторов:
-
Объем – количество документов в Google Scholar (среднее за 4 месяца – текущий и три предшествующих)
-
Динамика – скорость изменения количества документов в Google Scholar (среднее разниц значений за текущий и предыдущий месяцы для трех последних месяцев)
-
Видимость – сумма количества страниц по Google с коэффициентом 0,7 и количества страниц по Яндекс с коэффициентом 0,3.
-
Авторитетность – Сумма количества ссылающихся доменов с коэффициентом 1244 и количества входящих ссылок
-
Полнотекстовость - сумма количества полнотекстовых файлов по Google с коэффициентом 0,7 и по Яндекс с коэффициентом 0,3.
Применяемое в «видимости» соотношение 7:3 в пользу Google отражает бόльшую популярность этой поисковой системы в анализируемых странах. Тем не менее, Яндекс также служит
ДИЗАЙН И РЕЗУЛЬТАТЫ РАСЧЕТОВ РЕЙТИНГА
Для получения адекватного результата рассмотрены несколько вариантов сглаживания и нормализации значений индикаторов: нормализация по максимальному значению, ранговое сглаживание и логарифмическое сглаживание.
Для комбинирования полученных индикаторов в итоговый рейтинг применяется суммирование нормализованных значений индикаторов с коэффициентами, отражающими их значимость.
В качестве базового варианта предложена следующая формула расчета итогового рейтинга:
60 * Объем + 5 * Динамика + 15 * Видимость + 10 * Авторитетность + 10 * Полнотекстовость
Варьирование весовых коэффициентов позволит подстроить модель для максимального соответствия экспертной оценке.
Результаты расчета рейтинга на основе логнормального сглаживания (использование логарифма с основанием, равным максимальному значению в ряде) и приведенной выше формуле на примере топовых российских репозиториев открытого доступа были представлены в работах1,2
САЙТ ПРОЕКТА
Сайт проекта реализован на платформе Node JS в виде веб-приложения, опубликованного по адресу http://oarank.webometrix.ru.
Данные рейтинга за конкретный месяц (http://oarank.webometrix.ru/bymonth представлены в виде таблицы, содержащей данные всех вошедших в рейтинг репозиториев со следующими значениями:
-
Домен (интернет-домен, на котором расположен репозиторий)
-
Наименование
-
Страна
-
Объем – количество документов в Google Scholar (среднее за 4 месяца – текущий и три предшествующих)
-
Динамика – скорость изменения количества документов в Google Scholar (среднее разниц значений за текущий и предыдущий месяцы для трех последних месяцев)
-
Видимость – сумма количества страниц по Google с коэффициентом 0,7 и количества страниц по Яндекс с коэффициентом 0,3.
-
Авторитетность – Сумма количества ссылающихся доменов с коэффициентом 1244 и количества входящих ссылок
-
Полнотекстовость - сумма количества полнотекстовых файлов по Google с коэффициентом 0,7 и по Яндекс с коэффициентом 0,3.
-
Интегральная оценка, основанная на нормализованных значениях индикаторов, рассчитанная по формуле 60 * Объем + 5 * Динамика + 15 * Видимость + 10 * Авторитетность + 10 * Полнотекстовость
-
Ранг в общем рейтинге
-
Ранг в страновом рейтинге
В качестве элементов управления и навигации используются выбор месяца рейтинга для демонстрации и фильтр по странам.
-
Данные рейтинга конкретного репозитория за весь период (http://oarank.webometrix.ru/data) представлены в виде таблицы, содержащей описанные выше индикаторы и показатели по конкретному выбранному репозиторию за весь период измерений
-
Динамика (http://oarank.webometrix.ru/compare) позволяет просмотреть динамику изменения рейтинга по выбранным временным интервалам (не более 6). Данные представлены в виде карточек со следующей информацией:
-
Название репозитория
-
Домен
-
Интегральная оценка и маркер ее изменения с предыдущего периода
-
Ранг в общем рейтинге и маркер его изменения с предыдущего периода
-
Ранг в страновом рейтинге и маркер его изменения с предыдущего периода
-
Карточки упорядочены в колонках по месяцам в соответствии с рангом, что позволяет визуализировать перемещение репозитория в рейтинге с течением времени.
ИНФОРМЕР
Информер реализован в виде вебсервиса – страницы по адресу http://oarank.webometrix.ru/informer/«домен репозитория». По этому адресу располагается отрисованная карточка конкретного репозитория со следующей информацией:
-
Ссылка на сайт рейтинга
-
Интегральная оценка репозитория и маркер ее изменения с предыдущего периода
-
Ранг в общем рейтинге и маркер его изменения с предыдущего периода
-
Ранг в страновом рейтинге и маркер его изменения с предыдущего периода
Информер может быть размещен на сайте репозитория посредством вставки в код страниц элемента <iframe> шириной 450 и высотой 165 пикселей, например <iframe src="/ http://oarank.webometrix.ru/informer/is.muni.cz" width="450px;" height="165px;">
ЗАКЛЮЧЕНИЕ
В результате выполнения проекта собраны данные о репозиториях России, других стран постсоветского пространства, Центральной и Восточной Европы, выполнен сбор выбранных вебометрических показателей с еемесячным интервалом за 17 месяцев (576 058 значений), на основе анализа различных вариантов разработан и рассчитан рейтинг, создан сайт для обеспечения открытого беспрепятственного доступа к информации рейтинга, информер для внедрения на страницу репозитория.
1 Косяков Д. В. Проект "Открытая наука России": Рейтинг открытых институциональных репозиториев - бета версия. https://conf.neicon.ru/materials/77-online0520/20200527-Kosyakov.pdf
2 Разумова И. К. Итоги проекта «Открытая наука России»: KPI с картинками. https://conf.neicon.ru/materials/80-online1220/20201203-Razumova.pdf
Дополнительная информация:
Косяков Д. В. Институциональные репозитории в России, странах постсоветского пространства и Восточной Европы и их место в инфраструктуре открытого доступа к научной информации. https://conf.neicon.ru/materials/70-Kalin/20191014-06-Kosyakov.pdf