Публикация данных в GBIF начинается с подготовки таблицы и загрузки ее через специальное программное обеспечение. Одновременно с загрузкой таблицы идет ее описание, заполнение описательной информации (метаданных), авторства и авторского права.
Публикация осуществляется через аккаунт организации, а не персональный аккаунт в GBIF, поэтому прежде всего необходимо начать с регистрации или поиска организации, где вам могли бы выдать права на публикацию.
Здесь вы можете найти краткие инструкции по всем этапам публикации данных в GBIF.
- Регистрация организации в GBIF
- Регистрация аккаунта в утилите Integrated Publishing Toolkit (IPT)
- Подготовка наборов данных (таблиц) одного из четырех типов в формате DwC
- Загрузка метаданных и наборов данных в IPT
Регистрация в GBIF
Зарегистрироваться в GBIF может любая организация, имеющая в своем распоряжении биологические коллекции или другие данные о биологическом разнообразии, и пожелавшая сделать эти данные открытыми для международного сообщества.
Чтобы пройти регистрацию, необходимо заполнить регистрационную форму. Обычно регистрацию организации инициирует рядовой сотрудник или куратор коллекции, но действия согласуются с административным лицом. Все поля заполняются на английском языке. Заявка рассматривается Секретариатом GBIF, после чего организация одобряется участниками GBIF. Как правило, это занимает 1–2 недели.
Чтобы упростить процесс заполнения формы, мы подготовили таблицу с соответствующими полями на русском языке и примерами зарегистрированных организаций. Скачав таблицу, можно предварительно заполнить поля на английском, а затем перенести информацию в форму на сайте GBIF.
Для каждой организации на портале автоматически создается отдельная веб-страница, где размещается информация о ней и об опубликованных от имени этой организации наборах данных. Все данные об организации вносятся на основе информации регистрационной формы, изменить их можно, связавшись с Секретариатом через helpdesk@gbif.org.
В результате регистрации на зарегистрированный e-mail отправляется пароль для публикации данных через IPT, которым нужно воспользоваться для публикации данных через IPT (см. следующий этап).
Регистрация в IPT
Данные GBIF хранятся на распределенных хранилищах зарегистрированных организаций с использованием специального программного обеспечения (самое распространенное Integrated Publishing Toolkit (IPT). Каждая организация может установить свое ПО, но для этого понадобится физический или виртуальный сервер с операционной системой Ubuntu. Подробнее об установке IPT по ссылке. Если у организации нет соответствующих серверных ресурсов, существуют национальные узлы, предоставляющие услуги хостинга на территории страны для разных организаций.
Отдельная страница про IPT на русском
Например, услуги хостинга организаций на русском языке осуществляют несколько установок IPT:
- Институт Математических проблем биологии РАН
- МГУ им. Ломоносова
- Югорский государственный университет
В ходе регистрации в GBIF организация получает логин и пароль для подключения, которые необходимо отправить администратору вашего IPT. Организация будет привязана к узлу и создан личный аккаунт на IPT для публикации данных.
Подготовка набора данных
После прохождения регистрации и установки ПО можно переходить к публикации данных.
Все данные в GBIF публикуются в форме таблиц (наборов данных) с их описаниями (метаданными).
В зависимости от формата данных, GBIF поддерживает 4 типа наборов данных:
- Набор данных только с описанием (Мetadata-only dataset)
- Набор данных формата списка видов, или чеклиста (Checklist dataset)
- Набор данных находок видов с координатами (Occurrence dataset)
- Набор данных находок видов на площадках (Sampling-event dataset)
Метаданные — Metadata only подразумевает описание данных без их публикации. Например, можно опубликовать реестр гербария, не открывая саму коллекцию (если она еще не готова или открывать ее неправомерно). Метаданные – это обязательный раздел для всех типов наборов данных, но в данном случае ими и ограничиваются.
- Пример набора данных формата Metadata only
- Шаблон формата Metadata only на русском языке с примерами (скачать .xls)
Список видов или таксонов более высокого уровня — Checklist Dataset. В этой категории публикуются таксоны без указания точных мест находок. Это могут быть опубликованы таксономические списки, отсутствующие в таксономическом дереве GBIF (например, эндемичные для региона виды), списки охраняемых таксонов, или списки видов определенной территории.
Самый большой таксономической список в сети GBIF – это GBIF Backbone Taxonomy (DOI: 10.15468/39omei), включающий в себя более 6 млн. записей и являющийся справочником, по которому проверяются названия видов во всех наборах данных, публикуемых в GBIF.
- Примеры набора данных формата чеклист
- Шаблон формата Checklist на русском языке (скачать .xls)
Находки видов с координатами — Occurrence Data — является наиболее распространенным типом набора данных. Такая публикация представляет более детальные данные о таксоне с указанием координаты его сбора, даты и другими деталями. В этом формате представлены все базы данных различных коллекций. Сюда же относятся оцифрованные аннотированные списки, сводки по результатам обследования территорий, т.д.
- Примеры наборов этого формата
- Шаблон формата Occurrence на русском языке (скачать .xls)
Стандартизированные учеты — Sampling Event Data. К этой категории относятся все варианты количественных учетов, от геоботанических описаний до результатов зимних маршрутных учетов, отбора проб зообентоса, учетов птиц, и других стандартизированных учетов, где находки видов привязаны к единице учета (площадке, пробе, маршруту, и т.д.).
- Примеры наборов данных формата Sampling Event
- Шаблон формата Sampling Event на русском языке (скачать .xls)
- Инструкция по публикации данных формата Sampling Event (скачать Pdf)
Каждый шаблон содержит обязательные, рекомендуемые и не обязательные поля из словаря Darwin Core. По желанию шаблон можно расширить, добавив другие термины из словаря согласно задачам конкретной публикации, или сократить, удалив не актуальные поля.
Загрузка набора данных и метаданных в IPT
Набор данных подготовлен и вы готовы загрузить его в систему. Осталось авторизироваться в вашем аккаунте в IPT и пройти в нем процедуру загрузки таблиц и описания полей метаданных.
- Руководство по публикации данных в IPT на русском (скачать Pdf)
- Отдельная страница про устройство IPT
При достаточном опыте эта процедура может занимать несколько минут при условии, что данные и их описание были заранее подготовлены. Важно, чтобы набор данных был опубликован с достаточным количеством метаданных (описание методики отбора проб, географии, авторов, и других особенностей сбора и подготовки данных), которые позволят правильно его идентифицировать и использовать по назначению для научных задач.
Справочное
- Буйволов Ю.А., Иванова Н.В., Шашков М.П. 2019. Оцифровка данных летописей природы и научных биологических коллекций особо охраняемых территорий. Учебное пособие. ФГБУ Приокско-Террасный государственный природный биосферный заповедник (Pdf)
- Основные лицензии Creative Commons — краткая инструкция на русском (Pdf)