Стандартизация данных

Большинство отечественных и многие зарубежные коллекции используют для хранения данных собственные локальные системы и стандарты, появившиеся в процессе их разработки. При этом современные таксономические ревизии, филогенетические и биоклиматические модели, природоохранные проекты и другие научные продукты основываются на данных более чем одной коллекции.

Объединение данных из разных источников — повседневная реальность современной научной деятельности. В масштабах планеты многообразие языков, номенклатур, форматов представления данных (например, дат, географических координат и др.) создавало проблемы для их объединения и масштабирования. Появилась необходимость разработки универсальных стандартов данных, использование которых позволяет объединять информацию, происходящую из разных источников.

К настоящему времени наиболее значимым и распространённым для естественнонаучных коллекций является стандарт Darwin Core, сокращенно DwC. Стандарт включает набор полей (терминов), с помощью которых представляется атрибутивная информация о находках видов или коллекционных образцах, и правила заполнения этих полей. Иными словами, данные в DwC — это электронная таблица, заголовки столбцов которой соответствуют терминам, а строки — образцам.

Обязательное наличие среди заголовков идентификатора и ограничения, накладываемые описанием терминов (типизация), делают данную таблицу небольшой базой данных, в которой термины DwC являются полями, а описания образцов — записями.


Шашков М.П., Иванова Н.В., Филиппова Н.В., Щигель Д.С. 2018. Возможности, решения и инструменты GBIF для оцифровки и развития естественнонаучных коллекций // Зоологические исследования. № 20. С. 169-174. Pdf