Статья о данных. Причины появления самостоятельного жанра научной публикации

Оцифровка и открытая публикация значительного объема стандартизированных данных о находках биологических видов и численности их популяций в сети Интернет может дать серьезный толчок в развитии классических направлений исследований в области биологического разнообразия и экологии (White  et al., 2015; Seidl 2017; LaDeau  et al., 2017; Bled, Nichols, и Altwegg 2013; Tang  et al., 2016; Soranno and Schimel 2014; Peters  et al., 2014; Hampton  et al., 2013).

Не смотря на то, что принципиальная возможность предоставления доступа к большим данным появилась только как результат развития технических систем, ключевой фигурой, оказывающей решающее воздействие на объем и качество опубликованных данных в области биологического разнообразия и экологии, остается исследователь.

Как указано в работе «The Tragedy of the Biodiversity Data Commons: A Data Impediment Creeping Nigher?» (Escribano et al., 2018): «Публикация наборов данных – это трудоемкий процесс, который часто рассматривается как факультативный, а не обязательный этап исследовательского проекта. Обеспечение доступа к данным приносит значительную пользу научному сообществу и обществу в целом: позволяет выполнять новые исследования, обеспечивает требования верифицируемости и воспроизводимости в науке, может служить основой для принятия управленческих и проектных решений. Тем не менее, легкость доступа к большим данным создает у пользователей отношение к ним как к «бесплатному обеду для всех». Работа людей и организаций, обеспечивающих публикацию первичных данных в значительной степени остается незамеченной. Признание значительных усилий, связанных с созданием, управлением и публикацией наборов данных, по-прежнему остается непрочной, не вполне устоявшейся практикой в научном сообществе. Отсутствие норм, позволяющих  авторам наборов данных получить признание, соответствующее их вкладу в науку может привести к сокращению числа качественных наборов данных, свободно доступных в сети Интернет».

С другой стороны, процесс публикации наборов данных принципиально создан таким образом, чтобы максимально упростить этот процесс для авторов оцифровываемых биологических коллекций, полевых сборов и наблюдений. Наборы данных не подлежат рецензированию квалифицированными коллегами авторов публикуемого набора данных перед публикацией их в GBIF. Даже самое ответственное отношение авторов к подготовке данных к публикации в сочетании с программными алгоритмами GBIF, выполняющим проверку наборов данных в автоматическом режиме, не гарантирует избегания случайных или систематических ошибок, которые могли бы быть устранены в процессе рецензирования (Beck et al., 2014; Maldonado et al., 2015).

Одним из признанных в настоящее время решений двух описанных выше проблем (обеспечения признания результатов труда автора опубликованных данных и обеспечение независимой проверки набора данных квалифицированными специалистами) является концепция «Статьи о данных» (Data paper), которая впервые была описана в редакционной статье в журнале «The International Journal of Robotics Research» ( Newman and Corke, 2009).

Через короткий промежуток времени концепция статьи о данных была предложена для исследований в области биологического разнообразия. Согласно работе «The data paper: a mechanism to incentivize data publishing in biodiversity science» (Chavan and Penev, 2011), статья о данных – это особый вид публикации в рецензируемых научных журналах, основной целью которой является описание набора (наборов) данных, но не описание результатов исследований. В отличие от классической научной статьи она содержит факты о данных, но не о гипотезах и результатах их проверки, которые были получены с использованием этих данных. Процесс подготовки и публикации статьи о данных также включает в себя важнейшую процедуру – проверку качества опубликованного набора данных и его описания. Эта проверка состоит из двух этапов: технической – когда набор данных проверяется специалистами в области информационных технологий и рецензирование текста статьи и набора данных квалифицированными специалистами по соответствующей группе живых организмов.

Такие публикации дают возможность научному сообществу ссылаться в привычной форме на работу коллег, обеспечивают структурированное, пригодное для чтения описание данных и свидетельствуют об определенном уровне качества опубликованного набора данных. В настоящее время такие статьи публикуются в нескольких десятках научных журналов, в т.ч. индексированных в реферативных базах данных публикаций (116 журналов 15 издательств упомянуто в обзоре Candela et al., 2015). Для публикации статей о данных в области биологического разнообразия издательство Pensoft учредило специальный журнал Biodiversity Data Journal (BDJ, https://bdj.pensoft.net), который по состоянию на 2024 год входит базы данных Scopus (Q2), Web of Knowledge (Web of Science Core Collection, Q3) и Белый список журналов (уровень 2).

Список цитируемой литературы

Beck, Jan, Marianne Boeller, Andreas Erhardt, and Wolfgang Schwanghart. 2014. «Spatial Bias in the GBIF Database and Its Effect on Modeling Species’ Geographic Distributions». Ecological Informatics 19 : 10–15. https://doi.org/10.1016/j.ecoinf.2013.11.002.

Bled, Florent, James D. Nichols, and Res Altwegg. 2013. «Dynamic occupancy models for analyzing species’ range dynamics across large geographic scales». ECOLOGY AND EVOLUTION 3 (15): 4896–4909. https://doi.org/10.1002/ece3.858.

Candela Leonardo, Donatella Castelli, Paolo Manghi, and Alice Tani. 2015. «Data Journals: A Survey». Journal of the Association for Information Science and Technology 66 (9): 1747–62. https://doi.org/10.1002/asi.23358.

Chavan, Vishwas, and Lyubomir Penev. 2011. «The data paper: a mechanism to incentivize data publishing in biodiversity science». BMC Bioinformatics 12 (15): S2. https://doi.org/10.1186/1471-2105-12-S15-S2.

Escribano, Nora, David Galicia, and Arturo H. Ariño. 2018. «The Tragedy of the Biodiversity Data Commons: A Data Impediment Creeping Nigher?» Database 2018 (январь). https://doi.org/10.1093/database/bay033.

Hampton, Stephanie E., Carly A. Strasser, Joshua J. Tewksbury, Wendy K. Gram, Amber E. Budden, Archer L. Batcheller, Clifford S. Duke, and John H. Porter. 2013. «Big data and the future of ecology». FRONTIERS IN ECOLOGY AND THE ENVIRONMENT 11 (3): 156–62. https://doi.org/10.1890/120103.

LaDeau, S. L., B. A. Han, E. J. Rosi-Marshall, and K. C. Weathers. 2017. «The Next Decade of Big Data in Ecosystem Science». ECOSYSTEMS 20 (2): 274–83. https://doi.org/10.1007/s10021-016-0075-y.

Maldonado, Carla, Carlos I. Molina, Alexander Zizka, Claes Persson, Charlotte M. Taylor, Joaquina Alban, Eder Chilquillo, Nina Ronsted, and Alexandre Antonelli. 2015. «Estimating Species Diversity and Distribution in the Era of Big Data: To What Extent Can We Trust Public Databases?» Global Ecology and Biogeography 24 (8): 973–84. https://doi.org/10.1111/geb.12326.

Newman, Paul and Peter Corke. 2009. «Editorial: Data Papers — Peer Reviewed Publication of High Quality Data Sets». The International Journal of Robotics Research 28 (5): 587–587. https://doi.org/10.1177/0278364909104283.

Penev, Lyubomir, Daniel Mietchen, Vishwas Chavan, Gregor Hagedorn, Vincent Smith, David Shotton, Éamonn Ó Tuama, and др. 2017. «Strategies and Guidelines for Scholarly Publishing of Biodiversity Data». Research Ideas and Outcomes 3 : e12431. https://doi.org/10.3897/rio.3.e12431.

Peters, Debra P. C., Kris M. Havstad, Judy Cushing, Craig Tweedie, Olac Fuentes, and Natalia Villanueva-Rosales. 2014. «Harnessing the power of big data: infusing the scientific method with machine learning to transform ecology». ECOSPHERE 5 (6). https://doi.org/10.1890/ES13-00359.1.

Seidl, Rupert. 2017. «To Model or not to Model, That is no Longer the Question for Ecologists». ECOSYSTEMS 20 (2): 222–28. https://doi.org/10.1007/s10021-016-0068-x.

Soranno, Patricia A., and David S. Schimel. 2014. «Macrosystems ecology: big data, big ecology». FRONTIERS IN ECOLOGY AND THE ENVIRONMENT 12 (1): 3. https://doi.org/10.1890/1540-9295-12.1.3.

Tang, Jianwu, Christian Korner, Hiroyuki Muraoka, Shilong Piao, Miaogen Shen, Stephen J. Thackeray, and Xi Yang. 2016. «Emerging opportunities and challenges in phenology: a review». ECOSPHERE 7 (8). https://doi.org/10.1002/ecs2.1436.

White, Rachel L., Alexandra E. Sutton, Roberto Salguero-Gomez, Timothy C. Bray, Heather Campbell, Ellen Cieraad, Nalaka Geekiyanage, and др. 2015. «The next generation of action ecology: novel approaches towards global ecological research». ECOSPHERE 6 (8). https://doi.org/10.1890/ES14-00485.1.