Подготовка статьи о данных

Правила для авторов журнала Biodiversity Data Journal (BDJ) детально описывают требования к форме публикации данных и тексту статьи. Важным достоинством журнала является публикация внятных требований к обеспечению уровня новизны набора данных, который редколлегия будет считать значимым для принятия к публикации статьи о данных:

«Статьи и связанные с ними данные должны иметь достаточный уровень новизны и служить основой для лучшего понимания темы статьи. Ниже приведены примеры, которые могут помочь вам определить подходит ли ваша рукопись для публикации в  BDJ:

Пример 1. Записи о находках одного вида (например, новые находки для страны или региона) НЕ РАССМАТРИВАЮТСЯ для публикации в  BDJ, за исключением случаев, когда они содержат данные о детальные исследованиях и новую информацию о морфологии, геномике, биологии, экологии, распространении данного вида (см также Примеры 2 и 3 ниже).

Пример 2. Наблюдения за единственным видом должны быть ЗНАЧИМЫМИ либо по причине важности данного вида (лекарственный / ядовитый вид, инвазионный вид, вид под угрозой исчезновения, карантинный вид и т. п.), либо, если эти данные значительно расширяют известный ареал обитания вида, представляют собой неожиданные результаты в области биогеографии или представляются значимыми по другой причине. Дополнительным аргументом для принятия статьи к рассмотрению является наличие изображений и мультимедийных файлов, привязанных к любым новым экологическим/этологическим данным, если до этого по данному виду не были опубликованы схожие материалы и если эти материалы были получены авторами самостоятельно, а не являются простым повтором или компиляцией ранее опубликованных материалов.

Пример 3. Сведения о находках множества видов могут быть рассмотрены для публикации в журнале, если они значительно увеличивают пространственный и (или) временной охват, или демонстрируют сведения о новых местообитаниях, или являются записями о новы находках нескольких видов на уровне отдельной страны или региона страны, или относятся к видам, имеющим большое значение для экосистем или человека, или относятся к малоизученным видам. Данные о находках не будут считаться новыми и подходящими для публикации, если они перечисляют новые находки известных (банальных) для хорошо изученных регионов таксонов.

Пример 4. Локальный список видов считается новым, если он включает новые данные для региона. Локальный список видов НЕ СЧИТАЕТСЯ новым, если он содержит записи, которые подтверждают и повторяют ранее выполненные работы и приводят виды для хорошо изученных регионов.»

Перед началом работы над статьей необходимо обратить особое внимание на лицензию, которую автор может присвоить своему набору данных. Если политика GBIF позволяет публиковать данные с лицензиями, которые, например, ограничивают право на коммерческое использование данных (CC-BY-NC), то Pensoft Publishers в отличии от GBIF не позволяет использовать лицензии, ограничивающие право на коммерческое использование накладывающие подобные ограничения данных. Кроме того, GBIF не накладывает никаких ограничений на объем, географический и временной охват публикуемых данных, в то время как издатель статей о данных оставляет за собой право принимать к публикации рукописи, только содержащие «значимый для науки» набор данных (смотри приведенную выше цитату с сайта BDJ).

Подготовку рукописи статьи целесообразно начинать с заполнения всех полей метаданных, которые доступны в IPT. Текст метаданных должен соответствовать общепринятому стилю изложения научной информации на английском языке.

После публикации первой версии набора данных через GBIF.org, на странице набора данных в используемой IPT-инсталляции будет доступен для скачивания текстовый файл в формате RTF, представляющий собой черновик рукописи статьи, оформленной в соответствии с правилами для авторов Pensoft Publishers. Этот текст необходимо дополнить иллюстрациями и ссылками на литературные источники. Вероятнее всего, в процессе подготовки рукописи потребуется несколько раз вносить уточнения, как в метаданные, так  и в сами публикуемые данные. Интерфейс IPT предоставляет удобную возможность публиковать новые версии набора данных и метаданных с сохранением истории изменений.

Важнейший этап подготовки рукописи статьи о данных – это проверка качества опубликованного вами набора данных. На сайте журнал BDJ есть превосходное руководство по процедуре проверки качества набора данных, перевод которого мы приведем ниже (https://bdj.pensoft.net/about#DataQualityChecklistandRecommendations).

Под «ошибками» здесь мы не подразумеваем ошибки в описании фактов, хотя их, безусловно, тоже следует избегать. Вы моете подготовить набор данных, в котором не будет содержаться фактических ошибок, но данные при этом будут окажутся низкого качества, так как они были плохо структурированы и (или) отформатированы, и, следовательно, их будет трудно или невозможно использовать в дальнейшем. Наиболее вероятно, что следующим, кто прочитает ваш набор данных, будет компьютерная программа, а не человек. Важно, чтобы ваши данные были структурированы и отформатированы так, чтобы они легко обрабатывались компьютерными программами, образующими конвейер (pipline) между вами и другим человеком – пользователем ваших данных.

Приведенные ниже рекомендации помогут вам максимально увеличить возможность повторного использование ваших цифровых данных. Каждый из них представляет собой тест, выполняемый компанией Pensoft при аудите наборов данных по запросу авторов. Авторам рекомендуется самостоятельно выполнять эти проверки до публикации данных. Хороший текстовый редактор может быть использован для поиска и исправления большинства ошибок в форматировании данных (Здесь и далее примечания переводчика приведены в скобках курсивом. Для операционных систем семейства Windows можно рекомендовать редактор Notepad++ https://notepad-plus-plus.org, для операционных систем GNU/Linux редактор Geany (https://www.geany.org).

Электронные таблицы обычно имеют некоторые функции для функций проверки текста, например функцию «TRIM» («СЖПРОБЕЛЫ»), которая удаляет ненужные пробелы из элемента данных. Самые мощные инструменты для проверки и очистки данных доступны пользователям, которые могут работать в командной строке программной оболочки BASH. Для таки пользователей, которые имеют навыки работы в BASH рекомендуется использовать веб-сайт «A Data Cleaner’s Cookbook» (https://www.polydesmida.info/cookbook).

На этапе технического аудита наборов данных Pensoft не проверяет таксономические или библиографические данные на правильность. Будут выполнены проверки соответствия географических координат текстовым описаниям местности, к которой относятся данные. Рекомендуется проверить на поля на отсутствие «доменной шизофрении» – ошибки хранения в одном поле данных более чем одного типа.

Корректура данных занимает не меньше времени и навыков, чем корректура текста. Так же, как и с при работе с обычным текстом, если не прилагать специальных усилий по тщательной проверке, то в наборах данных быстро накапливаются ошибки. Мы настоятельно рекомендуем вам потратить время на выполнение описанных ниже базовых тестов качества, чтобы избежать затруднений при публикации данных.

Символы

– Набор данных должен храниться в кодировке UTF-8.

– Единственными символами, которые не являются цифрами, буквами или стандартной пунктуацией, являются табуляции и пробелы (Кодировка UTF-8 поддерживает 20 различных символов пробела http://jkorpela.fi/chars/spaces.html. Наиболее частой ошибкой является включение в данные символов неразрывного пробела).

– Каждый символ имеет только одну кодировку в наборе данных (Для русскоязычных авторов проблемой может является смешение символов букв, одинаковых в латинском алфавите и в кириллице: a, c, o, p, e. Символ градуса, одиночной кавычки и другие символы могут выглядеть на экране одинаково, но кодироваться разными последовательностями UTF-8).

– Отсутствие разрывов строк в элементах данных (внутри одной ячейки таблицы).

– Отсутствие символа разделения полей внутри элементов данных (предпочтительно использовать в качестве разделителя полей данных символ табуляции).

– Отсутствие символа «?» или символов-заменителей вместо действительных символов.

– В наборе данных не должен использоваться символ «возврата каретки» (Nекстовые файлы, подготовленные в среде Windows по умолчанию в конце строк используют пару спецсимволов «новая строка» и «возврат коретки». Текстовой редактор Notepad++ позволяет преобразовать фал с концами строк в стиле Windows на стиль операционных систем типа Unix с помощью меню «Правка» → «Формат конца строк» → «Преобразовать в UNIX (LF)»).

– Отсутствие начальных, конечных, дублированных или ненужных пробелов в отдельных элементах данных.

Записи (строки данных)

– Отсутствие записей с числом полей большим или меньшим, чем задано числом заголовков полей.

– Отсутсвие пустых записей (строк).

– Отсутствие повторяющихся записей (строк).

Поля

– Отсутствие пустых полей.

– Отсутствие явного усечения (обрезания) элементов данных.

– Отсутствие непарных скобок в элементах данных.

– Во всех ячейках одного поля содержатся данные только одного типа.

– Одинаковые данные имеют одинаковое оформление (например, описание географического местоположения находок, собранных в одном месте должны быть записаны в соответствующем поле однообразно: «Бассейн р. Кожим». Нельзя чтобы эта информация была записана в разных вариант «Бас. р. Кожим», «Бассейн реки Кожим», «Khozhim river basin»).

– Стандартные элементы данных, такие как даты и географические координаты хранятся в рекомендованном формате.

– Данные в разных полях не противоречат друг другу (например, географические координаты места находки и название страны, на территории которой эта находка была сделана).

– Нет пропущенных данных, если такая возможность не предусмотрена в методике сбора данных».

При отправке рукописи в журнал издательства Pensoft Publishers следует иметь в виду, что понятие статьи о данных пока не успело широко проникнуть в практику работы редакторов и научных рецензентов. Поэтому настоятельно рекомендуем во введении к статье явно указывать, что настоящая работа представляет собой статью о данных, подготовленную в соответствии с концепцией, описанной в работе (Chavan and Penev, 2011). Статья должна попасть к рецензенту (рецензентам), имеющему опыт публикации данных о биологическом разнообразии, критические замечания которых позволят повысить научное качество публикуемых данных.