Автоисправления в Excel по-прежнему остаются «головной болью» исследователей

Перевод: Alex Hiver
Редакция: Дарья Филатова
Оформление: Никита Родионов
Публикация: 22.08.2021

Несмотря на то, что генетиков предупреждают о проблемах при использовании электронных таблиц, в 30 % опубликованных статей содержатся искаженные названия генов в разделе приложений.

Нелепые ошибки автозамены — обычная тема для обсуждений в сети (например, в Twitter). Они также являются проклятием для генетиков, использующих программы работы с электронными таблицами, такие как Microsoft Excel. Несмотря на проведенное пять лет назад исследование, в котором широко были представлены проблемы автоисправлений, согласно анализу опубликованных списков генов, научная литература по-прежнему изобилует электронными таблицами, полными ошибок. И проблема может быть даже хуже, чем предполагалось ранее.

Давняя проблема часто возникает, когда сокращенная форма названия гена (известная как символ гена) неправильно распознается как дата и автоматически корректируется как таковая в Excel или Google Sheets. Например, SEPT4 (септин 4) и MARCH1 (от англ. membrane associated ring-CH-type finger 1) автоматически изменяются на «4 сентября» и «1 марта».

Молекулярный биолог Ориоль Пурди из Сиднейского университета в Австралии считает, что данный факт может оказывать существенное влияние на исследования. Проработав в течение двух десятилетий с наборами данных микроматричного анализа генов и транскрипции генов, Пурди хорошо знакома с непреднамеренными ошибками. Она считает, что эта проблема часто ставит новичков в затруднительное положение.

Искаженные результаты

Пурди работает над выявлением генных сетей, участвующих в развитии ранних стадий заболевания у овец и крупного рогатого скота. Если таблица изменяет названия генов, эти гены теряются при внесении данных в программное обеспечение для анализа сети генов, что может исказить результаты. По ее словам, программа «сообщит о потере нескольких генов», однако не укажет, каких именно. А при работе с данными о 20 000 генов сравнение списков для определения утраты сведений о конкретных генах вручную — довольно обременительная задача.

Впервые проблема была задокументирована в 2004 году, когда Барри Зиберг, молекулярный фармаколог из Национального института рака в Бетесде (штат Мэриленд), с коллегами предупредили об изменениях символов генов при обработке геномных данных [1].

В 2016 году Марк Циманн с коллегами из Австралийского медицинского исследовательского института в Мельбурне провели количественную оценку проблемы. Они обнаружили, что пятая часть статей в ведущих журналах по геномике содержала ошибки преобразования названий генов в таблицах Excel, опубликованных в разделах приложений [2]. Эти данные часто находятся в общем доступе и используются другими генетиками, поэтому ошибки могут закрепляться и впоследствии исказить дальнейший анализ.

Однако, несмотря на то, что проблема обратила на себя внимание исследователей, а также были предприняты меры для ее решения, согласно обновленному и более обширному анализу, проведенному Циманном (ныне работает в университете Дикина в Джилонге в Австралии), автозамена все еще широко распространена [3]. Команде под его руководством удалось обнаружить, что почти треть из более чем 11 000 статей со списками генов в Excel в разделе приложений, опубликованных в период с 2014 по 2020 год, содержала ошибки в наименованиях генов (рис. 1).
 

Рисунок 1 | «Возрастающая проблема»

По словам Циманна, исследующего вычислительную сходимость результатов в генетике, обычные проверки могут обнаружить ошибки автозамены. Без таких проверок ошибки могут легко остаться незамеченными из-за большого объема данных в электронных таблицах.

Изменения в соглашениях о наименованиях

В 2017 году Комитетом по номенклатуре генов HUGO (HGNC), который занимается стандартизацией названий генов человека, было объявлено, что будут приняты решительные меры по изменению аббревиатур для тех генов, названия которых чаще всего подвергаются искажениям, поскольку усилия сообщества (включая выпущенный видеоролик 2019 года на YouTube) не смогли решить данную проблему. С тех пор было обновлено 27 наименований (аббревиатур) генов, включая SEPT4 (теперь SEPTIN4) и MARCH1 (теперь MARCHF1).

По словам Элспет Бруфорд, координатора HGNC из Европейского института биоинформатики (г. Хинкстон, Великобритания), этот шаг был отклонением от политики комитета по сохранению стабильных наименований. В прошлом году комитетом было опубликовано руководство, где отражались новые правила модификации аббревиатур генов в случаях, когда это влияет на обработку данных [4]. Другие организации, занимающиеся присвоением названий генов, последовали их примеру.

Как отмечает Бруфорд, возможно, еще слишком рано говорить о каких-либо изменениях в частоте ошибок в литературе, потому что опубликованные данные часто содержат устаревшие списки генов. На редакцию уже опубликованных данных уйдут годы, поэтому HGNC рекомендует исследователям получать доступ к самым последним сведениям из общедоступных баз данных, а издания просят авторов делать это перед публикацией.

С начала года Циманн ежемесячно ведет таблицу «лидеров» журналов, в которых чаще всего допускаются ошибки; в этой таблице часто фигурируют такие известные издания, как «Nature Communications», «eLife», «PLoS Genetics» и «Scientific Reports». Циманн считает, что, вероятно, это связано с большими списками генов и крупными объемами данных, опубликованных в статьях этих журналов.

Избегай или приспосабливайся

Циманн предлагает одно из решений: избегать использования электронных таблиц. Хотя у некоторых из них, например, у программ с открытым исходным кодом LibreOffice и Gnumeric, не обнаруживается аналогичных проблем, электронные таблицы сложно проверять. Он добавляет, что если проблема существует, не всегда очевидно, где именно она возникла, потому что программное обеспечение не оставляет записей о предпринятых им действиях.

Некоторые специалисты в области вычислительной биологии используют готовые языки программирования, такие как Python и R. По словам Циманна, они не вносят автоматические исправления в аббревиатуры генов, а исследователи могут отследить источник ошибок. Однако для пользования таким программным обеспечением (т. е. написания кода для анализа данных) необходимо изучение языка программирования.

Это обстоятельство является тем, на что, по словам Пурди, у нее нет времени. Она адаптировалась к особенностям Excel, добавляя значки апострофа перед наименованиями генами, в которых чаще всего наблюдается автозамена, дабы предотвратить такое преобразование. Или же перед импортом данных ей приходится предварительно форматировать ячейки электронной таблицы. Как говорит исследователь, это одно из тех явлений, которые она вынуждена попросту принять.

По словам Бруфорд, проблема автозамены в Excel вряд ли будет решена в ближайшее время. По сравнению с количеством пользователей Excel, существует крайне небольшая база пользователей специализированных программ. К тому же, Microsoft никогда не заявляла, что будет изменять свое программное обеспечение, чтобы приспособиться к генетическому сообществу.

Тем, кто продолжает использовать проблемное программное обеспечение, Циманн рекомендует выполнять быструю проверку, прежде чем публиковать данные или выкладывать их в общий доступ. По его словам, сортировка данных по аббревиатуре гена может привести в том числе и к ошибкам их преобразования в даты.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.