Использование командной строки: моя неожиданная карьера в области вычислительной биологии

 Ускоренный курс биоинформатики направил Мин Томми Тана на другой путь.

Сидя за своим офисным столом за большим экраном и Macbook, я обрабатываю данные об экспрессии генов в отдельных клетках. Но указателя-стрелки не видно, потому что я не использую мышь. Я анализирую эти данные с помощью письменных инструкций, написанных на языках вычислительной биологии: Bash, R и Python.

Имея более чем десятилетний опыт анализа данных секвенирования ДНК и РНК, я возглавляю группу вычислительной биологии в Immunitas Therapeutics в Уолтеме, штат Массачусетс. Я делюсь вычислительными советами и приемами в блогах и на X (ранее Twitter), на котором у меня более 25 000 подписчиков.

Пятнадцать лет назад я был аспирантом в лаборатории молекулярной биологии рака Университета Флориды в Гейнсвилле, и все было новым. Мне было интересно учиться. Я проводил в лаборатории не менее 10 часов каждый день и быстро стал экспертом по пипетированию. Я опубликовал свою первую статью первого автора в 2011 году, а вторую — в 2013 году. Я был доволен своим прогрессом.

Затем однажды мой консультант попросил меня проанализировать набор данных из Gene Expression Omnibus, общедоступного хранилища, управляемого Национальным центром биотехнологической информации США. Данные были собраны с использованием иммунопреципитации хроматина с последующим высокопроизводительным секвенированием ДНК (ChIP-seq), методом масштабирования генома для картирования сайтов связывания ДНК-связывающих белков, называемых факторами транскрипции, а также областей, обогащенных модификациями гистоновых белков. Мой научный руководитель попросил меня изучить один из этих наборов данных, чтобы узнать, как фактор транскрипции, называемый фактором-1, индуцируемым гипоксией, связывается с геномом человека.

Файл был 2 гигабайта. Я скачал его, но с более чем пятью миллионами строк данных он раздавил Excel, и я не знал, что еще делать. Я впервые осознал, что, как бы хорошо я ни работал в лаборатории, мне не хватает навыков анализа данных, которые становятся все более важными для современной науки о жизни.

Мое знакомство с этими навыками произошло неожиданно. Коллега с факультета биоинформатики Университета Флориды разработал инструмент для прогнозирования альтернативных мест «сплайсинга» матричной РНК в генах, и член его диссертационного комитета попросил его экспериментально проверить свои предсказания. Я предложил помочь. Я разработал 20 наборов ДНК-праймеров, которые фланкируют предполагаемые соединения, где происходит сплайсинг, амплифицировал последовательности между ними и разделил их в геле. В большинстве случаев праймеры амплифицировали нужные последовательности, показывая, что его предсказания были верны. Он прошел защиту.

В знак признательности научный руководитель моего друга спросил, чем он может помочь мне в ответ. Я сказал, что хочу изучать биоинформатику, поэтому он провел для меня ускоренный курс, демонстрируя, среди прочего, текстовые команды для сортировки терминов, определения уникальных значений и манипулирования табличными данными. Это было немного, но я впервые видел, как кто-то взаимодействует с компьютером таким образом, и меня это зацепило. Я решил изменить план: стать компьютерным биологом.

Дивный новый мир

Новичкам текстовая командная строка, называемая терминалом, может показаться пугающей и неинтуитивной по сравнению с простотой перетаскивания современных графических пользовательских интерфейсов. Но мне было важно научиться этому. Во-первых, анализ, который хотел мой советник, не мог быть проведен каким-либо другим способом. Большинство инструментов биоинформатики написаны для запуска из командной строки. А при использовании высокопроизводительных вычислительных кластеров или работе в облаке у вас нет выбора — у этих компьютеров нет графического интерфейса. Кроме того, эти лаконичные команды невероятно хороши в манипулировании текстом, а когда дело доходит до биоинформатики, текстовые файлы — это настоящая монета. Объединяя простые команды вместе с помощью символа вертикальной черты («|»), биоинформатики могут преобразовать простые текстовые файлы в желаемый формат для использования в своих рабочих процессах.

Командная строка встроена в операционные системы Unix-Linux. Пользователи macOS могут получить к нему доступ через приложение «Терминал», тогда как пользователи Windows 10 и 11 могут установить подсистему Windows для Linux. (Пользователи более старых версий Windows должны вручную создать систему с двойной загрузкой, как это сделал я.)

Я понял, что командная строка подтолкнет меня к вычислительной биологии, но это была кроличья нора. Я начал складывать книги на своей полке. Я потратил часы на настройку системы с двойной загрузкой для загрузки Linux на свой компьютер с Windows. И я начал читать онлайн-уроки и книги, чтобы изучить основы.

Два ресурса оказались неоценимыми. Первый — это онлайн-курс по оболочке Unix от The Carpentries, организации из Окленда, Калифорния, которая проводит семинары по анализу данных в науке. Вторая — онлайн-книга «Командная строка Linux» (2019). Новички также могут ознакомиться с моей электронной книгой «От сотовой строки до командной строки» (2022 г.).

Даже с этими вспомогательными средствами не удивляйтесь, если у вас возникнут проблемы. Команды Linux имеют неинтуитивный синтаксис с запутанными, а иногда и противоречивыми параметрами, и чтобы овладеть ими, могут потребоваться месяцы практики. Как сказал один анонимный человек в книге «Искусство программирования для Unix» (2003): «Unix удобен для пользователя — он просто разборчив в выборе друзей». Другими словами, Unix не является интуитивно понятным, пока это не так; это просто требует практики.

По мере того, как мое обучение прогрессировало, я все чаще сидел за клавиатурой и меньше пользовался пипетками. И как только я освоил основы, я перешел на языки программирования R и Python и завершил свою трансформацию. Я получил постдок по вычислительной биологии в Онкологическом центре доктора медицины Андерсона в Хьюстоне, штат Техас, после чего поступил на постоянную должность в Институт рака Даны-Фарбера в Бостоне, штат Массачусетс, где я возглавлял вычислительную группу для анализа одноклеточных и данные секвенирования клинических испытаний.

Спустя десять лет после того, как я начал свой путь к командной строке, я возглавляю группу вычислительной биологии в компании, занимающейся разработкой лекарств. Это не всегда было легко; Я был единственным на своем этаже, кто изучал это еще во Флориде, и мне не к кому было обратиться за помощью. Мне повезло, что во время моего обучения в Хьюстоне у меня были отзывчивые коллеги, которые научили меня передовым навыкам, но большинство вещей мне приходилось решать самому.

Источник

No comments:

Post a Comment