Секвенирование ДНК в домашних условиях: как на коленке собрать прибор за 10 миллионов

Всeм привeт, мeня зoвут Aлeксaндр Сoкoлoв, и я xoчу рaсскaзaть, кaк сдeлaл дoмa сeквeнaтoр   – прибoр про рaсшифрoвки ДНК. Рынoчнaя цeнa тaкoгo прибoрa сoстaвляeт oкoлo 10   миллиoнoв рублeй.

Крaткий отклонение в гeнeтику. Eсли вдруг вы пoмнитe, в 2003   г. былo сдeлaнo сeнсaциoннoe зaявлeниe: учeныe, нaкoнeц, рaсшифрoвaли гeнoм чeлoвeкa. Гeнoм пoстрoeн из ДНК, a ДНК   – этo исxoдный кoд oргaнизмa. ДНК прeдстaвляeт сoбoй двoйную цeпoчку, сoстoящую из 4-x видoв нуклeoтидoв, кoтoрыe пoвтoряются в гeнoмe чeлoвeкa пoрядкa 3   млрд. рaз. Тaк жe, кaк в битax зaшифрoвaнa вся инфoрмaция нa вaшeм кoмпьютeрe, в нуклeoтидax зaшифрoвaнa инструкция o сбoркe всex бeлкoв чeлoвeчeскoгo тела. Так есть зная, в какой последовательности расположены нуклеотиды в ДНК, мы теоретически можем собрать все необходимые белки и настричь модель человека. Так вот в стандартном понимании ученые не расшифровали ДНК, а легко перевели химическую последовательность в набор нулей и единиц на компьютере. Что выделывать с этим дальше   – отдельный разговор. Например, на данный момент нам ясна обязанности лишь 5% всего массива генома (это кодирование белков). Чем занимаются другие 95%, можно только предполагать.

В 2003   году стоимость секвенирования ДНК человека составляла близко 100   млн долларов. С течением времени эта цифра уменьшалась и сейчас симпатия приближается к тысяче долларов. Вы платите, вашу ДНК секвенируют и отдают вам упрямый диск с 3   ГБ информации   – вашим геномом в цифровом   виде.

Сегодня на рынке представлено три основных секвенатора. Самый продуктивный. Ant. неэффективный, Hiseq, и его приемник NovaSeq, обеспечивает самое дешевое (флуоресцентное) секвенирование. Вотан его запуск длится несколько дней, и за это время обрабатываются геномы сразу нескольких лицо. Однако сам запуск стоит около десятка тысяч долларов. К слову, и самостоятельно прибор стоит порядка $1 млн, а, поскольку устаревает он примерно ради 3   года, для того, чтобы он окупился, он должен приносить вам $1000 в   гемера.

Второй прибор появился на рынке буквально прошлым летом. Он называется Nanopore и базируется в очень интересной технологии, когда ДНК секвенируется путем пропускания через нанопору. Самый умеренный вариант Nanopore позиционируется как одноразовый домашний секвенатор и стоит   $1000.

Третий прибор   – PGM, полупроводниковый секвенатор, кто стоит $50   000 у себя на родине и около 10   млн рублей (с доставкой, растаможиванием и т. д.) в России. Ход секвенирования на нем занимает порядка нескольких   часов.

Что ж, десяти миллионов у меня отнюдь не было, а PGM захотелось. Пришлось сделать самому. Сначала вкратце о том, как происходит полупроводниковое секвенирование. Вся цепочка ДНК делится сверху фрагменты длиной по 300–400 нуклеотидов, называемые ридами. Затем риды прикрепляются к маленьким сферам и неоднократно копируются   – в итоге на каждой сфере «висит» целый пучок одинаковых фрагментов ДНК. Копировка нужно для усиления сигнала от каждого конкретного рида. Набор разных сфер называется библиотекой   ДНК.

Сердцем PGM является разовый чип   – матрица, похожая на матрицу в фотокамере, только вместо пикселей, реагирующих получай свет, здесь pH-транзисторы, реагирующие на изменение кислотно-щелочного баланса. Полученная библиотечка ДНК загружается на чип, содержащий 10   млн лунок, на дне каждой из них находится pH-филдистор. В лунку умещается только одна сфера и, следовательно, риды только одного подобно (с одной определенной последовательностью нуклеотидов). Далее на чип подаются реагенты таким образом, затем чтобы ДНК начала себя копировать. А копируется она линейно, то есть нуклеотиды прикрепляются к вновь создаваемой цепочке в волюм порядке, в котором они стоят в материнской цепочке. Поэтому на чип подается Вотан тип нуклеотидов   – и тут же фиксируется изменение pH в некоторых лунках (это следственно, что в них произошло присоединение данного нуклеотида). Далее подается другой типик нуклеотидов и фиксируется изменение pH в лунках и т. д. Таким образом, подавая на чип все 4   как нуклеотидов много раз, мы можем получить информацию о последовательности нуклеотидов в каждом риде. Потому математическими способами прочитанные короткие отрезки собираются на компьютере в единую цепочку. Для того чтоб собрать ее более-менее уверенно, каждый рид нужно прочесть примерно объединение 100   раз.

Рис.1.   Полупроводниковое секвенирование

Теперь разберемся, из почему состоит сам прибор. Имеется, как мы уже знаем, чип, а да система подачи реагентов и материнская плата. Все секвенирование ведется именно держи чипе   – остальной аппарат только передает на него определенные сигналы, подает реагенты, считывает с него аналоговые сигналы, оцифровывает их и гонит высуженный поток информации на компьютер, где данные накапливаются и обрабатываются.

Рис. 2.   Компонент секвенатора

Чип позиционируется как одноразовый и после использования выкидывается. Соответственно, а там, где работает PGM, такие чипы можно достать бесплатно в любом количестве. К чему их доставать, спросите вы? Дело в том, что чип мне сейчас удалось использовать многократно. По сути он вечен: достаточно хорошо промывать его   – и хоть применять вновь и вновь. По точности работы он ничем не хорэ отличаться от нового. Сама моя идея заключалась в том, чтобы предпринять прибор под этот условно бесплатный   чип.

Итак, передо мной встала поручение реверс-инжиниринга чипа. Разумеется, никакой документации на заветную микросхему встретить было нельзя   – производитель не собирался делиться секретами производства, а хотел спокойно продавать приманка приборы за $50   000. Для начала я сделал самое очевидное и простое: прозвонил контакты тестером. Стало точно, где расположены цифровые и аналоговые входы-выходы, питание и прочее. Кое-какую информацию посчастливилось почерпнуть из патентов на чип. Но всего этого, понятно, было ущербно для создания полноценного продукта. Я еще повозился с чипом, проверял разные близкие догадки, поэкспериментировал с подачей сигналов, но никуда принципиально не продвинулся. Пришлось поставить чертеж на   паузу.

Рис. 3.   Прозвонка чипа

А затем внезапно на Habrahabr ми попалась статья известного блоггера MonsterBars о том, как он делает реверсирование-инжиниринг чипов! Воодушевился, написал ему, написал другим энтузиастам, отправил интерпелляция в Киев, где занимались фотографированием чипов. Из Киева ответили, что лощить по слоям они не умеют, могут только отснять верхний тр, а так как мой чип   – многослойный, будет не понятно, куда идут дорожки ото контактов. Потом познакомился с одним американцем, который тоже занимается реверс-инжинирингом чипов, послал ему приманка микросхемы, но и тут дальше фотографирования верхнего слоя дело не пошло. А там наткнулся в интернете на статью про тех, кто смог отреверсить микросхема Sony PlayStation и пр. («Слава героям!» и вот это все, если кто такой в курсе). Решил написать им с вопросами, нашел их ники   – и тут а понял, что один из них мне знаком. Недавно товарищ свел меня со своим другом, тот или другой «тоже занимается генетикой на любительском уровне», мы пообщались с этим другом в Skype и сверху этом диалог закончили. И вот я понимаю, что мой новый приятель   – мегакрутой специалист реверс-инжиниринга чипов. Тут же написал ему. Однако выяснилось, точно, хоть помочь он и готов, у него нет микроскопа. Снова   тупик.

А спустя несколько месяцев нужный микроскоп нашелся в соседней лаборатории! Правда, встроенная в него суд была ужасной, я фотографировал на мобильный телефон через окуляр и получал снимки вот такого качества:

Падди. 4.   Чип под микроскопом

Затем на последний Новый год атомный микроскоп за 130   тыс. появился у меня на работе (я   – специалист по мнению квантовой криптографии). Мечты сбываются. Наконец, я смог нормально сфотографировать чип свыше.

Рис. 5.   Мой рабочий микроскоп

А потом… Потом мне все-таки пришлось самому одолеть технику его полировки. Трудность полировки заключается в том, чтобы снимать пласты металла толщиной порядка 1   микрона   – при этом ширина чипа составляет 1   кубик. Для сравнения скажу, что это примерно то же, что разрешить на 1   км погрешность не более 10   см. Я очень старался. Результаты моих трудов представлены получи следующем   фото:

Рис. 6.   Реверс-инжиниринг под оптическим микроскопом

Полно(те) хорошо видны нижний кремниевый слой, верхний слой с транзисторами, первый, второй, незаинтересованный и четвертый слои металла.

Чип состоит из повторяющихся зон (типа сдвиговых регистров), и по части таким картинкам было очень удобно его анализировать: сразу становилось отчетливо, что происходит на разных слоях. Я «отреверсил» самые «нафаршированные» участки с обилием логики, которые во сто крат повторялись. Но самым сложным оказалось отследить трассы, идущие по всему чипу, ухватиться, какой внешний контакт к чему относится. С новогодних праздников до конца февраля, я, вооружившись новым прекрасным микроскопом, корпел надо этой задачей   – сидел на работе до десяти ночи, «реверсил», думал. И шелковичное) дерево произошло новое чудо: товарищ смог организовать бесплатную фотосъемку чипа соответственно слоям на электронном микроскопе в МИРЭА. «Фотосессия» крохи в 1   кв. см представляла собой 50   ГБ черновато-белых фотографий.

Теперь все эти отдельные фотографии нужно было каким-в таком случае образом объединить в одну целую картинку. Чуть ли не в тот а день я написал на «питоне» программу, которая генерировала HTML-файл   – при его открытии в браузере я получал требуемое. (С руки, самая старая 10-я Opera справилась с этим лучше всего, рекомендую!) Далее на javascript написал еще одну программу, позволяющую сравнивать слои, как по писаному переходить между ними, выравнивать их, подбирать масштаб и т. д. Наконец, в моих руках были все инструменты исполнение) решения главных задач. Я отследил трассы, пронизывающие чип, и восстановил всю его структуру давно последнего транзистора.

Еще одна фотография среза чипа, сделанная под рентгеном (в МИРЭА):

Падди. 7.   Съемка под электронным микроскопом

Хорошо видны лунки, куда попадают сферы с ридами. Далее располагаются три слоя металла, а еще ниже   – слой с транзисторами.

Следующим по этапу борьбы за светлое будущее стало создание под чип материнской платы. Спроектировал ее и отправил запрет на производство. А пока суд да дело использовал для работы с чипом плату «Марсоход-2» с FPGA. (FPGA   – сие, грубо говоря, массив из 10   000 универсальных логических элементов; программируя FPGA, наша сестра можем получать любую логическую схему, легко обрабатывающую гигабитные потоки информации.) Прошивку с целью FPGA я написал сам, а кроме того, для динамического управления системой написал софт, кто задает всю конфигурацию для FPGA. Потом вновь образовался полугодовой ушла на базу (я разводился, ездил в командировку на Байкал, готовил в лаборатории установку, которую демонстрировали Путину). Только в конце концов звезды сошлись: у меня появилось время, приехали готовые платы   – и я собрал свою систему.

Шала. 8.   Создание «железа»

Подал все необходимые сигналы и   – о, чудо!   – увидел получи и распишись осциллографе сигнал с чипа. (Осциллограф я купил когда-то за 6   000 рублей держи eBay, еще 1   000 стоила прошивка к нему.) На картинке хорошо видны пятна   – капельки какого-так реагента.

Рис. 9.   Сигнал с чипа на осциллографе

Теперь мне нужно было придумать, как бы оцифровать эту картинку и передать ее на компьютер. Я собрал вот такую установку:

Жемчужное) зерно.10.   Схема прибора

Рис. 11.   Готовая установка

Есть компьютер, каковой подает данные управления на плату с FPGA. Плата генерирует цифровые сигналы и отправляет их получай чип. Сигнал с чипа идет на усилитель, далее   – на АЦП получи плате, оцифровывается и передается через COM-порт на компьютер. Вообще, пропускная способность COM-порта невелика: 15   килобит в побудь на месте (т. к. в одном чипе находится от 1   млн до 10   млн «пикселей», а максимальная соэ передачи   – 115200   бод). Тем не менее картинка на компьютер в итоге попадает.

(белое. 12.   Обработанный сигнал на компьютере.

На фото выше видно, что-то, когда на использованный б/у-шный чип подается библиотека ДНК, чип заполняется скачкообразно: по краям   – в меньшей степени. Разные цвета обусловлены разным напряжением получи pH-транзисторах. То есть мы можем ясно различить те лунки, камо попали сферы с ридами   – впоследствии это поможет нам контролировать промывку   чипа.

Соответственно, следующей задачей стала очистка чипа. Нужно было добиться, чтобы он стал, как новый. К счастью, у меня имелся совершенно небывалый чип в качестве референсного образца. На илл. А видно, что в активной области такого рода чип практически одного цвета (вертикальные повторяющиеся полосы   – это просто шумы, наводки).

Сарацинское пшено. 13.   Промывка чипа

На рис. 13   B неудачно промытый чип   – некто разноцветный. На рис.13   D   – использованный, но хорошо промытый чип. Видно, как будто градиент по краям исчез. Тем не менее стоило бы снова доказать, что он действительно чистый и может использоваться повторно.

Поскольку библиотеки ДНК прикрепляются к танталовому покрытию чипа в кислой среде и открепляются   – в щелочной (так есть при высоком pH), то чип промывается с помощью специальных полуавтоматических пипеток растворами с разными pH. Возьми сегодняшний день мне удалось добиться практически полной очистки   чипа.

У меня интересовались, почему, в некоторых случаях я полностью разобрался в структуре чипа, я не стал заказывать его изготовление, а предпочел точно по-прежнему искать и доставать б/у-шные, возиться с их промывкой и т. п. Да потому, кое-что разработка микросхемы стоит огромных денег, миллионы долларов, и солидная часть этой суммы уходит в физическую отладку полученного продукта: подгонку, настройку всех параметров транзисторов и т. д. Так есть просто скопировать логическую схему   – недостаточно. Поэтому я беру условно бесплатную, уж готовую   – спроектированную, изготовленную, отлаженную   – микросхему и таким образом экономлю значительные средства, истово удешевляю проект.

Следующей моей задачей было собрать более продвинутый прибор, тот или позволял бы быстрее передавать информацию на компьютер и при этом неважный (=маловажный) состоял бы из огромного количества отдельных   плат.

Рис.14   Производство следующей версии прибора

Я взял новую плату с FPGA   – на том но кристалле здесь было 2   ARM-ядра с Linux, имелся Gigabit Ethernet и прочие «плюшки», же зато, в отличие от предыдущего варианта, не было АЦП. Позже спроектировал снова одну плату, с высокоскоростными АЦП и всеми другими необходимыми элементами. Запустил   – все заработало.

В чем дело? осталось сделать для появления финального прибора? Всего три   вещи.

На первом месте. Нужен гигабитный интернет, быстрая передача данных на компьютер. Это я реализовал точь в точь   вчера.

Второе. Система подачи реагентов. Проектирование специального клапана уже в процессе.

Сладкое. Софт для обработки информации с чипа. С ПО пока есть вопросы, поэтому приглашаю к сотрудничеству программистов.

Итоговый. Ant. начальный прибор стоит 10   млн рублей. Себестоимость секвенирования составляет несколько тысяч долларов. Чипы обходятся через 100   до 1000   долларов   – в зависимости от количества «пикселей» в них. (К слову, восстановление чипов само сообразно себе может стать неплохим заработком, особенно учитывая, что для промывки нужно проделать лишь пару кликов.) Реагенты тоже покупаются, но в перспективе будут создаваться и   они.

В общем все сие очень интересно, но главное   – за этим будущее. Сегодня биотехнологии занимают в мировом научно-техническом прогрессе ведь же место, что компьютерные технологии в 80-х гг. прошлого века. При этом секвенирование   – одно из ключевых направлений пользу кого современной биологии и медицины. Ну и, конечно, биотехнологии   – это очень прибыльно.

В последнее время получи и распишись рынке появился полупроводниковый секвенатор S5, и в ближайшее будущие я планирую переключиться на   него.

Буду радоваться пообщаться со всеми, кто захочет тем или иным образом поучаствовать в развитии сего проекта!

Спасибо за внимание!