Секвенирование ДНК в домашних условиях: как на коленке собрать прибор за 10 миллионов
Всeм привeт, мeня зoвут Aлeксaндр Сoкoлoв, и я xoчу рaсскaзaть, кaк сдeлaл дoмa сeквeнaтoр – прибoр про рaсшифрoвки ДНК. Рынoчнaя цeнa тaкoгo прибoрa сoстaвляeт oкoлo 10 миллиoнoв рублeй.
Крaткий отклонение в гeнeтику. Eсли вдруг вы пoмнитe, в 2003 г. былo сдeлaнo сeнсaциoннoe зaявлeниe: учeныe, нaкoнeц, рaсшифрoвaли гeнoм чeлoвeкa. Гeнoм пoстрoeн из ДНК, a ДНК – этo исxoдный кoд oргaнизмa. ДНК прeдстaвляeт сoбoй двoйную цeпoчку, сoстoящую из 4-x видoв нуклeoтидoв, кoтoрыe пoвтoряются в гeнoмe чeлoвeкa пoрядкa 3 млрд. рaз. Тaк жe, кaк в битax зaшифрoвaнa вся инфoрмaция нa вaшeм кoмпьютeрe, в нуклeoтидax зaшифрoвaнa инструкция o сбoркe всex бeлкoв чeлoвeчeскoгo тела. Так есть зная, в какой последовательности расположены нуклеотиды в ДНК, мы теоретически можем собрать все необходимые белки и настричь модель человека. Так вот в стандартном понимании ученые не расшифровали ДНК, а легко перевели химическую последовательность в набор нулей и единиц на компьютере. Что выделывать с этим дальше – отдельный разговор. Например, на данный момент нам ясна обязанности лишь 5% всего массива генома (это кодирование белков). Чем занимаются другие 95%, можно только предполагать.
В 2003 году стоимость секвенирования ДНК человека составляла близко 100 млн долларов. С течением времени эта цифра уменьшалась и сейчас симпатия приближается к тысяче долларов. Вы платите, вашу ДНК секвенируют и отдают вам упрямый диск с 3 ГБ информации – вашим геномом в цифровом виде.
Сегодня на рынке представлено три основных секвенатора. Самый продуктивный. Ant. неэффективный, Hiseq, и его приемник NovaSeq, обеспечивает самое дешевое (флуоресцентное) секвенирование. Вотан его запуск длится несколько дней, и за это время обрабатываются геномы сразу нескольких лицо. Однако сам запуск стоит около десятка тысяч долларов. К слову, и самостоятельно прибор стоит порядка $1 млн, а, поскольку устаревает он примерно ради 3 года, для того, чтобы он окупился, он должен приносить вам $1000 в гемера.
Второй прибор появился на рынке буквально прошлым летом. Он называется Nanopore и базируется в очень интересной технологии, когда ДНК секвенируется путем пропускания через нанопору. Самый умеренный вариант Nanopore позиционируется как одноразовый домашний секвенатор и стоит $1000.
Третий прибор – PGM, полупроводниковый секвенатор, кто стоит $50 000 у себя на родине и около 10 млн рублей (с доставкой, растаможиванием и т. д.) в России. Ход секвенирования на нем занимает порядка нескольких часов.
Что ж, десяти миллионов у меня отнюдь не было, а PGM захотелось. Пришлось сделать самому. Сначала вкратце о том, как происходит полупроводниковое секвенирование. Вся цепочка ДНК делится сверху фрагменты длиной по 300–400 нуклеотидов, называемые ридами. Затем риды прикрепляются к маленьким сферам и неоднократно копируются – в итоге на каждой сфере «висит» целый пучок одинаковых фрагментов ДНК. Копировка нужно для усиления сигнала от каждого конкретного рида. Набор разных сфер называется библиотекой ДНК.
Сердцем PGM является разовый чип – матрица, похожая на матрицу в фотокамере, только вместо пикселей, реагирующих получай свет, здесь pH-транзисторы, реагирующие на изменение кислотно-щелочного баланса. Полученная библиотечка ДНК загружается на чип, содержащий 10 млн лунок, на дне каждой из них находится pH-филдистор. В лунку умещается только одна сфера и, следовательно, риды только одного подобно (с одной определенной последовательностью нуклеотидов). Далее на чип подаются реагенты таким образом, затем чтобы ДНК начала себя копировать. А копируется она линейно, то есть нуклеотиды прикрепляются к вновь создаваемой цепочке в волюм порядке, в котором они стоят в материнской цепочке. Поэтому на чип подается Вотан тип нуклеотидов – и тут же фиксируется изменение pH в некоторых лунках (это следственно, что в них произошло присоединение данного нуклеотида). Далее подается другой типик нуклеотидов и фиксируется изменение pH в лунках и т. д. Таким образом, подавая на чип все 4 как нуклеотидов много раз, мы можем получить информацию о последовательности нуклеотидов в каждом риде. Потому математическими способами прочитанные короткие отрезки собираются на компьютере в единую цепочку. Для того чтоб собрать ее более-менее уверенно, каждый рид нужно прочесть примерно объединение 100 раз.
Рис.1. Полупроводниковое секвенирование
Теперь разберемся, из почему состоит сам прибор. Имеется, как мы уже знаем, чип, а да система подачи реагентов и материнская плата. Все секвенирование ведется именно держи чипе – остальной аппарат только передает на него определенные сигналы, подает реагенты, считывает с него аналоговые сигналы, оцифровывает их и гонит высуженный поток информации на компьютер, где данные накапливаются и обрабатываются.
Рис. 2. Компонент секвенатора
Чип позиционируется как одноразовый и после использования выкидывается. Соответственно, а там, где работает PGM, такие чипы можно достать бесплатно в любом количестве. К чему их доставать, спросите вы? Дело в том, что чип мне сейчас удалось использовать многократно. По сути он вечен: достаточно хорошо промывать его – и хоть применять вновь и вновь. По точности работы он ничем не хорэ отличаться от нового. Сама моя идея заключалась в том, чтобы предпринять прибор под этот условно бесплатный чип.
Итак, передо мной встала поручение реверс-инжиниринга чипа. Разумеется, никакой документации на заветную микросхему встретить было нельзя – производитель не собирался делиться секретами производства, а хотел спокойно продавать приманка приборы за $50 000. Для начала я сделал самое очевидное и простое: прозвонил контакты тестером. Стало точно, где расположены цифровые и аналоговые входы-выходы, питание и прочее. Кое-какую информацию посчастливилось почерпнуть из патентов на чип. Но всего этого, понятно, было ущербно для создания полноценного продукта. Я еще повозился с чипом, проверял разные близкие догадки, поэкспериментировал с подачей сигналов, но никуда принципиально не продвинулся. Пришлось поставить чертеж на паузу.
Рис. 3. Прозвонка чипа
А затем внезапно на Habrahabr ми попалась статья известного блоггера MonsterBars о том, как он делает реверсирование-инжиниринг чипов! Воодушевился, написал ему, написал другим энтузиастам, отправил интерпелляция в Киев, где занимались фотографированием чипов. Из Киева ответили, что лощить по слоям они не умеют, могут только отснять верхний тр, а так как мой чип – многослойный, будет не понятно, куда идут дорожки ото контактов. Потом познакомился с одним американцем, который тоже занимается реверс-инжинирингом чипов, послал ему приманка микросхемы, но и тут дальше фотографирования верхнего слоя дело не пошло. А там наткнулся в интернете на статью про тех, кто смог отреверсить микросхема Sony PlayStation и пр. («Слава героям!» и вот это все, если кто такой в курсе). Решил написать им с вопросами, нашел их ники – и тут а понял, что один из них мне знаком. Недавно товарищ свел меня со своим другом, тот или другой «тоже занимается генетикой на любительском уровне», мы пообщались с этим другом в Skype и сверху этом диалог закончили. И вот я понимаю, что мой новый приятель – мегакрутой специалист реверс-инжиниринга чипов. Тут же написал ему. Однако выяснилось, точно, хоть помочь он и готов, у него нет микроскопа. Снова тупик.
А спустя несколько месяцев нужный микроскоп нашелся в соседней лаборатории! Правда, встроенная в него суд была ужасной, я фотографировал на мобильный телефон через окуляр и получал снимки вот такого качества:
Падди. 4. Чип под микроскопом
Затем на последний Новый год атомный микроскоп за 130 тыс. появился у меня на работе (я – специалист по мнению квантовой криптографии). Мечты сбываются. Наконец, я смог нормально сфотографировать чип свыше.
Рис. 5. Мой рабочий микроскоп
А потом… Потом мне все-таки пришлось самому одолеть технику его полировки. Трудность полировки заключается в том, чтобы снимать пласты металла толщиной порядка 1 микрона – при этом ширина чипа составляет 1 кубик. Для сравнения скажу, что это примерно то же, что разрешить на 1 км погрешность не более 10 см. Я очень старался. Результаты моих трудов представлены получи следующем фото:
Рис. 6. Реверс-инжиниринг под оптическим микроскопом
Полно(те) хорошо видны нижний кремниевый слой, верхний слой с транзисторами, первый, второй, незаинтересованный и четвертый слои металла.
Чип состоит из повторяющихся зон (типа сдвиговых регистров), и по части таким картинкам было очень удобно его анализировать: сразу становилось отчетливо, что происходит на разных слоях. Я «отреверсил» самые «нафаршированные» участки с обилием логики, которые во сто крат повторялись. Но самым сложным оказалось отследить трассы, идущие по всему чипу, ухватиться, какой внешний контакт к чему относится. С новогодних праздников до конца февраля, я, вооружившись новым прекрасным микроскопом, корпел надо этой задачей – сидел на работе до десяти ночи, «реверсил», думал. И шелковичное) дерево произошло новое чудо: товарищ смог организовать бесплатную фотосъемку чипа соответственно слоям на электронном микроскопе в МИРЭА. «Фотосессия» крохи в 1 кв. см представляла собой 50 ГБ черновато-белых фотографий.
Теперь все эти отдельные фотографии нужно было каким-в таком случае образом объединить в одну целую картинку. Чуть ли не в тот а день я написал на «питоне» программу, которая генерировала HTML-файл – при его открытии в браузере я получал требуемое. (С руки, самая старая 10-я Opera справилась с этим лучше всего, рекомендую!) Далее на javascript написал еще одну программу, позволяющую сравнивать слои, как по писаному переходить между ними, выравнивать их, подбирать масштаб и т. д. Наконец, в моих руках были все инструменты исполнение) решения главных задач. Я отследил трассы, пронизывающие чип, и восстановил всю его структуру давно последнего транзистора.
Еще одна фотография среза чипа, сделанная под рентгеном (в МИРЭА):
Падди. 7. Съемка под электронным микроскопом
Хорошо видны лунки, куда попадают сферы с ридами. Далее располагаются три слоя металла, а еще ниже – слой с транзисторами.
Следующим по этапу борьбы за светлое будущее стало создание под чип материнской платы. Спроектировал ее и отправил запрет на производство. А пока суд да дело использовал для работы с чипом плату «Марсоход-2» с FPGA. (FPGA – сие, грубо говоря, массив из 10 000 универсальных логических элементов; программируя FPGA, наша сестра можем получать любую логическую схему, легко обрабатывающую гигабитные потоки информации.) Прошивку с целью FPGA я написал сам, а кроме того, для динамического управления системой написал софт, кто задает всю конфигурацию для FPGA. Потом вновь образовался полугодовой ушла на базу (я разводился, ездил в командировку на Байкал, готовил в лаборатории установку, которую демонстрировали Путину). Только в конце концов звезды сошлись: у меня появилось время, приехали готовые платы – и я собрал свою систему.
Шала. 8. Создание «железа»
Подал все необходимые сигналы и – о, чудо! – увидел получи и распишись осциллографе сигнал с чипа. (Осциллограф я купил когда-то за 6 000 рублей держи eBay, еще 1 000 стоила прошивка к нему.) На картинке хорошо видны пятна – капельки какого-так реагента.
Рис. 9. Сигнал с чипа на осциллографе
Теперь мне нужно было придумать, как бы оцифровать эту картинку и передать ее на компьютер. Я собрал вот такую установку:
Жемчужное) зерно.10. Схема прибора
Рис. 11. Готовая установка
Есть компьютер, каковой подает данные управления на плату с FPGA. Плата генерирует цифровые сигналы и отправляет их получай чип. Сигнал с чипа идет на усилитель, далее – на АЦП получи плате, оцифровывается и передается через COM-порт на компьютер. Вообще, пропускная способность COM-порта невелика: 15 килобит в побудь на месте (т. к. в одном чипе находится от 1 млн до 10 млн «пикселей», а максимальная соэ передачи – 115200 бод). Тем не менее картинка на компьютер в итоге попадает.
(белое. 12. Обработанный сигнал на компьютере.
На фото выше видно, что-то, когда на использованный б/у-шный чип подается библиотека ДНК, чип заполняется скачкообразно: по краям – в меньшей степени. Разные цвета обусловлены разным напряжением получи pH-транзисторах. То есть мы можем ясно различить те лунки, камо попали сферы с ридами – впоследствии это поможет нам контролировать промывку чипа.
Соответственно, следующей задачей стала очистка чипа. Нужно было добиться, чтобы он стал, как новый. К счастью, у меня имелся совершенно небывалый чип в качестве референсного образца. На илл. А видно, что в активной области такого рода чип практически одного цвета (вертикальные повторяющиеся полосы – это просто шумы, наводки).
Сарацинское пшено. 13. Промывка чипа
На рис. 13 B неудачно промытый чип – некто разноцветный. На рис.13 D – использованный, но хорошо промытый чип. Видно, как будто градиент по краям исчез. Тем не менее стоило бы снова доказать, что он действительно чистый и может использоваться повторно.
Поскольку библиотеки ДНК прикрепляются к танталовому покрытию чипа в кислой среде и открепляются – в щелочной (так есть при высоком pH), то чип промывается с помощью специальных полуавтоматических пипеток растворами с разными pH. Возьми сегодняшний день мне удалось добиться практически полной очистки чипа.
У меня интересовались, почему, в некоторых случаях я полностью разобрался в структуре чипа, я не стал заказывать его изготовление, а предпочел точно по-прежнему искать и доставать б/у-шные, возиться с их промывкой и т. п. Да потому, кое-что разработка микросхемы стоит огромных денег, миллионы долларов, и солидная часть этой суммы уходит в физическую отладку полученного продукта: подгонку, настройку всех параметров транзисторов и т. д. Так есть просто скопировать логическую схему – недостаточно. Поэтому я беру условно бесплатную, уж готовую – спроектированную, изготовленную, отлаженную – микросхему и таким образом экономлю значительные средства, истово удешевляю проект.
Следующей моей задачей было собрать более продвинутый прибор, тот или позволял бы быстрее передавать информацию на компьютер и при этом неважный (=маловажный) состоял бы из огромного количества отдельных плат.
Рис.14 Производство следующей версии прибора
Я взял новую плату с FPGA – на том но кристалле здесь было 2 ARM-ядра с Linux, имелся Gigabit Ethernet и прочие «плюшки», же зато, в отличие от предыдущего варианта, не было АЦП. Позже спроектировал снова одну плату, с высокоскоростными АЦП и всеми другими необходимыми элементами. Запустил – все заработало.
В чем дело? осталось сделать для появления финального прибора? Всего три вещи.
На первом месте. Нужен гигабитный интернет, быстрая передача данных на компьютер. Это я реализовал точь в точь вчера.
Второе. Система подачи реагентов. Проектирование специального клапана уже в процессе.
Сладкое. Софт для обработки информации с чипа. С ПО пока есть вопросы, поэтому приглашаю к сотрудничеству программистов.
Итоговый. Ant. начальный прибор стоит 10 млн рублей. Себестоимость секвенирования составляет несколько тысяч долларов. Чипы обходятся через 100 до 1000 долларов – в зависимости от количества «пикселей» в них. (К слову, восстановление чипов само сообразно себе может стать неплохим заработком, особенно учитывая, что для промывки нужно проделать лишь пару кликов.) Реагенты тоже покупаются, но в перспективе будут создаваться и они.
В общем все сие очень интересно, но главное – за этим будущее. Сегодня биотехнологии занимают в мировом научно-техническом прогрессе ведь же место, что компьютерные технологии в 80-х гг. прошлого века. При этом секвенирование – одно из ключевых направлений пользу кого современной биологии и медицины. Ну и, конечно, биотехнологии – это очень прибыльно.
В последнее время получи и распишись рынке появился полупроводниковый секвенатор S5, и в ближайшее будущие я планирую переключиться на него.
Буду радоваться пообщаться со всеми, кто захочет тем или иным образом поучаствовать в развитии сего проекта!
Спасибо за внимание!