Метод секвенування "постріл рушницею"

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Метод секвенування геному, який має найменування "постріл рушницею" — це метод, який використовується для секвенування випадкових ланцюгів ДНК . Це названо за аналогією з купчастістю пострілів рушниці .

Оскільки метод обриву ланцюга при секвенуванні ДНК (та зване «Секвенування по Сенгеру») можна використовувати лише для коротких ланцюгів ДНК від 100 до 1000 пар основ, то через це обмеження при роботі з довшими ланцюжками ДНК, довші послідовності поділяються на менші фрагменти, які можна секвенувати окремо, і потім ці послідовності збираються в єдине ціле, щоб отримати загальну послідовність.

Водночас, під час секвенування геному "пострілом рушницею"[1] [2] ланцюжки ДНК випадковим чином розбивається на численні невеликі сегменти, які секвенуються за допомогою методу обриву ланцюга (так званим «Секвенуванням по Сенгеру») для отримання даних які можна зчитати та в подальшому їх проаналізувати і "склеїти". Багаторазове зчитування которких ланцюжків ДНК дозволяє встановити ті частини, які "перекриваються" та є ідентичними для декількох різних ланцюжків ДНК розбитих випадковим чином, Знаходження таких частин, що перекривається досягається шляхом виконання кількох циклів фрагментації та секвенування. Потім комп’ютерні програми використовують кінці різних перехресних зчитаних ланцюжків для відновлення всієї послідовності. [1]

Метод секвенування геному "постріл рушницею" є однією з застарілих технологій, якою користувалися для повного секвенування геному. Наразі є більш новіші та сучасніші методи повного секвенування геному, вартість операції при застосуванні яких значно менша ніж вартість секвенування геному "пострілом рушниці".

Приклад

Наприклад, розглянемо наступні два етапи читання геному добутих "пострілем рушницею":

Визначення Послідовність
Оригінал AGCATGCTGCAGTCATGCTTAGGCTA
Перша серія "пострілу рушницею" AGCATGCTGCAGTCATGCT-------
-------------------------------TAGGCTA
Друга послідовність "пострілу рушницею" AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Реконструкція AGCATGCTGCAGTCATGCTTAGGCTA

У цьому надзвичайно спрощеному прикладі жодне зі зчитувань окремої короткої послідовності не покриває повну довжину вихідної послідовності, але чотири зчитування можуть бути зібрані в оригінальну послідовність, використовуючи той факт, що кожне зчитування має якусь послідовність, що повторюється в усіх зчитуваннях та перекривається в їхніх кінцях. Насправді, цей процес використовує величезні обсяги інформації, яка рясніє двозначностями та помилками послідовності. Збірка складних геномів додатково ускладняється великою кількістю повторюваних послідовностей, тобто подібні короткі зчитування можуть надходити з абсолютно різних частин послідовності. Це є невирішеним та неусувним наслідком випадкового розбивання первинної послідовності на випадкові ланцюжки.

Для подолання цих труднощів і точного відтворення послідовності необхідно багато зчитувань, щоб було багато перекритів для кожного сегмента вихідної ДНК. Наприклад, щоб завершити проект геному людини, більшу частину геному людини секвенували з 12-кратним або більшим охопленням ; тобто кожна основа в кінцевій послідовності була присутня в середньому в 12 різних читаннях. Незважаючи на це, сучасні методи не змогли виділити або зібрати надійну послідовність для приблизно 1% геному людини станом на 2004 рік. [3]

Повне секвенування генома "пострілом рушниці"

історія

Повне секвенування генома для малих (4000-7000 пар основ) геномів було вперше запропоновано в 1979 році. [1] Першим геномом, секвенованим за допомогою "пострілу рушниці", був геном вірусу мозаїки цвітної капусти, та був опублікований у 1981 році. [4] [5]

Секвенування парних кінців

Більш широкому застосуванню сприяло парне секвенування кінців, відоме в розмовній мові як секвенування "двоствольної рушниці ". Коли проекти секвенування почали охоплювати довші та складніші послідовності ДНК, багато груп почали усвідомлювати, що можна шляхом секвенування обох кінців фрагмента ДНК, а не лише одного кінця фрагменту, отримати повний ланцюжок швидше. Хоча секвенування обох кінців одного фрагмента та відстеження парних даних було більш громіздким, ніж секвенування одного кінця двох різних фрагментів, знання того, що дві послідовності були орієнтовані в протилежних напрямках і були приблизно довжиною фрагмента, було цінним у реконструкції послідовності оригінального цільового фрагмента.

Першим опублікованим описом використання парних кінців як частина секвенування локусу HGPRT людини був оприлюднений у 1990 році [6]. Перший теоретичний опис стратегії чистого попарного кінцевого секвенування був описаний у 1991 році. [7] У 1995 році Roach та ін. [8] представили інноваційний підхід у використанні фрагментів різного розміру та продемонстрували, що чиста стратегія попарного кінцевого секвенування можлива для великих цілей. Згодом, ця стратегія була прийнята Інститутом геномних досліджень (TIGR) для секвенування геному бактерії Haemophilus influenzae у 1995 році [9], а потім Celera Genomics для секвенування генома Drosophila melanogaster (плодової мушки) у 2000 році [10], а згодом і геному людини.

Підхід до поділу великого геному

Щоб застосувати стратегію секвенування геному "двоствольної рушниці ", ланцюг ДНК з високою молекулярною вагою розрізають на випадкові фрагменти, вибирають розмір (зазвичай 2, 10, 50 і 150 кб) і клонують у відповідний вектор . Потім клони секвенують з обох кінців за допомогою методу обриву ланцюга, що дає дві короткі послідовності.

Кожна послідовність називається кінечним зчитуванням або зчитуванням 1 і зчитуванням 2, а два зчитування з одного клону називаються парами . Оскільки метод завершення ланцюга зазвичай може створювати лише зчитування довжиною від 500 до 1000 баз, у всіх, крім найменших клонів, пари партнерів рідко перекриватимуться.

Збірка геному

Оригінальна послідовність реконструюється зі зчитувань за допомогою програмного забезпечення для складання послідовності . По-перше, зчитування, що перекриваються, збираються в довші складені послідовності, відомі як контиги . Контиги можна з'єднати разом у каркаси, дотримуючись з'єднань між парами . Відстань між контигами можна вивести з позицій пари, якщо відома середня довжина фрагмента бібліотеки та має місце невеликих відхилення. Залежно від розміру розриву між контигами можна використовувати різні методи для пошуку послідовності в проміжках. Якщо проміжок невеликий (5-20 кб), то для ампліфікації ділянки потрібне використання полімеразної ланцюгової реакції (ПЛР) з подальшим секвенуванням. Якщо розрив великий (>20 кб), то великий фрагмент клонують у спеціальні вектори, такі як бактеріальні штучні хромосоми (BAC), з подальшим секвенуванням вектора.

Плюси і мінуси

Прихильники підходу стверджують, що можна секвенувати весь геном відразу за допомогою великих масивів секвенаторів, що робить весь процес набагато ефективнішим, ніж більш традиційні підходи. Критики стверджують, що, хоча ця техніка швидко секвенує великі ділянки ДНК, її здатність правильно зв’язувати ці ділянки є підозрілою, особливо для еукаріотичних геномів з повторюваними областями. У міру того, як програми послідовного збирання стають складнішими, а обчислювальна потужність стає дешевшою, це обмеження може бути можливим подолати.Шаблон:Джерело[ <span title="This claim needs references to reliable sources. (October 2019)">потрібна цитата</span> ]

Покриття (глибина зчитування)

Покриття (глибина зчитування або глибина) — це середня кількість зчитувань, що представляють даний нуклеотид у реконструйованій послідовності. Її можна обчислити за довжиною вихідного геному ( G ), кількістю зчитувань ( N ) і середньою довжиною зчитування ( L ) як N×L/G . Наприклад, гіпотетичний геном із 2000 парами основ, реконструйованим із 8 читань із середньою довжиною 500 нуклеотидів, матиме надлишковість у 2 рази.

Цей параметр також дає змогу оцінити інші величини, такі як відсоток геному, охопленого зчитуванням (іноді його також називають охопленням). .

Іноді розрізняють покриття послідовності та фізичне покриття .

Покриття послідовності – це середня кількість разів зчитування бази (як описано вище).

Фізичне покриття – це середня кількість зчитувань бази або її охоплення зчитуваннями пари пар. [11]

Ієрархічна послідовність дробовика

При секвенуванні цілого генома (вгорі) весь геном випадковим чином розрізається на невеликі фрагменти (відповідного розміру для секвенування), а потім знову збирається. У ієрархічному секвенуванні (внизу) геном спочатку розбивається на більші сегменти. Після визначення порядку цих сегментів вони далі розрізаються на фрагменти відповідного розміру для секвенування.

Незважаючи на те, що теоретично секвенування геному "пострілом рушниці" можна застосувати до геному будь-якого розміру, його безпосереднє застосування до секвенування великих геномів (наприклад, геному людини ) було обмежене до кінця 1990-х років, коли технологічний прогрес зробив практичним оброблення величезної кількості складних даних, залучених до процесу. [12]

Історично вважалося, що повногеномне секвенування обмежується як розміром великих геномів, так і складністю, доданою високим відсотком повторюваної ДНК (більше 50% для геному людини), присутньої у великих геномах. [13] Тобто, що великий геном має велику кількість повторів. в своєму оригінальному складі.

Не набуло широкого визнання ідея, що повногеномна послідовність великого геному дасть надійні дані. З цих причин інші стратегії, які знижують обчислювальне навантаження на збірку послідовності, повинні бути використані до того, як буде виконано секвенування "пострілом рушниці", а не після цього. [13]

При ієрархічному секвенуванні, також відомому як секвенування зверху вниз, до фактичного секвенування створюється фізична карта геному з низькою роздільною здатністю. З цієї карти для секвенування відбирають мінімальну кількість фрагментів, які покривають всю хромосому. Таким чином, потрібна мінімальна кількість високопродуктивного секвенування та складання.

Ампліфікований геном спочатку розрізається на більші шматки (50-200 кб) і клонується в бактерію- хазяїна за допомогою BAC або P1-похідних штучних хромосом (PAC). Оскільки численні копії геному були розділені випадковим чином, фрагменти, що містяться в цих клонах, мають різні кінці, і при достатньому охопленні (див. розділ вище) теоретично можливо знайти найменшу можливу структуру контигів BAC, яка охоплює весь геном. Цей каркас називається мінімальним контуром мозаїки .

Контиг BAC, який охоплює всю цікаву область генома, утворює шлях мозаїки.

Після того, як більші фрагменти знайдено, BAC, які утворюють цей шлях, випадково розбиваються на менші фрагменти та можуть бути секвеновані за допомогою методу "пострілу рушниці" в меншому масштабі. [14]


Оскільки для цього спочатку потрібно створити карту геному з низькою роздільною здатністю, ієрархічне секвенування "пострілом рушниці" є повільнішим, ніж секвенування "пострілом рушниці" всього генома, але меншою мірою покладається на комп’ютерні алгоритми, ніж секвенування "пострілом рушниці" всього генома. Проте процес створення великої бібліотеки BAC і вибору шляху з'єднання фрагментів робить ієрархічну послідовність стрільби повільною та трудомісткою. Тепер, коли технологія доступна і надійність даних продемонстрована [13], швидкість і економічна ефективність повного геномного секвенування зробили його основним методом секвенування геному.

Новіші технології секвенування

Класичне секвенування "пострілом рушниці" базувалося на методі секвенування Сангера: це була найдосконаліша техніка секвенування геномів приблизно з 1995–2005 років. Стратегія "пострілу рушниці"все ще застосовується сьогодні, але з використанням інших технологій секвенування, таких як послідовність короткого зчитування та послідовність довгого зчитування .

Коротке зчитування або секвенування «наступного покоління» забезпечує коротші зчитування (від 25 до 500 bp), але багато сотень тисяч або мільйонів зчитувань за відносно короткий час. [15] Це призводить до високого охоплення зчитувань, але процес збирання є набагато важчий для обчисленнь. Ця технологія значно перевершує секвенування Сенгера завдяки великому об’єму даних і відносно короткому часу, необхідному для секвенування цілого геному. [16]

Метагеномне секвенування "пострілом рушниці"

Зчитування довжини 400-500 пар основ достатньо для визначення виду або штаму організму, з якого походить ДНК, за умови, що його геном уже відомий, за допомогою, наприклад, програмного забезпечення таксономічного класифікатора на основі <i id="mw-Q">k</i> -mer .

Дивіться також

  • Клінічне метагеномне секвенування
  • Теорія секвенування ДНК

Список літератури

Шаблон:Reflist

Подальше читання