Метод поиска помогает исследователям найти последовательности ДНК в минутах, а не днях: Метод приручает гигантскую базу данных биоинформатики

Способ, созданный Карлом Кингсфордом, адъюнкт-доктором наук вычислительной биологии, и Брэдом Соломоном, аспирантом в Вычислительном Отделе Биологии, создан для поиска так именуемого «маленький, просматривает» – ДНК и последовательности РНК, произведенные способами упорядочивающего высокой пропускной способности. Это надеется на новую структуру данных индексации, названную Деревьями Цветка Последовательности либо совокупностями онлайн бронирования, что исследователи обрисовывают в отчете, опубликованном онлайн изданием Nature Biotechnology.Национальные Университеты Здоровья поддерживают огромную базу данных, названную Архивом Секнса Рида, что содержит примерно три petabases либо последовательности всего три квадрильона пар оснований.

Информация нужна для широкого последовательности исследователей от тех, каковые задают вопросы об главных биологических процессах тем, каковые изучают потенциальные лечения рака.«База данных содержит невыразимые числа до тех пор пока еще неоткрытого понимания и в громадной степени употребляется», заявил Кингсфорд. «Его главная проблема заключается в том, что весьма тяжело искать».Тысячи твёрдых дисков были бы нужны, дабы сохранить эти последовательности. Поиск маленького просматривает, каковые, в большинстве случаев, являются 50 – 200 парами оснований любой, дабы видеть, каковые могли быть собраны, дабы организовать целевой ген, быть может, 10 000 пар оснований, тяжелы и смогут занять дни в некоторых случаях, отметил он.

Так же, как индекс может ускориться, перерывает книгу либо каталог, ОСНОВАННЫЙ НА СОВОКУПНОСТИ ОНЛАЙН БРОНИРОВАНИЯ индекс, развитый Кингсфордом и Соломон, смогут существенно поиски ускорения данной базы данных биоинформатики. Они в действительности воображают каждого маленького прочтённый как последовательность подпоследовательностей фиксированной длины, применяя структуры данных называющиеся фильтры Цветка, каковые смогут действенно хранить данные в маленьком пространстве и смогут проверить, есть ли элемент частью комплекта.На первом уровне запроса смогут сообщить совокупности онлайн бронирования, содержится ли целевая последовательность ДНК в базе данных по большому счету.

В случае если это, поиск длится к следующему уровню, где совокупности онлайн бронирования показывают, есть ли последовательность в одной половине либо второй базе данных. На каждом уровне отделения запроса так или иначе, пока не выяснены желаемые опыты.Кингсфорд и Соломон проверил их технику, применяя базу данных 2 652 людской крови, мозговых экспериментов и груди, любой из которых довольно часто содержат более чем миллиард пар оснований последовательностей РНК.

Они нашли, что большая часть поисков той базы разрешённых могло быть закончено в среднем через 20 мин.. Они оценили, что сопоставимое время поиска, применяя существующие способы, известные как SRA-ЗВЕЗДА и ВЗРЫВ, займет 2,2 дня и 921 сутки, соответственно.

Предстоящие ускорения вероятны, по причине того, что партии более чем 200 000 вопросов смогут быть выполнены в один момент, отметили они.

KRISTMAS.RU