Открытие больших генетических наборов данных: Исследователи применяют инструменты машинного обучения, чтобы вывести соединение родословной людей

В изучении, которое будет издано по собственной природе, Генетика, исследователи в Принстонских университетах и Колумбии обрисовывают новый метод машинного обучения для просмотра больших генетических комплектов данных, дабы вывести наследственную косметику человека, которая есть главной для идентификации несущих заболевание генетических мутаций.На моделируемых комплектах данных 10 000 человек TeraStructure имел возможность оценить структуру населения более совершенно верно и два раза с таковой скоростью, как текущие современные методы, сообщило изучение. Один лишь TeraStructure был способен к анализу 1 миллиона человек, порядков величины вне современных возможностей ПО, сообщили исследователи.

Метод имел возможность возможно характеризовать структуру народонаселения мирового масштаба.«Мы радостны измерить кое-какие отечественные недавние инструменты машинного обучения к настоящим проблемам в генетике», сообщил Дэвид Блеи, статистики и преподаватель информатики в члене и Колумбийском университете Научного Университета Данных.Цена генетического упорядочивания упала быстро начиная с первого полного отображения генома человека в 2003.

Больше чем миллион человек сейчас упорядочил геномы, и к 2025 что число имело возможность увеличиться до 2 миллиардов.Разработка, дабы поместить эти сведенья в контекст, но, отстала и остается одним из барьеров для покроя здравоохранения к ДНК человека. Дабы выяснить вызывающие заболевание варианты в геноме, одной из целей персонализированной медицины, исследователи должны знать, что что-то о его либо ее родословной руководит для обычной наследственной изменчивости в поднаселении.«Мы можем руководить программным обеспечением на нескольких тысячах людей, но в случае если мы увеличиваем отечественный количество выборки до нескольких сотен тысяч, смогут потребоваться месяцы, дабы вывести структуру населения», сообщил Кай Ван, директор клинической информатики в Университете Колумбии Геномной Медицины, что не был вовлечен в изучение. «Данный новый инструмент обращается к этим ограничениям и будет крайне полезен для анализа геномов большой части населения».

Метод исследователей, названный TeraStructure, основывается на обширно применяемом и адаптированном методе СТРУКТУРЫ, сперва обрисованном в издании Genetics в 2000. Циклы метода СТРУКТУРЫ через целый комплект данных, геном геномом, один миллион вариантов за один раз, прежде, чем обновить его модель, дабы и характеризовать наследственное население и оценить их пропорцию в каждом человеке. Модель усовершенствована, по окончании того, как повторено проходит через комплект данных.

TeraStructure, в отличие от этого, обновляет модель, в то время, когда это идет. Это пробует один генетический вариант в одном расположении и сравнивает его со всеми вариантами в комплекте данных в том же самом расположении через комплект данных, создавая рабочую оценку структуры населения. «Вы не должны кропотливо проходить все пункты любой раз, дабы обновить Вашу модель», сообщил Блеи.СТРУКТУРА математически подобна моделирующему тему методу, что Blei создал независимо в 2003, что разрешил просмотреть громадные количества документов для безграничных тем. Метод Блеи и его главная модель LDA употреблялись, среди другого, дабы проанализировать изданное изучение в издании Science, чтобы выяснить эволюцию научных идей и разглядеть регулирующие расшифровки стенограммы встречи для понимания, как американская Федеральная резервная совокупность устанавливает ставки.

Позднее, Blei экспериментировал со статистическими способами, дабы увеличить вероятностные модели на большие комплекты данных. Одна техника, стохастическая оптимизация, развитая в 1951 статистиком Гербертом Роббинсом прежде, чем прибыть в Колумбию, применяет мелкое, случайное подмножество наблюдений, дабы вычислить неотёсанное обновление для параметров модели.Непрерывно совершенствуя модель с каждым новым наблюдением, стохастические методы оптимизации были очень успешны в увеличении подходов машинного обучения, применяемых в глубоком изучении, совокупностях советы и социальном сетевом анализе.В статье 2010 года Дистанционное обучение для LDA, Blei и его сотрудников применило стохастическую оптимизацию к более ранней модели LDA Блеи.

В более поздней газете, Стохастическом Вариационном Выводе, они продемонстрировали, что стохастическая оптимизация могла быть применена к диапазону моделей. Как Мэтью Хоффман, соавтор обеих бумаг, сейчас что растолковывает научный сотрудник из Adobe Research, «Стохастические методы оптимизации довольно часто вычисляют пользу ответами, перед тем как они кроме того проанализировали целый комплект данных».В изучении Генетики Природы они используют эти идеи способу СТРУКТУРЫ. В их анализе двух настоящих комплектов данных – 940 отдельных геномов из Проекта Разнообразия Генома человека Стэнфорда и 1 718 геномов из этих 1 000 Проектов Геномов – они нашли, что TeraStructure выступил относительно к более свежей ПРИМЕСИ и fastSTRUCTURE методам.

Но в то время, когда они руководили TeraStructure на моделируемом комплекте данных 10 000 геномов, это было более правильным и в несколько раз стремительнее при оценке структуры населения, сообщило изучение. Исследователи кроме этого продемонстрировали, что один лишь TeraStructure имел возможность проанализировать комплекты данных, столь же громадные как 100 000 геномов и 1 миллион геномов.Мэтью Стивенс, исследователь генетики в Чикагском университете, что помог создать метод СТРУКТУРЫ, названный впечатляющей работой TeraStructure. «Я пологаю, что эти результаты мотивируют будущие применения этого вида метода в непростых проблемах выводов», сообщил он

Изучение кроме этого взяло похвалу от вторых исследователей, трудящихся с громадными генетическими комплектами данных. «У нас сейчас имеется разработка, дабы создать эти», сообщил Итсик Пе’ер, вычислительный генетик в Разработке Колумбии, что не был вовлечен в изучение. «Но эта статья вправду разрешает нам применять его».