Защита конфиденциальности в геномных исследованиях: Шифровальная система могла позволить ‘crowdsourced’ геномику с волонтерами, вносящими информацию в защищенные от частной жизни базы данных

Но базы данных геномной информации воображают угрозы личной судьбе. От сырых геномных данных людей возможно вероятно вывести их фамилии и вероятно кроме того формы их лиц. Многие люди отказываются внести собственные геномные данные в биомедицинские научно-исследовательские работы, и организация, принимающая громадное хранилище геномных данных, имела возможность бы совершить многомесячный обзор прежде, чем решить, дать ли запрос исследователя о доступе.В газете, появляющейся сейчас по собственной природе, Биотехнология, исследователи из MIT и Стэнфордского университета воображают новую совокупность для защиты личной судьбе людей, каковые вносят их геномные данные в широкомасштабные биомедицинские изучения.

Где ранее шифровальные способы были так в вычислительном отношении интенсивны, что они стали предельно трудоемкими больше чем для нескольких тысяч геномов, новая совокупность обещает действенное обеспечение секретности для изучений, проводимых по целому миллион геномов.«Как биомедицинские исследователи, мы расстроены отсутствием данных и управляемыми доступом хранилищами», говорит Бонни Бергер, доктор наук Simons Математики в MIT и соответствующем авторе на бумаге. «Мы ожидаем будущее с пейзажем в широком масштабе распределенных геномных данных, где частные лица берут собственность собственных собственных личных геномов, и университеты, и поликлиники строят собственные частные геномные базы данных. Отечественная работа предоставляет дорожную карту для объединения совместно этого огромного количества геномных данных, дабы разрешить научный прогресс».

Первый создатель на бумаге – Хюнгун Чо, аспирант в информатике и электротехнике в MIT; к нему и Бергеру присоединяется Дэвид Ву, аспирант в информатике в Стэнфорде.В ядре совокупности техника, названная разделением тайны, которое дробит тайные эти между многократными серверами.

Дабы сохранить номер x, к примеру, разделяющая тайну совокупность имела возможность бы отправить случайное число r в один сервер и x-r к второму.Никакой сервер независимо не в состоянии вывести x. Коллективно, но, они смогут все еще выполнить нужные операции. Если бы один сервер сохранил связку r’s и добавил их совместно, и второй сложенный вся передача (x-r), то добавление и разделение результатов их совместно привели бы к сумме всего x’s.

Никакой сервер, но, ни при каких обстоятельствах не замечал бы сокровище никакого x.В случае если оба сервера взломаны, само собой разумеется, нападавший имел возможность бы вернуть целый x’s. Но пока один сервер заслуживающий доверия, совокупность надёжна.

Помимо этого, тот принцип делает вывод к многократным серверам. Если бы эти поделены между, скажем, четырьмя серверами, нападавший должен был бы пропитать все четыре; взламывание любых трех не хватает, дабы извлечь каждые эти.

В этом контексте, но, умножение более сложно, чем дополнение. Умножение двух x’s требует поколения трех более случайных чисел – известный как Бивер трижды по окончании шифровальщика Дональда Бивера – в дополнение к r’s.

Те три числа, со своей стороны, должны быть поделены между серверами, применяя тайное разделение. Додавая поделённые с тайной компоненты тех чисел к x’s и r’s, перед тем как умножение дает начало алгебраическому выражению, в котором вся добавленная хаотичность возможно отфильтрована, покинув лишь продукт двух x’s.

Изучения ассоциации всего генома включают большой стол – либо матрица – что причиняет на карту геномы в базе данных против расположений наследственной изменчивости, известной как SNPs для полиморфизмов единственного нуклеотида. SNPs будет, в большинстве случаев, нумеровать примерно миллион, исходя из этого в случае если база разрешённых будет содержать миллион геномов, результатом будет миллион миллионом матриц.Нахождение нужных корреляций заболевания требует отфильтровывания вводящих в заблуждение корреляций, процесса, известного как исправление стратификации населения.

Обитатели Восточной Азии, к примеру, довольно часто являются нетерпимой лактозой, но они кроме этого имеют тенденцию быть меньше, чем Северные европейцы. Наивное расследование генетических коррелятов нетерпимости лактозы имело возможность бы вместо этого закончить тем, что выяснило тех для высоты.Исправление стратификации населения, в большинстве случаев, надеется на метод, названный главным составляющим анализом, что требует повторного умножения, включающего целую матрицу Шотландской национальной партии против генома. В случае если для каждого входа в матрице был нужен ее личный комплект Бобра, утраивается для каждого того умножения, анализирование миллиона геномов было бы предельно трудоемким.

Но Чо, Бергер и Ву нашли метод структурировать ту последовательность умножения так, дабы многие из Бобра утроились, возможно вычислен лишь в один раз и опять использован, решительно уменьшив сложность вычисления.Они кроме этого применяют несколько вторых способов, дабы ускорить их совокупность. Потому, что Бобр утраивается, должен быть разделен тайно, у каждого числа у Бобра трижды имеется связанное случайное число: В сценарии с двумя серверами один сервер взял бы случайное число, и второй возьмёт число Бобров минус случайное число.В Чо, Бергере, и совокупности Ву, имеется сервер, посвященный созданию Бобра, утраивается и разделение их тайно.

Но тогда как это должно передать число Бобров минус связанные случайные числа к соответствующим серверам, это не должно передавать сами случайные числа. Вместо этого это число, которое это применяет, дабы «отобрать» метод, известный как псевдогенератор случайных чисел. Серверы получателя смогут тогда произвести случайные числа самостоятельно, экономя огромную сумму коммуникационной пропускной свойстве.

Наконец, делая все ее умножение, совокупность в действительности не применяет целый миллион миллионом матрицы. Вместо этого это применяет способ приближения, названный случайным проектированием, дабы веять матрицу вниз, сохраняя точность последних результатов вычисления.На базе этих способов Чо, система и Бергер Ву совершенно верно воспроизвели три опубликованных изучения ассоциации всего генома, включающие 23 000 отдельных геномов.

Результаты тех изучений предлагают, дабы совокупность измерила действенно к миллиону геномов.

7 комментариев к “Защита конфиденциальности в геномных исследованиях: Шифровальная система могла позволить ‘crowdsourced’ геномику с волонтерами, вносящими информацию в защищенные от частной жизни базы данных”

Оставьте комментарий