Создание больших немного меньших данных: программист Гарварда демонстрирует 30-летнюю теорему все еще лучше всего, чтобы уменьшить данные и ускорить алгоритмы

В то время, когда мы думаем о цифровой информации, мы довольно часто думаем о размере. Ежедневная электронная новостная рассылка, к примеру, может составить 75 – 100 килобайтов в размере. Но у данных кроме этого имеется размеры, на базе чисел переменных в части данных. Email, к примеру, возможно рассмотрена как высоко-размерный вектор, где имеется одна координата для каждого слова в словаре, и цена в той координате – количество раз, что слово употребляется в электронном письме.

Так, email на 75 КБ, которая есть 1 000 слов продолжительно, приводила бы к вектору в миллионах.Это геометрическое представление о данных полезно в некоторых заявлениях, таково как изучение классификаторов спама, но, чем больше размеров, тем продолжительнее это может забрать для метода, дабы бежать, и больше памяти применение метода.Потому, что обработка данных стала более сложной в 1990-х второй половины, программисты обратились к чистой математике, дабы оказать помощь ускорить алгоритмическую обработку данных. В частности, исследователи нашли, что ответ в теореме доказало в 1980-х математикой Уильяма Б. Джонсона и Йорама Линденштраусса, трудящегося область функционального анализа.

Известный как аннотация Джонсона-Линденстросса (аннотация JL), программисты применяли теорему, дабы уменьшить размерность данных, и помощь ускоряют все типы методов через многие разные области, из поиска и алгоритмов вытекания, к стремительным методам приближения для статистической и линейной алгебры а также методам для вычислительной биологии.Но потому, что эти стали еще больше и более сложными, многие программисты задали вопрос: аннотация JL – вправду лучший подход, дабы предварительно обработать громадные данные в управляемо низкое измерение для алгоритмической обработки?

Сейчас, Джелэни Нельсон, Адъюнкт-доктор наук Джона Л. Леба Технических и прикладных наук в Школе Джона А. Полсона Гарварда Технических и прикладных наук, поместил те дебаты, дабы покоиться. В докладе, сделанном на этой неделе на ежегодном Симпозиуме IEEE по Фондам Информатики в Беркли, Калифорния, соавтора и Нельсона Кэспера Грина Ларсена, Орхусского университета в Дании, отыскала, что аннотация JL вправду – лучший метод уменьшить размерность данных.«Мы доказали, что имеется ‘жёсткие’ комплекты данных, для которого сокращения размерности, вне какой обеспечено аннотацией JL, нереально», сообщил Нельсон.

По существу аннотация JL продемонстрировала, что для любой конечной коллекции пунктов в высоком измерении, имеется коллекция пунктов в намного более низком измерении, которое сохраняет все расстояния между пунктами до маленького количества искажения. Спустя десятилетия по окончании его уникального действия в функциональном анализе, программисты нашли, что аннотация JL может функционировать как ход предварительной обработки, разрешая размерам разрешённых быть существенно уменьшенной перед бегущими методами.Вместо того, дабы проходить каждое измерение – как много размеров в электронном письме – аннотация JL применяет совокупность геометрической классификации, дабы ускорить вещи. В данной геометрии отдельные размеры не имеют значения так же как неспециализированные черты между ними.

Нанося на карту эти неспециализированные черты, геометрия данных и углов между точками данных сохранена, лишь в меньшем количестве размеров.Само собой разумеется, у аннотации JL имеется широкий спектр заявлений, каковые идут на большом растоянии вне спам-фильтров.

Это употребляется в сжатом ощущении для восстановления редких сигналов, применяя мало линейных измерений; объединение в кластеры высоко-размерных данных; и открытие мотива ДНК в вычислительной биологии.«У нас все еще имеется долгий путь, дабы пойти, чтобы выяснить лучшее сокращение измерения, вероятное для определенных комплектов данных в противоположность если сравнивать с нехорошим случаем», сообщил Нельсон. «Я пологаю, что это – весьма увлекательное направление для будущей работы. Имеется кроме этого кое-какие увлекательные нерешенные вопросы, которые связаны с тем, как скоро мы можем выполнить сокращение размерности, в особенности, в то время, когда сталкивающийся с высоко-размерными векторами, каковые редки, т.е. имеют большое количество координат, равных нолю. Данный редкий случай весьма релевантен во многом практическом применении.

К примеру, векторы, являющиеся результатом Email, очень редки, поскольку обычная email не содержит каждое слово в словаре».«Аннотация Джонсона-Линденстросса – фундаментальный итог в высокой размерной геометрии, но раздражающий логарифмический промежуток остался между верхними и более низкими границами для минимального вероятного измерения, требуемого как функция числа очков и разрешённого искажения», сообщил Нога Алон, учитель Математики в Тель-Авивском университете, что доказал прошлое лучшее, ниже направляющееся в проблему. «Недавняя работа Джелэни Нельсона и Кэспера Грина Ларсена уладила проблему.

Это – освежающая демонстрация силы умной комбинации комбинаторного рассуждения с геометрическими инструментами в ответе хорошей неприятности».