Вычислительные методы относились к большим наборам данных, заставляют инструменты для исторической лингвистики

20010,0,3500,

В то время как большие цифровые коллекции языковых данных становятся более богатыми, только крошечная часть этих больше чем 7 000 языков, на которых говорят сегодня, была полностью проанализирована. Это не удивительно, учитывая, что классические сравнительные исследования в лингвистике все еще основаны на ручной работе лингвистических экспертов. «С быстро растущими объемами данных традиционные методы просто достигают своих практических пределов», говорится в Списке Йохана-Мэттиса. Тем не менее, потребность в историческом языковом сравнении все еще жизненно важна: «В значительных частях мира, как в Новой Гвинее или Южной Америке, и языки и история народонаселения, говорящего их все еще, остаются грубо understudied», говорится в Списке.Большие вопросы, выращивая данные – и огромные проблемы для вычислительного анализа

Используя вычислительные подходы, чтобы проанализировать большие суммы лингвистических данных, чтобы найти, ответы на большие вопросы истории человечества и культурной эволюции обращаются – и хитрые. В отличие от тщательных лингвистических исследований, выполненных обученными, опытными учеными, с детальным знанием определенных языков, компьютерные алгоритмы слепые к определенным для языка особенностям и должны вывести параметры из данных, которые питаются их. Этот недостаток рискует получать ложные результаты.

«Вычислительные методы часто критикуются за то, что они были ‘черным ящиком’», говорит Саймон Гринхилл, второй автор исследования. «Вы можете получить красивый результат, но Вы не можете действительно оценить его качество и надежность. То, что мы действительно хотим знать, – связаны ли языки и какие части доказательств на самом деле поддерживают этот вывод».

В их исследовании группа, направленная Расселом Грэем, проверила выполнение различных автоматизированных подходов, варьирующихся по изощренности и сложности. Результаты были удивительно хороши. «Наши результаты были довольно точны в большинстве случаев», говорится в Списке.

В то время как некоторые алгоритмы работают действительно хорошо при определенных условиях, они могут привести к неутешительным результатам при других обстоятельствах. Лучшим из проверенных методов был новый подход, который команда развивала определенно для их исследования. Это обнаружило родственников правильно и в согласии с экспертными оценками в 89,5% всех случаев. «Вопреки страху перед многими экспертами, что автоматические методы производят огромные количества ложных положительных сторон, мы на самом деле нашли инверсию: Если в алгоритме говорится, что два слова связаны, это обычно правильно», говорит Гринхилл.

Будущее должно объединить алгоритмы и экспертные знанияЭто означает, что машины скоро заменят экспертов в поиске этимологически связанных слов через языки мира?

Группа Макса Планка не предполагает, что это будет успешной стратегией. Вместо исключительно компьютерных подходов они одобряют машинные стратегии, в которых алгоритмические методологии используются, чтобы выполнить предварительный анализ – большую часть черновой работы – который может тогда быть исправлен экспертом.

Рассел Грэй, директор по исследованию, считает это, чтобы быть только началом. «Мы все еще не исчерпали полный потенциал вычислительных методов в исторической лингвистике, и почти бесспорно, что будущие алгоритмы принесут нам еще ближе к суждениям эксперта», говорит он. Но компьютеры никогда не будут в состоянии заменить обученных лингвистических экспертов.

Грэй говорит: «Вычислительные методы могут заботиться о повторяющемся и большем количестве схематической работы. Таким образом они позволят экспертам концентрироваться на ответе на интересные вопросы."

11 комментариев к “Вычислительные методы относились к большим наборам данных, заставляют инструменты для исторической лингвистики”

Оставьте комментарий