Команда лингвистики, использующая Супервычислительный центр Огайо, чтобы перевести менее известные языки

Считается, что во всем мире имеется больше чем 7 000 языков. Для вовлеченных в упрочнения по помощи при бедствиях, разнообразие и широта того числа смогут быть подавляющими, в особенности обращаясь к областям с низкими ресурсами.

Уильям Шулер, врач философии, учитель лингвистики в Университете штата Огайо, есть частью проекта называющиеся Низкие Языки Ресурса для Инцидентов На стадии становления (СИРЕНА), инициатива через Управление перспективного планирования оборонных научно-исследовательских работ (DARPA). Цель программы СИРЕНЫ пребывает в том, дабы создать разработку для языков, о которых лингвисты и переводчики ничего не знают.Как часть СИРЕНЫ, его команда и Шулер применяют Супервычислительный центр Огайо Несколько Оуэнса, дабы создать метод приобретения грамматики, дабы найти правила менее известных языков, изучая грамматики без наблюдения, так, команды помощи при бедствиях смогут реагировать скоро. «Мы должны вынудить ресурсы направлять помощь при бедствиях, и часть этого переводит текст новостей, зная заглавия городов, что происходит в тех областях», сообщил Шулер. «Это выясняет то, что случилось скоро, и это может включить машинально обрабатывающий язык инцидента». Команда Шулера трудится, дабы выстроить модель последовательности Bayseian на базе статистического анализа, дабы найти грамматику данного языка.

Это предполагается, эта модель парсинга возможно научена выучить язык и сделать его синтаксически нужным.«Вычислительные требования для изучения грамматики от статистики огромны, что есть, из-за чего нам нужен суперкомпьютер», сообщил Шулер. «И это, думается, ведет к хорошим итогам, что есть захватывающим».На замечательном единственном сервере команда Шулера может проанализировать 10to15 категории грамматики, по словам Лифэн Цзиня, аспиранта, что следит за вычислительными качествами проекта. Но применение GPUs на Совокупности Оуэнса OSC разрешает Чжин повышать колличество категорий существенно.

GPUs – единицы обработки графики – более сильны и прибыльны, чем центральные процессоры – центральные процессоры. Центральные процессоры – мозги компьютера и состоят всего из нескольких ядер с громадным числом кэш-памяти. GPUs – дополнительная единица обработки к центральным процессорам, складывавшимся из сотен ядер, каковые смогут обращаться с тысячами нитей в один момент.

У GPUs имеется свойство скоро выполнить вычисления, ответственные в моделировании и техническом анализе.«Мы можем расширить сложность модели по экспоненте, так, мы можем применять 45 to50 категорий и взять результаты за еще более маленькое время», сообщил Чжин. «Это – более реалистический сценарий подражания, что делают люди. Модели вправду громадные, так, память очень важна.

«Статистическая модель кроме этого весьма сложна. Дабы научить его, мы должны сделать громадное вычисление. Сообщите, что у нас имеется 20 000 предложений с данного языка, мы используем это, дабы научить грамматику.

Это – то, где OSC входит. В первой стадии мы пробовали научить грамматику, применяя центральные процессоры, но они через чур медленные. Так, мы повторно учли отечественный кодекс, дабы применять GPUs для выборки, и это ускорено отечественный процесс существенно».

Скорость крайне важна в проекте, по причине того, что цель СИРЕНЫ – стремительный ответ на помощь при бедствиях, означая, что высокоэффективное вычисление крайне важно. В августе DARPA организовало пробный прогон, дабы моделировать два настоящих бедствия в Африке. Несколько Шулера применяла 60 GPUs на Группе Оуэнса в течение семи дней для четырех грамматик двух языков, иллюстрируя важность ресурсов OSC к проекту.

Чжин заявил, что, потому, что они начинают применять более реалистические конфигурации для грамматик, размер вычисления и грамматик, требуемого изучить их, будет еще больше, давая OSC еще громадную будущую роль, потому, что изучение начинается.«Для стремительного приобретения грамматики, в то время, когда 60 секунд вычисляют Вас, нуждаются много власти второпях», сообщил Шулер.«Мы отвечаем на эти фундаментальные вопросы о том, что это указывает быть человеческим и иметь язык и быть животным, которое говорит между собой.

Свойство задать вопрос эти виды вопросов и узнать ответы есть довольно недавними инновациями, каковые требуют высокой эффективности вычислительная инфраструктура, которую OSC дает нам. Это – вправду переломный момент."

9 thoughts on “Команда лингвистики, использующая Супервычислительный центр Огайо, чтобы перевести менее известные языки

  1. По работе. Уже написал. И мнение о россиянах написал. Но ты меряешь на меня свои шаблоны и сам же на это отвечаешь.

Добавить комментарий