Что можно сделать за день при помощи новой SGI® UV™ 2000 – крупнейшей в мире системы добычи данных, размещенных в основной памяти?
International Supercomputing Conference 2012
BUSINESS WIRE – Признанные лидер в области технических вычислений компания SGI (NASDAQ:SGI) в партнерстве с Калевом Х. Леетару (Kalev H. Leetaru) из Университета Иллинойса создала первую в истории систему хронологического картографирования и поиска полнотекстовых контентов в англоязычной версии Википедии во времени и пространстве. Результатами являются визуальные отображения современной истории, получаемые менее чем за день благодаря использованию методов добычи данных, размещенных в основной памяти (in-memory data-mining). Загрузив всю англоязычную Википедию в SGI® UV™ 2000, Леетару смог показать, как с точки зрения Википедии развивался мир на протяжении последних двух столетий. Место, год и положительное или отрицательное отношение привязывалисть к тем или иным упоминаниям.
Картографирование статей Википедии уже проводилось в рамках предыдущих проектов, когда автор вручную задавал локационные метаданные, но на эти прошлые попытки приходится лишь крохотная доля локационной информации Википедии. Данный проект раскрыл содержание самих статей, распознавая каждое место и дату на всех четырех миллионах страниц и связи между ними для создания грандиозной сети.
Википедия в совершенно новом ракурсе
"Такой анализ позволяет миру дистанцироваться от отдельных статей и текста, чтобы увидеть общую картину громадного знания, накопленного в Википедии, не ограничиваясь постраничным просмотром. Теперь мы можем видеть, как эволюционировало одно из крупнейших собраний человеческого знания, и то, что мы не могли видеть никогда раньше, например, глобальное настроение в определенное время и в определенном месте или наличие пробелов в представленном знании", - сказал Франц Аман (Franz Aman), директор по маркетингу и главный стратег SGI. – "Нам нравится пользоваться Google Earth из-за возможности уменьшать масштаб и видеть общую картину. С SGI UV 2 мы можем использовать ту же концепцию применительно к "Большим данным" (Big Data), чтобы получать общую картину наших Больших данных".
На базе такого анализа можно выделить четыре периода роста Википедии в плане исторического охвата: 1001-1500 (Средние века), 1501-1729 (Новое время), 1730-2003 (Эпоха просвещения), 2004-2011 (Эра Википедии), и продолжение этого роста, по-видимому, сфокусировано на улучшении описания исторических событий, а не на усиленном документировании настоящего. Средняя тональность в описании Википедией каждого года тесно соотносится с крупными глобальными событиями. При этом наиболее негативный период за последние 1.000 лет приходится на Гражданскую войну в Америке, за которой идет Вторая мировая война. Анализ также показывает, что обусловленный копирайтом пробел, выражающийся в отсутствии большей части двадцатого века в оцифрованных печатных собраниях, не является проблемой для Википедии, где наблюдается устойчивый поступательный рост в освещении этого периода, начиная с 1924 года до сегодняшних дней.
Исследователи могут добывать Большие данные со скоростью Больших данных
"Односторонность связей в Википедии, отсутствие ссылок и неравномерное распределение инфобоксов – все это указывает на наличие ограничений для добычи данных из собраний типа Википедии с опорой на метаданные", - сказал Леетару. – "В случае с SGI UV 2 наличие огромной общей памяти позволило мне относить вопросы ко всему массиву данных в режиме близком к реальному времени. Имея в своем распоряжении огромный объем кэш-когерентной общей памяти, я мог просто написать несколько строк кода и пройтись по всему набору данных, задавая любые приходящие мне в голову вопросы. Это невозможно при использовании метода горизонтального масштабирования. Это все равно что использовать текстовый процессор вместо пишущей машинки: я могу вести свои изыскания совершенно иным способом, концентрируясь на результатах, а не на алгоритмах".
Аналитический подход
Этот огромный массив данных, загруженный в суперкомпьютер SGI® UV™ 2000, подвергся геокодированию и кодированию дат с охватом всех текстов. При этом использовались алгоритмы для выявления всех упоминаний каждого места и каждой даты в тексте каждой статьи Википедии. Было экстрагировано свыше 80 млн. мест и 42 млн. дат за период с 1000 года нашей эры до 2012 года. В среднем это 19 мест и 11 дат на статью (каждые 44 слова и каждые 75 слов соответственно). Связи между каждой датой и каждым местом были зафиксированы в громадной сети, представляющей взгляд Википедии на историю. С таким инструментарием Леетару смог провести в масштабе времени, близком к реальному, анализ всего массива данных на SGI UV 2, чтобы создать визуальные карты во времени и пространстве и увидеть не только то, как разворачивалась история, но и изменение общего настроя мира на протяжении последнего тысячелетия. Он также смог провести интерактивное тестирование широкого спектра теорий и стоящих перед исследователями вопросов, и все это заняло менее одного дня.
Новый SGI UV: компьютер большого ума
Семейство продуктов SGI UV 2 позволяет пользователям находить ответы на самые сложные в мире проблемы при помощи системы, которой столь же проста в администрировании, как и рабочая станция. SGI UV 2, работающий на процессорах семейства Intel® Xeon® E5 со стандартной версией Linux и поддерживающий широкий спектр опций хранения, представляет собой полное, соответствующее отраслевым стандартам решение для ничем не лимитированных вычислений.
Имея всего 16 ядер и 32 гигабайта памяти, SGI UV 2 может начинать с малого и беспроблемно расширяться. Эта платформа нового поколения удваивает количество ядер (до 4096 ядер) и учетверяет объем когерентной основной памяти (до 64 терабайт) по сравнению с предыдущим поколением, используемым для вычислений in-memory в системе с единым представлением вычислений. SGI UV 2 может быть масштабирован до восьми петабайт общей памяти и на пиковой скорости ввода-вывода в четыре терабайта в секунду (14 PB/час) способен менее чем за три секунды вобрать в себя все содержимое собрания печатных изданий Библиотеки Конгресса США.
SGI UV 2000 уже есть в продаже. Заказ на SGI UV 20 можно оформить сегодня, поставки начнутся в августе 2012 года.
SGI
Признанный лидер в области технических вычислений компания SGI стремится помогать своим клиентам в решении самых сложных задач в сферах бизнеса и технологий.
© 2012 Silicon Graphics International Corporation. SGI и логотип SGI являются товарными знаками или зарегистрированными товарными знаками Silicon Graphics International Corp. или ее дочерних компаний в США и/или других странах. Intel и Xeon являются зарегистрированными товарными знаками Intel Corporation. Все остальные коммерческие обозначения и товарные знаки являются собственностью соответствующих владельцев.