22.06.2012 15:41
Новости.
Просмотров всего: 4146; сегодня: 2.

Взгляд на мир глазами Википедии

Что можно сделать за день при помощи новой SGI® UV™ 2000 – крупнейшей в мире системы добычи данных, размещенных в основной памяти?

International Supercomputing Conference 2012

BUSINESS WIRE – Признанные лидер в области технических вычислений компания SGI (NASDAQ:SGI) в партнерстве с Калевом Х. Леетару (Kalev H. Leetaru) из Университета Иллинойса создала первую в истории систему хронологического картографирования и поиска полнотекстовых контентов в англоязычной версии Википедии во времени и пространстве. Результатами являются визуальные отображения современной истории, получаемые менее чем за день благодаря использованию методов добычи данных, размещенных в основной памяти (in-memory data-mining). Загрузив всю англоязычную Википедию в SGI® UV™ 2000, Леетару смог показать, как с точки зрения Википедии развивался мир на протяжении последних двух столетий. Место, год и положительное или отрицательное отношение привязывалисть к тем или иным упоминаниям.

Картографирование статей Википедии уже проводилось в рамках предыдущих проектов, когда автор вручную задавал локационные метаданные, но на эти прошлые попытки приходится лишь крохотная доля локационной информации Википедии. Данный проект раскрыл содержание самих статей, распознавая каждое место и дату на всех четырех миллионах страниц и связи между ними для создания грандиозной сети.

Википедия в совершенно новом ракурсе

"Такой анализ позволяет миру дистанцироваться от отдельных статей и текста, чтобы увидеть общую картину громадного знания, накопленного в Википедии, не ограничиваясь постраничным просмотром. Теперь мы можем видеть, как эволюционировало одно из крупнейших собраний человеческого знания, и то, что мы не могли видеть никогда раньше, например, глобальное настроение в определенное время и в определенном месте или наличие пробелов в представленном знании", - сказал Франц Аман (Franz Aman), директор по маркетингу и главный стратег SGI. – "Нам нравится пользоваться Google Earth из-за возможности уменьшать масштаб и видеть общую картину. С SGI UV 2 мы можем использовать ту же концепцию применительно к "Большим данным" (Big Data), чтобы получать общую картину наших Больших данных".

На базе такого анализа можно выделить четыре периода роста Википедии в плане исторического охвата: 1001-1500 (Средние века), 1501-1729 (Новое время), 1730-2003 (Эпоха просвещения), 2004-2011 (Эра Википедии), и продолжение этого роста, по-видимому, сфокусировано на улучшении описания исторических событий, а не на усиленном документировании настоящего. Средняя тональность в описании Википедией каждого года тесно соотносится с крупными глобальными событиями. При этом наиболее негативный период за последние 1.000 лет приходится на Гражданскую войну в Америке, за которой идет Вторая мировая война. Анализ также показывает, что обусловленный копирайтом пробел, выражающийся в отсутствии большей части двадцатого века в оцифрованных печатных собраниях, не является проблемой для Википедии, где наблюдается устойчивый поступательный рост в освещении этого периода, начиная с 1924 года до сегодняшних дней.

Исследователи могут добывать Большие данные со скоростью Больших данных

"Односторонность связей в Википедии, отсутствие ссылок и неравномерное распределение инфобоксов – все это указывает на наличие ограничений для добычи данных из собраний типа Википедии с опорой на метаданные", - сказал Леетару. – "В случае с SGI UV 2 наличие огромной общей памяти позволило мне относить вопросы ко всему массиву данных в режиме близком к реальному времени. Имея в своем распоряжении огромный объем кэш-когерентной общей памяти, я мог просто написать несколько строк кода и пройтись по всему набору данных, задавая любые приходящие мне в голову вопросы. Это невозможно при использовании метода горизонтального масштабирования. Это все равно что использовать текстовый процессор вместо пишущей машинки: я могу вести свои изыскания совершенно иным способом, концентрируясь на результатах, а не на алгоритмах".

Аналитический подход

Этот огромный массив данных, загруженный в суперкомпьютер SGI® UV™ 2000, подвергся геокодированию и кодированию дат с охватом всех текстов. При этом использовались алгоритмы для выявления всех упоминаний каждого места и каждой даты в тексте каждой статьи Википедии. Было экстрагировано свыше 80 млн. мест и 42 млн. дат за период с 1000 года нашей эры до 2012 года. В среднем это 19 мест и 11 дат на статью (каждые 44 слова и каждые 75 слов соответственно). Связи между каждой датой и каждым местом были зафиксированы в громадной сети, представляющей взгляд Википедии на историю. С таким инструментарием Леетару смог провести в масштабе времени, близком к реальному, анализ всего массива данных на SGI UV 2, чтобы создать визуальные карты во времени и пространстве и увидеть не только то, как разворачивалась история, но и изменение общего настроя мира на протяжении последнего тысячелетия. Он также смог провести интерактивное тестирование широкого спектра теорий и стоящих перед исследователями вопросов, и все это заняло менее одного дня.

Новый SGI UV: компьютер большого ума

Семейство продуктов SGI UV 2 позволяет пользователям находить ответы на самые сложные в мире проблемы при помощи системы, которой столь же проста в администрировании, как и рабочая станция. SGI UV 2, работающий на процессорах семейства Intel® Xeon® E5 со стандартной версией Linux и поддерживающий широкий спектр опций хранения, представляет собой полное, соответствующее отраслевым стандартам решение для ничем не лимитированных вычислений.

Имея всего 16 ядер и 32 гигабайта памяти, SGI UV 2 может начинать с малого и беспроблемно расширяться. Эта платформа нового поколения удваивает количество ядер (до 4096 ядер) и учетверяет объем когерентной основной памяти (до 64 терабайт) по сравнению с предыдущим поколением, используемым для вычислений in-memory в системе с единым представлением вычислений. SGI UV 2 может быть масштабирован до восьми петабайт общей памяти и на пиковой скорости ввода-вывода в четыре терабайта в секунду (14 PB/час) способен менее чем за три секунды вобрать в себя все содержимое собрания печатных изданий Библиотеки Конгресса США.

SGI UV 2000 уже есть в продаже. Заказ на SGI UV 20 можно оформить сегодня, поставки начнутся в августе 2012 года.

SGI

Признанный лидер в области технических вычислений компания SGI стремится помогать своим клиентам в решении самых сложных задач в сферах бизнеса и технологий.

© 2012 Silicon Graphics International Corporation. SGI и логотип SGI являются товарными знаками или зарегистрированными товарными знаками Silicon Graphics International Corp. или ее дочерних компаний в США и/или других странах. Intel и Xeon являются зарегистрированными товарными знаками Intel Corporation. Все остальные коммерческие обозначения и товарные знаки являются собственностью соответствующих владельцев.


Ньюсмейкер: Silicon Graphics International Corporation
Поделиться:

Интересно:

Впервые государственное звание «Мать-героиня» получили мамы-москвички
22.11.2024 16:39 Новости
Впервые государственное звание «Мать-героиня» получили мамы-москвички
В преддверии Дня матери в Москве состоялось вручение государственных наград Российской Федерации столичным многодетным семьям. На торжественной церемонии лауреатов отметила Анастасия Ракова, заместитель Мэра Москвы по вопросам социального развития. «Москва — это тот город...
История ювелирного дела в России
21.11.2024 17:36 Аналитика
История ювелирного дела в России
С древних времен людей привлекают изделия из драгоценных металлов. Современные ювелиры в основном специализируются на изготовлении украшений, но исторически эти мастера также производили столовое серебро, декоративную и полезную утварь, а также церемониальные и религиозные предметы...
Аэронавты, совершившие первый в истории полет на воздушном шаре
21.11.2024 09:04 Новости
Аэронавты, совершившие первый в истории полет на воздушном шаре
241 год назад состоялся первый в истории полет человека на воздушном шаре, который изобрели братья Монгольфье. 21 ноября 1783 года из замка в окрестностях Парижа в полет на чудо-аппарате диаметром 15,5 метра и высотой 24 метра, отправились французы - физик Жан-Франсуа Пилатр де Розье и маркиз...
В РФ более 6,7 млн женщин ведут деятельность как ИП или самозанятая
20.11.2024 13:56 Аналитика
В РФ более 6,7 млн женщин ведут деятельность как ИП или самозанятая
В России осуществляют деятельность 4,22 млн индивидуальных предпринимателей, из которых 1,75 млн – женщины. Доля женского предпринимательства среди ИП последние годы относительно стабильна и составляет 41,5%, говорится в исследовании Корпорации МСП, приуроченном ко дню женского...
Что ждет участников Московской молодежной антарктической экспедиции
20.11.2024 11:37 Мероприятия
Что ждет участников Московской молодежной антарктической экспедиции
В столице объявили участников Московской молодежной антарктической экспедиции. По итогам отбора количество мест было увеличено с 11 до 13. Теперь школьники и студенты колледжей смогут отправиться в уникальное путешествие на самый недоступный континент нашей...