For Today's Graduate, Just One Word: Statistics Для студентов сегодня, всего одно слово: Статистика



жүктеу 47.8 Kb.
Дата16.04.2019
өлшемі47.8 Kb.
түріЗакон


For Today's Graduate, Just One Word: Statistics

Для студентов сегодня, всего одно слово: Статистика

  By STEVE LOHR

Published in New York Times: August 5, 2009

Закончив Гарвард по специальности "Археология и антропология", Кэрри Граймс изучала виды поселений Майя, отмечая на карте места, где были найдены артефакты. Но потом ее увлекло то, что она называет "все эти математические и компьютерные штуки", которые были частью ее работы.

"Люди думают о археологии как о том, что делал Индиана Джонс, но на самом деле большая часть работы - анализ данных," - говорит Кэрри.
Сейчас Мисс Граймс занимается "раскопками" другого рода. Она работает в Google, где она занимается статистическим анализом огромных объемов данных для того, чтобы отыскать способы улучшить поисковые механизмы Google.

Мисс Граймс - статистик Интернет-поколения, одна из тех многих, кто меняет имидж профессии, которая раньше считалась прибежищем для математиков-бездельников. Теперь статистики ощущают все больший спрос на свои услуги.

"Я продолжаю утверждать, что самой привлекательной профессией в ближайшие десять лет будет статистика," - говорит Хэл Вэриан, главный экономист в Google. "И я не шучу!"

Растущий статус статистиков, которые могут зарабатывать 125 000 долларов в год в ведущих компаниях сразу после получения докторской степени, - это следствие взрывного роста объемов баз данных. Вычислительная математика и Интернет создают все новые возможности анализа данных - данные сенсоров, записи с камер слежения, переписка в социальных сетях и многое другое. Темпы роста объемов цифровых данных в обозримом будущем не уменьшатся, а к 2012 году увеличатся пятикратно, согласно исследованию компании IDC.

Данные - это всего лишь материал, из которого извлекаются знания. "Мы быстро движемся к миру, где все измеряется и записывается," - говорит Эрик Брайнйолфсон, экономист и директор Центра Цифрового бизнеса MIT. "Но сложным вопросом остается способность людей использовать, анализировать и извлекать из данных что-то осмысленное."

Новое поколение статистиков энергично берется за эту проблему. Они используют мощные компьютеры и сложные математические модели для поиска интерпретируемых моделей в больших хранилищах данных. Приложения крайне разнообразны: от улучшения Интернет-поиска и интернет-рекламы до лечения рака и оптимизации доставки еды.

Даже недавно закончившийся конкурс Netflix, за победу в котором полагался один миллион долларов каждому, кто сможет значительно улучшить систему рекомендаций фильмов пользователям, был соревнованием между средствами современной статистики.

Но не смотря на все это, статистики - это лишь малая часть множества экспертов, которые используют статистику для анализа данных. Вычислительные и численные методы имеют большее значение, чем могло бы показаться. Поэтому новые специалисты в анализе данных приходят из таких областей как экономика, информатика и математика.

Специалисты по анализу данных крайне востребованы в Белом Доме сегодня. "Чистые, достоверные данные - это первый "шаг к координации нашей долгосрочной экономической политики и ключевых приоритетов в политике" - говорит Питер Орзаг, директор Office of Management and Budget в своей майской речи. Позже в тот же день, мистер Орзаг признался в своем блоге, что его речь о значении статистики была "близка моему (нужно признаться педантичному) сердцу."

Компания IBM, видя перспективу в анализе данных, создала подразделение "Бизнес-аналитики и служб оптимизации" в апреле. Это подразделение привлечет более 200 математиков, статистиков и других аналитиков в исследовательские лаборатории - но этого недостаточно. IBM планирует привлечь и переобучить 4000 аналитиков из своих сотрудников.

Еще один показатель роста активности в этой области - приблизительно 6400 человек, посещающих профессиональную статистическую конференцию в Вашингтоне на этой неделе, вместо 5400 в прошлые годы, согласно информации от Американской Статистической Ассоциации. Участники, мужчины и женщины, молодые и уже седеющие, выглядели как любая другая толпа туристов в столице. Но их восторженные диалоги были посвящены случайности, параметрам, регрессии и кластеризации. Исследование данных развивается как профессия, которая традиционно была менее заметной и прибыльной, как например определение ставок для страхования жизни.

Мисс Граймс, в свои 32 года уже получила ученую степень по статистике в Стэнфорде в 2003 году и в этом же году поступила на работу в Google. Сейчас она одна из многих статистиков в группе из 250 аналитиков данных. Она использует статистическое моделирование чтобы помочь сделать поисковые технологии лучше.

Для примера: Мисс Граймс работает над алгоритмом, настраивающим поискового робота. Модель повысила вероятность того, что робот будет часто проверять постоянно обновляемые страницы и реже проверять необновляемые.

Цель, по словам Мисс Граймс, в том чтобы получить небольшую выгоду в эффективности вычислений. "Повышение эффективности на процент или два может дать огромный эффект, если операция повторяется миллионы и миллиарды раз, как мы у нас в Google," добавляет Кэрри.

Новый мир в исследованиях открывается благодаря объему данных в Сети. Традиционно, социальные науки следили за поведением с помощью интервью и опросов. "Но Сеть предоставляет эту замечательную возможность наблюдать как себя ведут миллионы людей," - говорит Джон Кляйнберг, специалист по социальным сетям в Cornell.
К примеру, в только что опубликованном исследовании, Кляйнберг и двое его коллег следили за течением идей в Сети. Они следили за 1.6 миллионами новостных сайтов и блогов в течении президентской кампании 2008 года, используя алгоритмы, которые искали и отслеживали фразы, связанные с новостями.

Исследователи из Cornell выяснили, что, в общем, традиционные методы ведут, а блоги следуют, обычно с отставанием в два с половиной часа. Но немного блогов были самыми быстрыми в цитировании, которые потом получили широкое распространение.

Огромные источники данных в Сети, по словам экспертов, несут опасность. Их объем может просто "раздавить" статистические модели. Исследователи предупреждают, что сильная корреляция между данными не всегда значит причинно-следственную связь между ними.

Например, в конце 40-ых годов двадцатого века, до изобретения вакцины от полиомиелита, эксперты по здравоохранению в Америке заметили что случаев заболевания становится больше при увеличении потребления мороженого и прохладительных напитков, по словам Дэвида Алана Грира, историка и статистика из George Washington University. Удаление таких лакомств из меню даже было рекомендовано как диета от полиомиелита. Позже оказалось, что вспышки полиомиелита чаще случались в жаркие месяцы лета, когда люди ели больше мороженого.

"Взрыв" данных притягивает продолжительные исследования в статистике, что также открывает новые границы.

"Ключ к тому, чтобы позволить компьютерам делать то, в чем они хороши - искать в этих массивах данных то, что кажется странным с точки зрения математики," - Говорит Даниэль Грул, исследователь из IBM, чья последняя работа посвящена анализу медицинских данных для улучшения качества обслуживания. "А людям остается то, что они делают лучше всего, - интерпретировать эти аномалии."




Джерело: http://www.nytimes.com/2009/08/06/technology/06stats.html?_r=3




Достарыңызбен бөлісу:


©kzref.org 2019
әкімшілігінің қараңыз

    Басты бет