Jure Leskovec, Anand Rajaraman, Jeffrey Ullman / Юре Лесковец, Ананд Раджараман, Джеффри Ульман - Mining of Massive Datasets / Анализ больших наборов данных [2016, PDF, RUS]
...

Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining). В книге описываются алгоритмы, которые реально использовались для решения важнейших задач добычи данных и могут быть с успехом применены даже к очень большим наборам данных. Изложение начинается с рассмотрения технологии MapReduce - важного средства распараллеливания алгоритмов. Излагаются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают слишком быстро для тщательного анализа. В последующих главах рассматривается идея показателя PageRank, нахождение частых предметных наборов и кластеризация. Во второе издание включен дополнительный материал о социальных сетях, машинном обучении и понижении размерности. Издание будет в равной мере полезна студентам и программистам-практикам. Данная книга представляет собой Стэнфордский курс о добыче данных в вебе (Web Mining) с акцентом на анализе данных очень большого объема. В книге принят алгоритмический подход: извлечение данных — это применение алгоритмов к данным, а не использование данных для «обучения» той или иной машины. Основные рассматриваемые темы: • распределенные файловые системы и технология распределения-редукции (map-reduce) как средство создания параллельных алгоритмов; • поиск по сходству, в том числе MinHash и хэширование с учетом близости; • обработка потоков данных и специализированные алгоритмы для работы с быстро поступающими данными; • принципы работы поисковых систем, в том числе алгоритм Google Page-Rank, распознавание ссылочного спама и метод авторитетных и хаб-документов; • частые предметные наборы, в том числе поиск ассоциативных правил, анализ корзины, алгоритм Apriori и его усовершенствованные варианты; • алгоритмы кластеризации очень больших многомерных наборов данных; • важные задачи: управление рекламой и рекомендательные системы; • алгоритмы анализа структуры очень больших графов, в особенности графов социальных сетей; • методы получения важных свойств большого набора данных с помощью понижения размерности; • алгоритмы машинного обучения, применимые к очень большим наборам данных.

Data Science/Analysis Загрузок: 0