РуЛиб - онлайн библиотека > Перрен Жан-Жорж > Другие языки и системы программирования > Spark в действии

Читаем онлайн «Spark в действии»

стр.
Spark в действии
На сайте издательства www.dmkpress.com
приведен исходный код к книге на языках
Java, Python и Scala.
Для чтения этой книги не требуется какойлибо предварительный опыт работы со Spark,
Scala или Hadoop.
«Эта книга открывает инструменты и секреты, которые
необходимы для управления
инновациями в вашей компании или сообществе».
Роб Томас, IBM
«Незаменимое, исчерпывающее и подробное руководство.
Его должен иметь каждый, кто
работает с большими данными
и занимается обработкой потоков данных в реальном времени».
Анупам Сенгупта, GuardHat, Inc.
«Эта книга поможет зажечь
искру (spark) любви к занятиям
распределенной обработкой
данных».
Конор Редмонд, InComm Product
Control
«В настоящее время это самая
лучшая книга по этой теме».
Маркус Бройер, Materna IPS
Темы, затрагиваемые в книге:
• создание приложений Spark на языке Java;
• архитектура приложений Spark;
• потребление данных из файлов, баз данных, потоков
и Elasticsearch;
• выполнение запросов к распределенным наборам
данных с использованием Spark SQL.
Жан-Жорж Перрен – опытный архитектор данных и программного обеспечения. Он первым во Франции был удостоен звания
IBM Champion и сохранял это почетное звание непрерывно
в течение 12 лет.
ISBN 978-5-97060-879-1
Интернет-магазин: www.dmkpress.com
Оптовая продажа: КТК “Галактика”
books@alians-kniga.ru
www.дмк.рф
9 785970 608791
Spark в действии
Анализ корпоративных данных начинается
с чтения, фильтрации и объединения файлов
и потоков из многих источников. Система
Spark способна обрабатывать разнообразные
объемы информации как признанный лидер
в этой области, обеспечивая в 100 раз большую скорость, чем Hadoop. Благодаря поддержке SQL, интуитивно понятному интерфейсу и простому и ясному многоязыковому
API вы можете использовать Spark без глубокого изучения новой сложной экосистемы.
Эта книга научит вас создавать полноценные
и завершенные аналитические приложения.
В качестве примера используется полный
конвейер обработки данных, поступающих
со спутников NASA.
Spark
в действии
Жан-Жорж Перрен
Жан-Жорж Перрен
Spark в действии
Covers Apache Spark 3
Spark in Action
With examples in Java, Python, and Scala
SECOND EDITION
J E A N - G E O RG E S P E R R I N
Foreword by Rob Thomas
Рассматривается версия Apache Spark 3
Spark в действии
С примерами на Java, Python и Scala
Ж А Н - ЖО РЖ П Е Р Р Е Н
Вступительное слово Роба Томаса
Москва, 2021
УДК 004.43Spark
ББК 32.972
П26
П26
Перрен Ж.-Ж.
Spark в действии / пер. с анг. А. В. Снастина. – М.: ДМК Пресс, 2021. – 636 с.:
ил.
ISBN 978-5-97060-879-1
Обработка больших данных с каждым днем приобретает все большее значение. В этой
книге подробно рассматривается организация обработки больших данных с использованием аналитической операционной системы Apache Spark. Тщательно описываются
процессы потребления, преобразования и публикации результатов обработки данных;
продемонстрированы возможности Apache Spark при работе с разнообразными форматами исходных данных (текст, JSON, XML, СУРБД и многими другими) и при публикации
результатов в разнообразных форматах. Особое внимание уделяется обработке потоковых
данных, что весьма важно в современных условиях. Подробно рассмотрены организация
и архитектура кластера Spark. В приложениях представлена обширная справочная информация, необходимая каждому разработчику, использующему Spark.
Книга содержит множество иллюстраций и примеров исходного кода на языке Java
с подробными комментариями.
Издание предназначено для разработчиков, начинающих осваивать систему Spark.
УДК 004.43Spark
ББК 32.972
Original English language edition published by Manning Publications USA, USA. Russian-language
edition copyright © 2021 by DMK Press. All rights reserved.
Все права защищены. Любая часть этой книги не может быть воспроизведена в какой
бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав.
ISBN 978-1-6172-9552-2 (анг.)
ISBN 978-5-97060-879-1 (рус.)
© Manning Publications, 2020
© Оформление, издание, перевод, ДМК Пресс, 2021
Оглавление
Часть I
1
2
3
4
5
6
Часть II
7
8
9
10
Часть III
11
12
13
14
15
Часть IV
16




















17

18

Теория, разбавленная превосходными примерами ............................35
Так что же такое Spark? ..........................................................................36
Архитектура и рабочий процесс ............................................................56
Важнейшая роль фрейма данных ..........................................................72
Природная лень .................................................................................... 112
Создание простого приложения для развертывания ........................ 138
Развертывание простого приложения ................................................ 165
Потребление данных ............................................................................ 190
Потребление данных из файлов .......................................................... 192
Потребление из баз данных ................................................................. 226
Более сложный процесс потребления: поиск источников
данных и создание собственных .........................................................
стр.