러닝 스파크(Learning Spark) : 북윈도
리뷰 0 위시 120

러닝 스파크(Learning Spark) 요약정보 및 구매

번개같이 빠른 데이터 분석

상품 선택옵션 0 개, 추가옵션 0 개

출판사 제이펍
저자 홀든 카로 , 앤디 콘빈스키, 패트릭 웬델, 마테이 자하리아
ISBN 9791185890333 (1185890335)
정가 24,000원
판매가 21,600원(10% 할인)
배송비 무료배송
포인트 정책 설명문 닫기

00포인트

포인트 정책 설명문 출력

선택된 옵션

관심상품

상품 정보

사은품
상품 기본설명
번개같이 빠른 데이터 분석
상품 상세설명
스파크 창시자와 스파크 커미터가 직접 알려주는 스파크!

『러닝 스파크』는 데이터 분석 작업을 빠르게 작성하고 실행하게 해 주는 오픈 소스 클러스터 컴퓨팅 시스템인 스파크를 소개한다. 스파크에서 파이썬, 자바, 스칼라로 제공되는 간단한 API들을 써서 방대한 데이터세트를 가볍게 처리할 수 있다. 이 책을 통해 병렬 작업들을 코드 몇 라인으로만 실행하는 방법과 단순한 배치 프로그램부터 스트림 처리나 머신 러닝까지 다루는 프로그램의 제작 방법을 배울 수 있을 것이다.

목차
Chapter 1 스파크를 이용한 데이터 분석 소개 _ 1
아파치 스파크란 무엇인가? _ 1
통합된 구성 _ 2
스파크는 누가, 무엇을 위해 사용할까? _ 5
스파크의 간략한 역사 _ 8
스파크의 버전과 릴리스 _ 9
스파크의 저장소 계층 _ 9

Chapter 2 스파크 맛보기 _ 11
스파크 다운로드하기 _ 11
스파크의 파이썬 셸과 스칼라 셸 소개 _ 13
스파크의 핵심 개념 소개 _ 18
단독 애플리케이션 _ 21
요약 _ 27

Chapter 3 RDD로 프로그래밍하기 _ 29
RDD 기초 _ 29
RDD 생성하기 _ 32
RDD의 연산 _ 34
스파크에 함수 전달하기 _ 38
많이 쓰이는 트랜스포메이션과 액션 _ 43
영속화(캐싱) _ 55
요약 _ 57

Chapter 4 키/값 페어로 작업하기 _ 59
배경 _ 60
페어 RDD 생성 _ 60
페어 RDD의 트랜스포메이션 _ 61
페어 RDD에서 쓸 수 있는 액션 _ 74
데이터 파티셔닝(고급) _ 75
요약 _ 86

Chapter 5 데이터 불러오기/저장하기 _ 87
배경 _ 87
파일 포맷 _ 88
파일 시스템 _ 109
스파크 SQL로 구조화 데이터 다루기 _ 111
데이터베이스 _ 114
요약 _ 120

Chapter 6 고급 스파크 프로그래밍 _ 121
소개 _ 121
어큐뮬레이터 _ 122
브로드캐스트 변수 _ 127
파티션별로 작업하기 _ 131
외부 프로그램과 파이프로 연결하기 _ 134
수치 RDD 연산들 _ 138
요약 _ 140

Chapter 7 클러스터에서 운영하기 _ 141
소개 _ 141
스파크 실행 구조 _ 142
spark-submit을 써서 애플리케이션 배포하기 _ 145
사용자 코드와 의존성 라이브러리 패키징하기 _ 148
스파크 애플리케이션 간의 스케줄링 _ 155
클러스터 매니저 _ 155
어떤 클러스터 매니저를 써야 할까? _ 167
요약 _ 167

Chapter 8 스파크 최적화 및 디버깅 _ 169
SparkConf로 스파크 설정하기 _ 169
실행을 구성하는 것: 작업, 태스크, 작업 단계 _ 174
정보 찾기 _ 180
성능에 관한 핵심 고려 사항 _ 185
요약 _ 191

Chapter 9 스파크 SQL _ 193
스파크 SQL 라이브러리 링크 _ 195
애플리케이션에서 스파크 SQL 사용하기 _ 197
데이터 불러오고 저장하기 _ 205
JDBC/ODBC 서버 _ 212
사용자 정의 함수 _ 216
스파크 SQL 성능 _ 218
요약 _ 221

Chapter 10 스파크 스트리밍 _ 223
간단한 예제 _ 224
아키텍처와 추상 개념 _ 227
트랜스포메이션 _ 232
출력 연산 _ 241
입력 소스 _ 243
24/7 운영 _ 252
스트리밍 UI _ 257
성능 고려 사항 _ 258
요약 _ 260

Chapter 11 MLlib로 해 보는 머신 러닝 _ 261
개요 _ 262
시스템 요구 사항 _ 263
머신 러닝의 기초 _ 263
데이터 타입 _ 268
알고리즘 _ 271
팁과 성능 고려 사항 _ 287
파이프라인 API _ 289
요약 _ 291

찾아보기 _ 292
책속으로
이 입문서는 스파크를 빠르게 익히고 실행할 수 있도록 쓰였다. 이 책을 통해서 자신의 PC에 스파크를 다운로드하여 실행하고, API를 배우기 위해 명령어들을 입력하고 그 결과를 볼 수 있을 것이다. 그리고 일단 그 정도 시점이 되면 가능한 작업의 세부 사항과 분산 실행에 대해 다루고, 최종적으로는 스파크에 내장된 머신 러닝, 스트림 처리, SQL 등의 고수준 라이브러리를 둘러보게 될 것이다. 한 대의 컴퓨터든 수백 대로 구성된 클러스터든 데이터 분석에 관한 문제를 맞닥뜨렸을 때, 우리는 이 책이 그 문제를 빠르게 해결할 수 있는 도구가 되기를 바란다. _XVp스파크는 작업 노드에서는 데이터를 메모리에 올려 처리할 수 있어서 많은 분산 작업들, 심지어 십수 대의 머신에서 테라바이트(terabyte) 단위의 데이터를 처리하는 것도 몇 초 만에 끝낼 수 있다. 이런 높은 성능 덕분에 일반적으로 셸에서 수행하게 되는 반복적인 일회성, 탐색적 분석 같은 종류의 작업을 스파크에서 수행하는 것도 적절하다. 스파크는 클러스터 연결을 잘 지원하는 기능을 가진 파이썬과 스칼라 셸을 지원한다. _14p이번 장에서는 스파크에서 가장 흔하게 쓰이는 트랜스포메이션과 액션들에 대해 알아본다. 특별한 데이터 타입을 취급하는 RDD를 위한 추가적인 연산들도 존재한다. 예를 들면, 통계 함수들이나 키/값 페어(key/value pair)를 다루는 RDD에서 키를 기준으로 데이터를 집계하는 키/값 연산 같은 것들이 있다. RDD 타입에 따라 변환하는 방법과 이런 특별한 연산들은 후반부에 다룬다. _43p오브젝트 파일이 자바 직렬화를 사용한다는 것에는 몇 가지 주의가 필요하다. 일반적인 시퀀스 파일과는 달리 결과 파일이 하둡에서 동일 객체를 출력한 것과는 다르다. 다른 포맷들과는 다르게 오브젝트 파일은 거의 스파크 내에서 스파크 작업들끼리 통신하기 위한 용도로 많이 쓰인다. 게다가 자바 직렬화는 느리다. _102p스파크를 최적화하고 디버깅하기 위한 첫 번째 단계는 스파크 시스템의 내부 설계를 좀 더 깊이 이해하는 것이다. 이전 장들에서 RDD와 파티션 등에 대한 “논리적인” 관점에서의 표현들을 보아 왔다. 실행하면서 스파크는 이 논리적 표현들을 여러 개의 연산들을 태스크로 합쳐서 물리적인 실행 계획으로 바꾼다. 스파크 실행의 전체적인 형태를 이해하는 것은 이 책의 범위를 벗어나지만, 관련된 개념들이 엮이는 단계들에 대해 올바른 이해를 가지는 것은 작업을 최적화하고 디버깅하는 데에 도움이 된다. _174p
출판사 서평
창시자와 커미터가 직접 저술한 스파크 입문서 !모든 분야에서 데이터는 점점 많아지고 있다. 어떻게 그 엄청난 데이터를 효과적으로 다룰 것인가? 이 책은 데이터 분석 작업을 빠르게 작성하고 실행하게 해 주는 오픈 소스 클러스터 컴퓨팅 시스템인 스파크를 소개한다. 스파크에서 파이썬, 자바, 스칼라로 제공되는 간단한 API들을 써서 방대한 데이터세트를 가볍게 처리할 수 있다.스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 코드 몇 라인으로만 실행하는 방법과 단순한 배치 프로그램부터 스트림 처리나 머신 러닝까지 다루는 프로그램의 제작 방법을 배울 수 있다.■ 분산 데이터세트, 메모리 기반 캐싱, 대화형 셸 같은 스파크의 특징들을 빠르게 파고든다
■ 스파크 SQL, 스파크 스트리밍, MLlib 같은 스파크의 강력한 내장 라이브러리를 효과적으로 쓸 수 있다
■ 하이브, 하둡, 머하웃, 스톰 등 여러 도구를 혼용하고 연동하는 대신, 일관된 프로그래밍 개념을 사용한다
■ 대화형, 배치, 스트리밍 애플리케이션들을 서버에 올리는 방법을 배운다
■ HDFS, 하이브, JSON, S3 같은 데이터 소스에 연결할 수 있다
■ 데이터 파티셔닝이나 공유 변수 같은 고급 개념들을 익힌다
상품 정보 고시
도서명 러닝 스파크(Learning Spark)
저자 홀든 카로 , 앤디 콘빈스키, 패트릭 웬델, 마테이 자하리아
출판사 제이펍
ISBN 9791185890333 (1185890335)
쪽수 336
출간일 2015-10-15
사이즈 188 * 245 * 22 mm
목차 또는 책소개 Chapter 1 스파크를 이용한 데이터 분석 소개 _ 1
아파치 스파크란 무엇인가? _ 1
통합된 구성 _ 2
스파크는 누가, 무엇을 위해 사용할까? _ 5
스파크의 간략한 역사 _ 8
스파크의 버전과 릴리스 _ 9
스파크의 저장소 계층 _ 9

Chapter 2 스파크 맛보기 _ 11
스파크 다운로드하기 _ 11
스파크의 파이썬 셸과 스칼라 셸 소개 _ 13
스파크의 핵심 개념 소개 _ 18
단독 애플리케이션 _ 21
요약 _ 27

Chapter 3 RDD로 프로그래밍하기 _ 29
RDD 기초 _ 29
RDD 생성하기 _ 32
RDD의 연산 _ 34
스파크에 함수 전달하기 _ 38
많이 쓰이는 트랜스포메이션과 액션 _ 43
영속화(캐싱) _ 55
요약 _ 57

Chapter 4 키/값 페어로 작업하기 _ 59
배경 _ 60
페어 RDD 생성 _ 60
페어 RDD의 트랜스포메이션 _ 61
페어 RDD에서 쓸 수 있는 액션 _ 74
데이터 파티셔닝(고급) _ 75
요약 _ 86

Chapter 5 데이터 불러오기/저장하기 _ 87
배경 _ 87
파일 포맷 _ 88
파일 시스템 _ 109
스파크 SQL로 구조화 데이터 다루기 _ 111
데이터베이스 _ 114
요약 _ 120

Chapter 6 고급 스파크 프로그래밍 _ 121
소개 _ 121
어큐뮬레이터 _ 122
브로드캐스트 변수 _ 127
파티션별로 작업하기 _ 131
외부 프로그램과 파이프로 연결하기 _ 134
수치 RDD 연산들 _ 138
요약 _ 140

Chapter 7 클러스터에서 운영하기 _ 141
소개 _ 141
스파크 실행 구조 _ 142
spark-submit을 써서 애플리케이션 배포하기 _ 145
사용자 코드와 의존성 라이브러리 패키징하기 _ 148
스파크 애플리케이션 간의 스케줄링 _ 155
클러스터 매니저 _ 155
어떤 클러스터 매니저를 써야 할까? _ 167
요약 _ 167

Chapter 8 스파크 최적화 및 디버깅 _ 169
SparkConf로 스파크 설정하기 _ 169
실행을 구성하는 것: 작업, 태스크, 작업 단계 _ 174
정보 찾기 _ 180
성능에 관한 핵심 고려 사항 _ 185
요약 _ 191

Chapter 9 스파크 SQL _ 193
스파크 SQL 라이브러리 링크 _ 195
애플리케이션에서 스파크 SQL 사용하기 _ 197
데이터 불러오고 저장하기 _ 205
JDBC/ODBC 서버 _ 212
사용자 정의 함수 _ 216
스파크 SQL 성능 _ 218
요약 _ 221

Chapter 10 스파크 스트리밍 _ 223
간단한 예제 _ 224
아키텍처와 추상 개념 _ 227
트랜스포메이션 _ 232
출력 연산 _ 241
입력 소스 _ 243
24/7 운영 _ 252
스트리밍 UI _ 257
성능 고려 사항 _ 258
요약 _ 260

Chapter 11 MLlib로 해 보는 머신 러닝 _ 261
개요 _ 262
시스템 요구 사항 _ 263
머신 러닝의 기초 _ 263
데이터 타입 _ 268
알고리즘 _ 271
팁과 성능 고려 사항 _ 287
파이프라인 API _ 289
요약 _ 291

찾아보기 _ 292
상품 정보 고시
도서명 상품페이지 참고
저자 상품페이지 참고
출판사 상품페이지 참고
크기 상품페이지 참고
쪽수 상품페이지 참고
제품구성 상품페이지 참고
출간일 상품페이지 참고
목차 또는 책소개 상품페이지 참고
배송공지

사용후기

회원리뷰 총 0개

사용후기가 없습니다.

상품문의

등록된 상품문의

상품문의 총 0개

상품문의가 없습니다.

교환/반품

[반품/교환방법]
마이페이지> 주문배송조회 > 반품/교환신청 또는 고객센터 (070-4680-5689)로 문의 바랍니다.

[반품주소]
- 도로명 : (10882) 경기도 파주시 산남로 62-20 (산남동)
- 지번 : (10882) 경기도 파주시 산남동 305-21

[반품/교환가능 기간]
변심반품의 경우 수령 후 14일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

[반품/교환비용]
단순 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담

[반품/교환 불가 사유]
- 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
(단지 확인을 위한 포장 훼손은 제외)
- 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
- 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
- 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
- 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
- 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
* (1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시
‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)

[상품 품절]
공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.

[소비자 피해보상, 환불지연에 따른 배상]
- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됩니다.
- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함.

회원로그인

오늘 본 상품

  • 러닝 스파크(Learning Spark)
    러닝 스파크(Lea
    21,600