9가지 사례로 익히는 고급 스파크 분석 : 북윈도
리뷰 0 위시 120

9가지 사례로 익히는 고급 스파크 분석 요약정보 및 구매

현실 세계 빅데이터로 배우는 데이터 과학과 머신러닝

상품 선택옵션 0 개, 추가옵션 0 개

출판사 한빛미디어
저자 샌디 라이자 , 유리 레이저슨, 션 오언, 조시 윌스
ISBN 9791162240526 (1162240520)
정가 26,000원
판매가 23,400원(10% 할인)
배송비 무료배송
포인트 정책 설명문 닫기

00포인트

포인트 정책 설명문 출력

선택된 옵션

관심상품

상품 정보

사은품
상품 기본설명
현실 세계 빅데이터로 배우는 데이터 과학과 머신러닝
상품 상세설명
다양한 현실 세계 예제로 스파크 2의 진면목을 경험한다.

이 책은 독자에게 대량의 데이터셋을 가지고 스파크 2를 활용해 복잡한 분석과 머신러닝 학습을 실제로 해보는 생생한 느낌을 전달한다. 단순히 모델을 구축하고 평가하는 데 그치지 않고, 데이터 정제부터 전처리, 데이터 조사, 실제 제품을 만들기까지의 전체 파이프라인을 보여준다. 이러한 과정을 다양한 분야에서 가져온 현실 예제에 맞게 교차 최소 제곱 추천 알고리즘, 의사 결정 나무, K-평균 군집화, 숨은 의미 분석, 세션화, 몬테카를로 시뮬레이션 등의 기법을 동원해 풀어본다.

목차
1장. 빅데이터 분석하기
1.1 데이터 과학의 어려움
1.2 아파치 스파크란
1.3 이 책에 관하여
1.4 2판에 관하여

2장. 스칼라와 스파크를 활용한 데이터 분석
2.1 데이터 과학자를 위한 스칼라
2.2 스파크 프로그래밍 모델
2.3 레코드 링크
2.4 스파크 셸과 SparkContext 시작하기
2.5 클러스터에서 클라이언트로 데이터 가져오기
2.6 클라이언트에서 클러스터로 코드 보내기
2.7 RDD에서 Data Frame으로
2.8 DataFrame API로 데이터 분석하기
2.9 데이터프레임에 대한 빠른 요약 통계
2.10 데이터프레임의 축 회전과 형태변환
2.11 데이터프레임을 결합하고 특징 선택하기
2.12 실제 환경을 위한 모델 준비하기
2.13 모델 평가
2.14 한 걸음 더 나아가기

3장. 음악 추천과 Audioscrobbler 데이터셋
3.1 데이터셋
3.2 교차 최소 제곱 추천 알고리즘
3.3 데이터 준비하기
3.4 첫 번째 모델 만들기
3.5 추천 결과 추출 검사하기
3.6 추천 품질 평가하기
3.7 AUC 계산하기
3.8 하이퍼파라미터 선택하기
3.9 추천 결과 만들기
3.10 한 걸음 더 나아가기

4장. 의사 결정 나무로 산림 식생 분포 예측하기
4.1 회귀로 돌아와서
4.2 벡터와 특징
4.3 학습 예제
4.4 의사 결정 나무와 랜덤 포레스트
4.5 Covtype 데이터셋
4.6 데이터 준비하기
4.7 첫 번째 의사 결정 나무
4.8 의사 결정 나무 하이퍼파라미터
4.9 의사 결정 나무 튜닝하기
4.10 범주형 특징 다시 살펴보기
4.11 랜덤 포레스트
4.12 예측하기
4.13 한 걸음 더 나아가기

5장. K-평균 군집화로 네트워크 이상 탐지하기
5.1 이상 탐지
5.2 K-평균 군집화
5.3 네트워크 침입
5.4 KDD 컵 1999 데이터셋
5.5 첫 번째 군집화하기
5.6 k 선정하기
5.7 R에서 시각화하기
5.8 특징 정규화
5.9 범주형 변수
5.10 엔트로피와 함께 레이블 활용하기
5.11 군집화하기
5.12 한 걸음 더 나아가기

6장. 숨은 의미 분석으로 위키백과 이해하기
6.1 문서-단어 행렬
6.2 데이터 구하기
6.3 파싱하여 데이터 준비하기
6.4 표제어 추출
6.5 단어빈도-역문서빈도(TF-IDF) 계산하기
6.6 특잇값 분해
6.7 중요한 의미 찾기
6.8 낮은 차원 표현에 대한 의문과 고찰
6.9 단어와 단어 사이의 연관도
6.10 문서와 문서 사이의 연관도
6.11 문서와 단어 사이의 연관도
6.12 여러 개의 단어로 질의하기
6.13 한 걸음 더 나아가기

7장. 그래프엑스로 동시발생 네트워크 분석하기
7.1 네트워크 분석 사례: MEDLINE의 인용 색인
7.2 데이터 구하기
7.3 스칼라 XML 라이브러리로 XML 문서 파싱하기
7.4 MeSH 주요 주제와 주제들의 동시발생 분석하기
7.5 그래프엑스로 동시발생 네트워크 구성하기
7.6 네트워크의 구조 이해하기
7.7 관련성 낮은 관계 필터링하기
7.8 작은 세상 네트워크
7.9 한 걸음 더 나아가기

8장. 뉴욕 택시 운행 데이터로 위치 및 시간 데이터 분석하기
8.1 데이터 얻기
8.2 스파크에서 서드파티 라이브러리로 작업하기
8.3 지리 데이터와 Esri Geometry API, 그리고 Spray
8.4 뉴욕 택시 운행 데이터 준비하기
8.5 스파크에서 세션화 작업 수행하기
8.6 한 걸음 더 나아가기

9장. 몬테카를로 시뮬레이션으로 금융 리스크 추정하기
9.1 전문 용어
9.2 VaR 계산 방법
9.3 우리의 모델
9.4 데이터 구하기
9.5 전처리하기
9.6 요인 가중치 결정하기
9.7 표본추출
9.8 실험 실행하기
9.9 수익 분포 시각화하기
9.10 결과 평가하기
9.11 한 걸음 더 나아가기

10장. BDG 프로젝트와 유전체학 데이터 분석하기
10.1 모델링과 저장소를 분리하기
10.2 ADAM CLI를 이용한 유전체학 데이터 처리
10.3 ENCODE 데이터로부터 전사인자 결합 부위 예측하기
10.4 1000 지놈 프로젝트에서 유전자형 질의하기
10.5 한 걸음 더 나아가기

11장. 파이스파크와 썬더로 신경 영상 데이터 분석하기
11.1 파이스파크 소개
11.2 썬더 라이브러리 개요와 설치
11.3 썬더로 데이터 읽어 들이기
11.4 썬더로 신경 세포 유형 분류하기
11.5 한 걸음 더 나아가기
출판사 서평
스파크 2 실전편! 실무와 가장 가까운 경험을 제공한다. 이 책은 기능과 API를 단조롭게 나열하지 않는다. 현실과 동떨어진, 예제를 위한 예제를 따라 하지도 않는다. 대신 우리 주변에서 찾을 수 있고 우리 삶과 밀접한 실제 데이터를 가져와 함께 분석하고 다듬어본다. 그것도 하나가 아니라 9가지다. 음악 추천부터 이상 탐지, 교통, 금융, 영상 데이터 등 관심 가는 장을 먼저 봐도 좋고, 차례대로 천천히 따라 해도 좋다. 그럼 가장 진보한 분석 도구인 스파크 2로 다 함께 데이터의 바다를 항해해보자!2판에 관하여
1판이 출간된 이후 스파크의 메이저 버전이 올라가면서 완전히 새로운 핵심 API가 도입되고 MLlib이나 Spark SQL과 같은 하위 컴포넌트들도 크게 바뀌었다. 이러한 변화들이 반영되다 보니, 이 책 초판의 많은 부분이 의미가 없게 되었다. 이번 2판은 새로운 스파크 API를 사용하기 위해서 모든 장을 수정하였다.

주요 내용
1. 오디오스크로블러(AudioScrobbler) 데이터셋으로 음악 추천하기
2. 의사 결정 나무로 산림 식생 분포 예측하기
3. K-평균 군집화로 네트워크 이상 탐지하기
4. 숨은 의미 분석으로 위키백과 이해하기
5. 그래프엑스(GraphX)로 동시발생 네트워크 분석하기
6. 뉴욕 택시 운행 데이터로 위치 및 시간 데이터 분석하기
7. 몬테카를로 시뮬레이션으로 금융 리스크 추정하기
8. BDG 프로젝트와 유전체학 데이터 분석하기
9. 파이스파크(PySpark)와 썬더(Thunder)로 신경 영상 데이터 분석하기관련 도서 (제목 + ISBN)
●처음 배우는 데이터 과학 / 9791162240472
●파이썬 라이브러리를 활용한 데이터 분석(수정보완판) / 9788968480478
●파이썬 라이브러리를 활용한 머신러닝 / 9788968483394
●파이썬을 활용한 금융 분석 / 9788968482779
상품 정보 고시
도서명 9가지 사례로 익히는 고급 스파크 분석
저자 샌디 라이자 , 유리 레이저슨, 션 오언, 조시 윌스
출판사 한빛미디어
ISBN 9791162240526 (1162240520)
쪽수 332
출간일 2018-03-05
사이즈 184 * 236 * 15 mm /579g
목차 또는 책소개 1장. 빅데이터 분석하기
1.1 데이터 과학의 어려움
1.2 아파치 스파크란
1.3 이 책에 관하여
1.4 2판에 관하여

2장. 스칼라와 스파크를 활용한 데이터 분석
2.1 데이터 과학자를 위한 스칼라
2.2 스파크 프로그래밍 모델
2.3 레코드 링크
2.4 스파크 셸과 SparkContext 시작하기
2.5 클러스터에서 클라이언트로 데이터 가져오기
2.6 클라이언트에서 클러스터로 코드 보내기
2.7 RDD에서 Data Frame으로
2.8 DataFrame API로 데이터 분석하기
2.9 데이터프레임에 대한 빠른 요약 통계
2.10 데이터프레임의 축 회전과 형태변환
2.11 데이터프레임을 결합하고 특징 선택하기
2.12 실제 환경을 위한 모델 준비하기
2.13 모델 평가
2.14 한 걸음 더 나아가기

3장. 음악 추천과 Audioscrobbler 데이터셋
3.1 데이터셋
3.2 교차 최소 제곱 추천 알고리즘
3.3 데이터 준비하기
3.4 첫 번째 모델 만들기
3.5 추천 결과 추출 검사하기
3.6 추천 품질 평가하기
3.7 AUC 계산하기
3.8 하이퍼파라미터 선택하기
3.9 추천 결과 만들기
3.10 한 걸음 더 나아가기

4장. 의사 결정 나무로 산림 식생 분포 예측하기
4.1 회귀로 돌아와서
4.2 벡터와 특징
4.3 학습 예제
4.4 의사 결정 나무와 랜덤 포레스트
4.5 Covtype 데이터셋
4.6 데이터 준비하기
4.7 첫 번째 의사 결정 나무
4.8 의사 결정 나무 하이퍼파라미터
4.9 의사 결정 나무 튜닝하기
4.10 범주형 특징 다시 살펴보기
4.11 랜덤 포레스트
4.12 예측하기
4.13 한 걸음 더 나아가기

5장. K-평균 군집화로 네트워크 이상 탐지하기
5.1 이상 탐지
5.2 K-평균 군집화
5.3 네트워크 침입
5.4 KDD 컵 1999 데이터셋
5.5 첫 번째 군집화하기
5.6 k 선정하기
5.7 R에서 시각화하기
5.8 특징 정규화
5.9 범주형 변수
5.10 엔트로피와 함께 레이블 활용하기
5.11 군집화하기
5.12 한 걸음 더 나아가기

6장. 숨은 의미 분석으로 위키백과 이해하기
6.1 문서-단어 행렬
6.2 데이터 구하기
6.3 파싱하여 데이터 준비하기
6.4 표제어 추출
6.5 단어빈도-역문서빈도(TF-IDF) 계산하기
6.6 특잇값 분해
6.7 중요한 의미 찾기
6.8 낮은 차원 표현에 대한 의문과 고찰
6.9 단어와 단어 사이의 연관도
6.10 문서와 문서 사이의 연관도
6.11 문서와 단어 사이의 연관도
6.12 여러 개의 단어로 질의하기
6.13 한 걸음 더 나아가기

7장. 그래프엑스로 동시발생 네트워크 분석하기
7.1 네트워크 분석 사례: MEDLINE의 인용 색인
7.2 데이터 구하기
7.3 스칼라 XML 라이브러리로 XML 문서 파싱하기
7.4 MeSH 주요 주제와 주제들의 동시발생 분석하기
7.5 그래프엑스로 동시발생 네트워크 구성하기
7.6 네트워크의 구조 이해하기
7.7 관련성 낮은 관계 필터링하기
7.8 작은 세상 네트워크
7.9 한 걸음 더 나아가기

8장. 뉴욕 택시 운행 데이터로 위치 및 시간 데이터 분석하기
8.1 데이터 얻기
8.2 스파크에서 서드파티 라이브러리로 작업하기
8.3 지리 데이터와 Esri Geometry API, 그리고 Spray
8.4 뉴욕 택시 운행 데이터 준비하기
8.5 스파크에서 세션화 작업 수행하기
8.6 한 걸음 더 나아가기

9장. 몬테카를로 시뮬레이션으로 금융 리스크 추정하기
9.1 전문 용어
9.2 VaR 계산 방법
9.3 우리의 모델
9.4 데이터 구하기
9.5 전처리하기
9.6 요인 가중치 결정하기
9.7 표본추출
9.8 실험 실행하기
9.9 수익 분포 시각화하기
9.10 결과 평가하기
9.11 한 걸음 더 나아가기

10장. BDG 프로젝트와 유전체학 데이터 분석하기
10.1 모델링과 저장소를 분리하기
10.2 ADAM CLI를 이용한 유전체학 데이터 처리
10.3 ENCODE 데이터로부터 전사인자 결합 부위 예측하기
10.4 1000 지놈 프로젝트에서 유전자형 질의하기
10.5 한 걸음 더 나아가기

11장. 파이스파크와 썬더로 신경 영상 데이터 분석하기
11.1 파이스파크 소개
11.2 썬더 라이브러리 개요와 설치
11.3 썬더로 데이터 읽어 들이기
11.4 썬더로 신경 세포 유형 분류하기
11.5 한 걸음 더 나아가기
상품 정보 고시
도서명 상품페이지 참고
저자 상품페이지 참고
출판사 상품페이지 참고
크기 상품페이지 참고
쪽수 상품페이지 참고
제품구성 상품페이지 참고
출간일 상품페이지 참고
목차 또는 책소개 상품페이지 참고
배송공지

사용후기

회원리뷰 총 0개

사용후기가 없습니다.

상품문의

등록된 상품문의

상품문의 총 0개

상품문의가 없습니다.

교환/반품

[반품/교환방법]
마이페이지> 주문배송조회 > 반품/교환신청 또는 고객센터 (070-4680-5689)로 문의 바랍니다.

[반품주소]
- 도로명 : (10882) 경기도 파주시 산남로 62-20 (산남동)
- 지번 : (10882) 경기도 파주시 산남동 305-21

[반품/교환가능 기간]
변심반품의 경우 수령 후 14일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

[반품/교환비용]
단순 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담

[반품/교환 불가 사유]
- 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
(단지 확인을 위한 포장 훼손은 제외)
- 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
- 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
- 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
- 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
- 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
* (1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시
‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)

[상품 품절]
공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.

[소비자 피해보상, 환불지연에 따른 배상]
- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됩니다.
- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함.

회원로그인

오늘 본 상품

  • 9가지 사례로 익히는 고급 스파크 분석
    9가지 사례로 익히
    23,400