파이썬을 활용한 데이터 길들이기 : 북윈도
리뷰 0 위시 120

파이썬을 활용한 데이터 길들이기 요약정보 및 구매

데이터 전처리 효율화 전략

상품 선택옵션 0 개, 추가옵션 0 개

출판사 인사이트
저자 재클린 카질 , 캐서린 자멀
ISBN 9788966264063 (8966264069)
정가 33,000원
판매가 29,700원(10% 할인)
배송비 무료배송
포인트 정책 설명문 닫기

00포인트

포인트 정책 설명문 출력

선택된 옵션

관심상품

상품 정보

사은품
상품 기본설명
데이터 전처리 효율화 전략
상품 상세설명


미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매번 거쳐야 하는 이 수작업을 더 효율적으로, 더 똑똑하게 할 수는 없을까? 이에 대한 답을 『파이썬을 활용한 데이터 길들이기』에는 데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다. 이 책은 일반적인 데이터 분석 프로젝트의 흐름을 따라 단계별로 구성되어 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 예전에는 너무 지저분하거나 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있을 것이다. 매번 되풀이되는 데이터 분석 초기 단계를 좀 더 효율적으로 작업하고 싶었던 독자라면 이 책을 통해 데이터 분석 능력을 한 단계 업그레이드할 수 있을 것이다.

목차
1장 파이썬 소개
__왜 파이썬인가?
__파이썬 시작하기
____파이썬 버전 선택하기
____컴퓨터에 파이썬 설치하기
____파이썬 실행 테스트하기
____pip 설치하기
____코드 에디터 설치하기
____선택사항: IPython 설치하기
__요약

2장 파이썬 기초
__기본적인 데이터 유형
____문자열
____정수와 실수
__데이터 컨테이너
____변수
____리스트
____딕셔너리
__각 데이터 유형으로 무엇을 할 수 있나?
____문자열 메서드: 문자열이 할 수 있는 것들
____수치형(numerical) 메서드: 숫자가 할 수 있는 것들
____리스트 메서드: 리스트가 할 수 있는 것들
____딕셔너리 메서드: 딕셔너리가 할 수 있는 것들
__유용한 도구: type, dir 그리고 help
____type
____dir
____help
__모두 종합하기
__이 모든 것이 무엇을 의미하는가?
__요약

3장 기계가 읽을 수 있는 데이터
__CSV 데이터
____CSV 데이터 불러오기
____파일에 코드 저장하기; 명령 프롬프트에서 실행하기
__JSON 데이터
____JSON 데이터 불러오기
__XML 데이터
____XML 데이터 불러오기
__요약

4장 엑셀 파일 다루기
__파이썬 패키지 설치하기
__엑셀 파일 파싱하기
__파싱 시작하기
__요약

5장 파이썬에서의 PDF와 문제 해결
__PDF 사용을 자제하라!
__PDF 파싱에 대한 프로그램적인 접근
____slate를 사용하여 열고 읽기
____PDF를 텍스트로 변환하기
__pdfminer를 사용해 PDF 파싱하기
__문제 해결 방법 배우기
____예제: 표 추출 사용하기, 다른 라이브러리 사용하기
____예제: 수동으로 데이터 클리닝하기
____예제: 다른 도구 사용하기
__흔치 않은 파일 유형
__요약

6장 데이터 수집 및 저장하기
__모든 데이터가 평등하게 창조되지는 않았다
__사실 확인하기
__가독성, 깔끔함 그리고 데이터의 지속성
__데이터를 어디에서 구할 수 있을까
____전화 걸기
____미 정부 데이터
____전 세계 정부 및 도시 오픈 데이터
____조직 및 비정부조직(NGO) 데이터
____교육 및 대학 데이터
____의료 및 과학 데이터
____크라우드소싱 데이터 및 API
__사례 연구: 데이터 예시 조사
____에볼라 사태
____기차 안전
____축구 선수 연봉
____아동 노동
__데이터 저장하기: 언제, 왜, 어떻게?
__데이터베이스: 간단한 소개
____관계형 데이터베이스: MySQL과 PostgreSQL
____비관계형 데이터베이스: NoSQL
____파이썬에서 로컬 데이터베이스 설정하기
__언제 간단한 파일을 사용하나
____클라우드 저장과 파이썬
____로컬 저장과 파이썬
__대안적인 데이터 저장 방법
__요약

7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화
__왜 데이터를 클리닝하는가?
__데이터 클리닝 기초
____데이터 클리닝을 위한 값 찾기
____데이터 서식화하기
____이상치와 불량 데이터 찾기
____중복 기록 찾기
____퍼지 매칭
____정규식 매칭
____중복 기록 처리하기
__요약

8장 데이터 클리닝하기: 표준화와 스크립트
__데이터 정규화 및 표준화
__데이터 저장하기
__프로젝트에 적절한 데이터 클리닝 방식 결정하기
__클리닝 스크립트 만들기
__새 데이터 테스트하기
__요약

9장 데이터 탐색과 분석
__데이터 탐색하기
____데이터 불러오기
____표 함수 탐색하기
____다수의 데이터세트 결합하기
____상관관계 판별하기
____이상치 판별하기
____그룹화하기
____추가 탐색하기
__데이터 분석하기
____데이터를 분리하고 집중하기
____데이터가 무엇을 말하고 있나?
____결론 도출하기
____결론 문서화 하기
__요약

10장 데이터 표현하기
__스토리텔링의 함정을 방지하기
____스토리를 어떻게 전달할 것인가?
____청중을 알라
__데이터 시각화하기
____차트
____시간 관련 데이터
____지도
____인터랙티브
____단어
____이미지, 비디오, 일러스트
__프레젠테이션 도구
__데이터 게재하기
____가능한 사이트 사용하기
____오픈소스 플랫폼: 새로운 사이트 만들기
____Jupyter(기존 IPython Notebooks)
__요약

11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기
__스크래핑 대상과 방법
__웹 페이지 분석하기
____요소 검사 : 마크업 구조
____Network/Timeline 탭 : 페이지 로드 현황보기
____콘솔 탭 : 자바스크립트와 상호작용하기
____페이지 심층분석
__페이지 가져오기 : 페이지 요청 방법
__뷰티풀수프를 사용하여 웹페이지 읽어 들이기
__LXML로 웹페이지 읽어들이기
____XPath 사례
__요약

12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더
__브라우저 기반 파싱
____셀레니움(Selenium)으로 하는 스크린 리딩
____Ghost.Py로 스크린 리딩하기
__웹 스파이더링
____Scrapy를 이용한 스파이더 구축
____Scrapy로 웹사이트 전체를 크롤링하기
__네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유
__변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유)
__몇 가지 주의 사항
__요약

13장 API
__API에서 제공하는 기능들
____REST API vs. 스트리밍 API
____요청 제한
____데이터 볼륨 계층
____API 키와 토큰
__REST API로부터 간단한 데이터 받아 오기
__트위터 REST API를 사용한 고급 데이터 수집
__트위터 스트리밍 API를 통한 고급 데이터 수집
__요약

14장 자동화와 규모 확장
__왜 자동화를 해야 할까?
__자동화 단계
__무엇이 잘못될 수 있는가?
__자동화 수행 위치
__자동화를 위한 특별한 도구들
____로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기
____데이터 처리를 위해 클라우드 사용하기
____병렬 프로세싱 사용하기
____분산 프로세싱 사용하기
__단순 자동화
____크론잡(CronJob)
____웹 인터페이스
____주피터 노트북(Jupyter Notebooks)
__대규모 자동화
____셀러리(Celery) : 큐 기반 자동화
____Ansible을 이용한 운영 자동화
__자동화 모니터링하기
____파이썬으로 로깅(logging)하기
____자동화된 메시지 보내기
____파일 업로드 및 기타 보고 방법
____로깅 및 모니터링 서비스
__완벽한 시스템은 없다
__요약

15장 결론
__데이터 랭글러의 의무
__데이터 랭글링을 넘어
____더 나은 데이터 분석가가 되기
____더 나은 개발자가 되기
____더 나은 시각적 스토리텔러가 되기
____더 나은 시스템 아키텍트가 되기
__이젠 무엇을 할까?

부록 A 프로그래밍 언어 비교
부록 B 초보자를 위한 파이썬 참고자료
부록 C 커맨드라인 배우기
부록 D 파이썬 고급 설정
부록 E 파이썬 주의사항
부록 F IPython 도움말
부록 G 아마존 웹 서비스 이용하기
상품 정보 고시
도서명 파이썬을 활용한 데이터 길들이기
저자 재클린 카질 , 캐서린 자멀
출판사 인사이트
ISBN 9788966264063 (8966264069)
쪽수 536
출간일 2017-08-21
사이즈 189 * 241 * 27 mm /1029g
목차 또는 책소개 1장 파이썬 소개
__왜 파이썬인가?
__파이썬 시작하기
____파이썬 버전 선택하기
____컴퓨터에 파이썬 설치하기
____파이썬 실행 테스트하기
____pip 설치하기
____코드 에디터 설치하기
____선택사항: IPython 설치하기
__요약

2장 파이썬 기초
__기본적인 데이터 유형
____문자열
____정수와 실수
__데이터 컨테이너
____변수
____리스트
____딕셔너리
__각 데이터 유형으로 무엇을 할 수 있나?
____문자열 메서드: 문자열이 할 수 있는 것들
____수치형(numerical) 메서드: 숫자가 할 수 있는 것들
____리스트 메서드: 리스트가 할 수 있는 것들
____딕셔너리 메서드: 딕셔너리가 할 수 있는 것들
__유용한 도구: type, dir 그리고 help
____type
____dir
____help
__모두 종합하기
__이 모든 것이 무엇을 의미하는가?
__요약

3장 기계가 읽을 수 있는 데이터
__CSV 데이터
____CSV 데이터 불러오기
____파일에 코드 저장하기; 명령 프롬프트에서 실행하기
__JSON 데이터
____JSON 데이터 불러오기
__XML 데이터
____XML 데이터 불러오기
__요약

4장 엑셀 파일 다루기
__파이썬 패키지 설치하기
__엑셀 파일 파싱하기
__파싱 시작하기
__요약

5장 파이썬에서의 PDF와 문제 해결
__PDF 사용을 자제하라!
__PDF 파싱에 대한 프로그램적인 접근
____slate를 사용하여 열고 읽기
____PDF를 텍스트로 변환하기
__pdfminer를 사용해 PDF 파싱하기
__문제 해결 방법 배우기
____예제: 표 추출 사용하기, 다른 라이브러리 사용하기
____예제: 수동으로 데이터 클리닝하기
____예제: 다른 도구 사용하기
__흔치 않은 파일 유형
__요약

6장 데이터 수집 및 저장하기
__모든 데이터가 평등하게 창조되지는 않았다
__사실 확인하기
__가독성, 깔끔함 그리고 데이터의 지속성
__데이터를 어디에서 구할 수 있을까
____전화 걸기
____미 정부 데이터
____전 세계 정부 및 도시 오픈 데이터
____조직 및 비정부조직(NGO) 데이터
____교육 및 대학 데이터
____의료 및 과학 데이터
____크라우드소싱 데이터 및 API
__사례 연구: 데이터 예시 조사
____에볼라 사태
____기차 안전
____축구 선수 연봉
____아동 노동
__데이터 저장하기: 언제, 왜, 어떻게?
__데이터베이스: 간단한 소개
____관계형 데이터베이스: MySQL과 PostgreSQL
____비관계형 데이터베이스: NoSQL
____파이썬에서 로컬 데이터베이스 설정하기
__언제 간단한 파일을 사용하나
____클라우드 저장과 파이썬
____로컬 저장과 파이썬
__대안적인 데이터 저장 방법
__요약

7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화
__왜 데이터를 클리닝하는가?
__데이터 클리닝 기초
____데이터 클리닝을 위한 값 찾기
____데이터 서식화하기
____이상치와 불량 데이터 찾기
____중복 기록 찾기
____퍼지 매칭
____정규식 매칭
____중복 기록 처리하기
__요약

8장 데이터 클리닝하기: 표준화와 스크립트
__데이터 정규화 및 표준화
__데이터 저장하기
__프로젝트에 적절한 데이터 클리닝 방식 결정하기
__클리닝 스크립트 만들기
__새 데이터 테스트하기
__요약

9장 데이터 탐색과 분석
__데이터 탐색하기
____데이터 불러오기
____표 함수 탐색하기
____다수의 데이터세트 결합하기
____상관관계 판별하기
____이상치 판별하기
____그룹화하기
____추가 탐색하기
__데이터 분석하기
____데이터를 분리하고 집중하기
____데이터가 무엇을 말하고 있나?
____결론 도출하기
____결론 문서화 하기
__요약

10장 데이터 표현하기
__스토리텔링의 함정을 방지하기
____스토리를 어떻게 전달할 것인가?
____청중을 알라
__데이터 시각화하기
____차트
____시간 관련 데이터
____지도
____인터랙티브
____단어
____이미지, 비디오, 일러스트
__프레젠테이션 도구
__데이터 게재하기
____가능한 사이트 사용하기
____오픈소스 플랫폼: 새로운 사이트 만들기
____Jupyter(기존 IPython Notebooks)
__요약

11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기
__스크래핑 대상과 방법
__웹 페이지 분석하기
____요소 검사 : 마크업 구조
____Network/Timeline 탭 : 페이지 로드 현황보기
____콘솔 탭 : 자바스크립트와 상호작용하기
____페이지 심층분석
__페이지 가져오기 : 페이지 요청 방법
__뷰티풀수프를 사용하여 웹페이지 읽어 들이기
__LXML로 웹페이지 읽어들이기
____XPath 사례
__요약

12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더
__브라우저 기반 파싱
____셀레니움(Selenium)으로 하는 스크린 리딩
____Ghost.Py로 스크린 리딩하기
__웹 스파이더링
____Scrapy를 이용한 스파이더 구축
____Scrapy로 웹사이트 전체를 크롤링하기
__네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유
__변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유)
__몇 가지 주의 사항
__요약

13장 API
__API에서 제공하는 기능들
____REST API vs. 스트리밍 API
____요청 제한
____데이터 볼륨 계층
____API 키와 토큰
__REST API로부터 간단한 데이터 받아 오기
__트위터 REST API를 사용한 고급 데이터 수집
__트위터 스트리밍 API를 통한 고급 데이터 수집
__요약

14장 자동화와 규모 확장
__왜 자동화를 해야 할까?
__자동화 단계
__무엇이 잘못될 수 있는가?
__자동화 수행 위치
__자동화를 위한 특별한 도구들
____로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기
____데이터 처리를 위해 클라우드 사용하기
____병렬 프로세싱 사용하기
____분산 프로세싱 사용하기
__단순 자동화
____크론잡(CronJob)
____웹 인터페이스
____주피터 노트북(Jupyter Notebooks)
__대규모 자동화
____셀러리(Celery) : 큐 기반 자동화
____Ansible을 이용한 운영 자동화
__자동화 모니터링하기
____파이썬으로 로깅(logging)하기
____자동화된 메시지 보내기
____파일 업로드 및 기타 보고 방법
____로깅 및 모니터링 서비스
__완벽한 시스템은 없다
__요약

15장 결론
__데이터 랭글러의 의무
__데이터 랭글링을 넘어
____더 나은 데이터 분석가가 되기
____더 나은 개발자가 되기
____더 나은 시각적 스토리텔러가 되기
____더 나은 시스템 아키텍트가 되기
__이젠 무엇을 할까?

부록 A 프로그래밍 언어 비교
부록 B 초보자를 위한 파이썬 참고자료
부록 C 커맨드라인 배우기
부록 D 파이썬 고급 설정
부록 E 파이썬 주의사항
부록 F IPython 도움말
부록 G 아마존 웹 서비스 이용하기
상품 정보 고시
도서명 상품페이지 참고
저자 상품페이지 참고
출판사 상품페이지 참고
크기 상품페이지 참고
쪽수 상품페이지 참고
제품구성 상품페이지 참고
출간일 상품페이지 참고
목차 또는 책소개 상품페이지 참고
배송공지

사용후기

회원리뷰 총 0개

사용후기가 없습니다.

상품문의

등록된 상품문의

상품문의 총 0개

상품문의가 없습니다.

교환/반품

[반품/교환방법]
마이페이지> 주문배송조회 > 반품/교환신청 또는 고객센터 (070-4680-5689)로 문의 바랍니다.

[반품주소]
- 도로명 : (10882) 경기도 파주시 산남로 62-20 (산남동)
- 지번 : (10882) 경기도 파주시 산남동 305-21

[반품/교환가능 기간]
변심반품의 경우 수령 후 14일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

[반품/교환비용]
단순 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담

[반품/교환 불가 사유]
- 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
(단지 확인을 위한 포장 훼손은 제외)
- 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
- 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
- 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
- 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
- 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
* (1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시
‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)

[상품 품절]
공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.

[소비자 피해보상, 환불지연에 따른 배상]
- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됩니다.
- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함.

회원로그인

오늘 본 상품

  • 파이썬을 활용한 데이터 길들이기
    파이썬을 활용한 데
    29,700