상품 정보
상품 기본설명
데이터 전처리 효율화 전략
상품 상세설명
미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매번 거쳐야 하는 이 수작업을 더 효율적으로, 더 똑똑하게 할 수는 없을까? 이에 대한 답을 『파이썬을 활용한 데이터 길들이기』에는 데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다. 이 책은 일반적인 데이터 분석 프로젝트의 흐름을 따라 단계별로 구성되어 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 예전에는 너무 지저분하거나 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있을 것이다. 매번 되풀이되는 데이터 분석 초기 단계를 좀 더 효율적으로 작업하고 싶었던 독자라면 이 책을 통해 데이터 분석 능력을 한 단계 업그레이드할 수 있을 것이다.
목차
1장 파이썬 소개
__왜 파이썬인가?
__파이썬 시작하기
____파이썬 버전 선택하기
____컴퓨터에 파이썬 설치하기
____파이썬 실행 테스트하기
____pip 설치하기
____코드 에디터 설치하기
____선택사항: IPython 설치하기
__요약
2장 파이썬 기초
__기본적인 데이터 유형
____문자열
____정수와 실수
__데이터 컨테이너
____변수
____리스트
____딕셔너리
__각 데이터 유형으로 무엇을 할 수 있나?
____문자열 메서드: 문자열이 할 수 있는 것들
____수치형(numerical) 메서드: 숫자가 할 수 있는 것들
____리스트 메서드: 리스트가 할 수 있는 것들
____딕셔너리 메서드: 딕셔너리가 할 수 있는 것들
__유용한 도구: type, dir 그리고 help
____type
____dir
____help
__모두 종합하기
__이 모든 것이 무엇을 의미하는가?
__요약
3장 기계가 읽을 수 있는 데이터
__CSV 데이터
____CSV 데이터 불러오기
____파일에 코드 저장하기; 명령 프롬프트에서 실행하기
__JSON 데이터
____JSON 데이터 불러오기
__XML 데이터
____XML 데이터 불러오기
__요약
4장 엑셀 파일 다루기
__파이썬 패키지 설치하기
__엑셀 파일 파싱하기
__파싱 시작하기
__요약
5장 파이썬에서의 PDF와 문제 해결
__PDF 사용을 자제하라!
__PDF 파싱에 대한 프로그램적인 접근
____slate를 사용하여 열고 읽기
____PDF를 텍스트로 변환하기
__pdfminer를 사용해 PDF 파싱하기
__문제 해결 방법 배우기
____예제: 표 추출 사용하기, 다른 라이브러리 사용하기
____예제: 수동으로 데이터 클리닝하기
____예제: 다른 도구 사용하기
__흔치 않은 파일 유형
__요약
6장 데이터 수집 및 저장하기
__모든 데이터가 평등하게 창조되지는 않았다
__사실 확인하기
__가독성, 깔끔함 그리고 데이터의 지속성
__데이터를 어디에서 구할 수 있을까
____전화 걸기
____미 정부 데이터
____전 세계 정부 및 도시 오픈 데이터
____조직 및 비정부조직(NGO) 데이터
____교육 및 대학 데이터
____의료 및 과학 데이터
____크라우드소싱 데이터 및 API
__사례 연구: 데이터 예시 조사
____에볼라 사태
____기차 안전
____축구 선수 연봉
____아동 노동
__데이터 저장하기: 언제, 왜, 어떻게?
__데이터베이스: 간단한 소개
____관계형 데이터베이스: MySQL과 PostgreSQL
____비관계형 데이터베이스: NoSQL
____파이썬에서 로컬 데이터베이스 설정하기
__언제 간단한 파일을 사용하나
____클라우드 저장과 파이썬
____로컬 저장과 파이썬
__대안적인 데이터 저장 방법
__요약
7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화
__왜 데이터를 클리닝하는가?
__데이터 클리닝 기초
____데이터 클리닝을 위한 값 찾기
____데이터 서식화하기
____이상치와 불량 데이터 찾기
____중복 기록 찾기
____퍼지 매칭
____정규식 매칭
____중복 기록 처리하기
__요약
8장 데이터 클리닝하기: 표준화와 스크립트
__데이터 정규화 및 표준화
__데이터 저장하기
__프로젝트에 적절한 데이터 클리닝 방식 결정하기
__클리닝 스크립트 만들기
__새 데이터 테스트하기
__요약
9장 데이터 탐색과 분석
__데이터 탐색하기
____데이터 불러오기
____표 함수 탐색하기
____다수의 데이터세트 결합하기
____상관관계 판별하기
____이상치 판별하기
____그룹화하기
____추가 탐색하기
__데이터 분석하기
____데이터를 분리하고 집중하기
____데이터가 무엇을 말하고 있나?
____결론 도출하기
____결론 문서화 하기
__요약
10장 데이터 표현하기
__스토리텔링의 함정을 방지하기
____스토리를 어떻게 전달할 것인가?
____청중을 알라
__데이터 시각화하기
____차트
____시간 관련 데이터
____지도
____인터랙티브
____단어
____이미지, 비디오, 일러스트
__프레젠테이션 도구
__데이터 게재하기
____가능한 사이트 사용하기
____오픈소스 플랫폼: 새로운 사이트 만들기
____Jupyter(기존 IPython Notebooks)
__요약
11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기
__스크래핑 대상과 방법
__웹 페이지 분석하기
____요소 검사 : 마크업 구조
____Network/Timeline 탭 : 페이지 로드 현황보기
____콘솔 탭 : 자바스크립트와 상호작용하기
____페이지 심층분석
__페이지 가져오기 : 페이지 요청 방법
__뷰티풀수프를 사용하여 웹페이지 읽어 들이기
__LXML로 웹페이지 읽어들이기
____XPath 사례
__요약
12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더
__브라우저 기반 파싱
____셀레니움(Selenium)으로 하는 스크린 리딩
____Ghost.Py로 스크린 리딩하기
__웹 스파이더링
____Scrapy를 이용한 스파이더 구축
____Scrapy로 웹사이트 전체를 크롤링하기
__네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유
__변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유)
__몇 가지 주의 사항
__요약
13장 API
__API에서 제공하는 기능들
____REST API vs. 스트리밍 API
____요청 제한
____데이터 볼륨 계층
____API 키와 토큰
__REST API로부터 간단한 데이터 받아 오기
__트위터 REST API를 사용한 고급 데이터 수집
__트위터 스트리밍 API를 통한 고급 데이터 수집
__요약
14장 자동화와 규모 확장
__왜 자동화를 해야 할까?
__자동화 단계
__무엇이 잘못될 수 있는가?
__자동화 수행 위치
__자동화를 위한 특별한 도구들
____로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기
____데이터 처리를 위해 클라우드 사용하기
____병렬 프로세싱 사용하기
____분산 프로세싱 사용하기
__단순 자동화
____크론잡(CronJob)
____웹 인터페이스
____주피터 노트북(Jupyter Notebooks)
__대규모 자동화
____셀러리(Celery) : 큐 기반 자동화
____Ansible을 이용한 운영 자동화
__자동화 모니터링하기
____파이썬으로 로깅(logging)하기
____자동화된 메시지 보내기
____파일 업로드 및 기타 보고 방법
____로깅 및 모니터링 서비스
__완벽한 시스템은 없다
__요약
15장 결론
__데이터 랭글러의 의무
__데이터 랭글링을 넘어
____더 나은 데이터 분석가가 되기
____더 나은 개발자가 되기
____더 나은 시각적 스토리텔러가 되기
____더 나은 시스템 아키텍트가 되기
__이젠 무엇을 할까?
부록 A 프로그래밍 언어 비교
부록 B 초보자를 위한 파이썬 참고자료
부록 C 커맨드라인 배우기
부록 D 파이썬 고급 설정
부록 E 파이썬 주의사항
부록 F IPython 도움말
부록 G 아마존 웹 서비스 이용하기
상품 정보 고시
도서명 |
파이썬을 활용한 데이터 길들이기 |
저자 |
재클린 카질 , 캐서린 자멀 |
출판사 |
인사이트 |
ISBN |
9788966264063 (8966264069) |
쪽수 |
536 |
출간일 |
2017-08-21 |
사이즈 |
189 * 241 * 27 mm /1029g |
목차 또는 책소개 |
1장 파이썬 소개 __왜 파이썬인가? __파이썬 시작하기 ____파이썬 버전 선택하기 ____컴퓨터에 파이썬 설치하기 ____파이썬 실행 테스트하기 ____pip 설치하기 ____코드 에디터 설치하기 ____선택사항: IPython 설치하기 __요약
2장 파이썬 기초 __기본적인 데이터 유형 ____문자열 ____정수와 실수 __데이터 컨테이너 ____변수 ____리스트 ____딕셔너리 __각 데이터 유형으로 무엇을 할 수 있나? ____문자열 메서드: 문자열이 할 수 있는 것들 ____수치형(numerical) 메서드: 숫자가 할 수 있는 것들 ____리스트 메서드: 리스트가 할 수 있는 것들 ____딕셔너리 메서드: 딕셔너리가 할 수 있는 것들 __유용한 도구: type, dir 그리고 help ____type ____dir ____help __모두 종합하기 __이 모든 것이 무엇을 의미하는가? __요약
3장 기계가 읽을 수 있는 데이터 __CSV 데이터 ____CSV 데이터 불러오기 ____파일에 코드 저장하기; 명령 프롬프트에서 실행하기 __JSON 데이터 ____JSON 데이터 불러오기 __XML 데이터 ____XML 데이터 불러오기 __요약
4장 엑셀 파일 다루기 __파이썬 패키지 설치하기 __엑셀 파일 파싱하기 __파싱 시작하기 __요약
5장 파이썬에서의 PDF와 문제 해결 __PDF 사용을 자제하라! __PDF 파싱에 대한 프로그램적인 접근 ____slate를 사용하여 열고 읽기 ____PDF를 텍스트로 변환하기 __pdfminer를 사용해 PDF 파싱하기 __문제 해결 방법 배우기 ____예제: 표 추출 사용하기, 다른 라이브러리 사용하기 ____예제: 수동으로 데이터 클리닝하기 ____예제: 다른 도구 사용하기 __흔치 않은 파일 유형 __요약
6장 데이터 수집 및 저장하기 __모든 데이터가 평등하게 창조되지는 않았다 __사실 확인하기 __가독성, 깔끔함 그리고 데이터의 지속성 __데이터를 어디에서 구할 수 있을까 ____전화 걸기 ____미 정부 데이터 ____전 세계 정부 및 도시 오픈 데이터 ____조직 및 비정부조직(NGO) 데이터 ____교육 및 대학 데이터 ____의료 및 과학 데이터 ____크라우드소싱 데이터 및 API __사례 연구: 데이터 예시 조사 ____에볼라 사태 ____기차 안전 ____축구 선수 연봉 ____아동 노동 __데이터 저장하기: 언제, 왜, 어떻게? __데이터베이스: 간단한 소개 ____관계형 데이터베이스: MySQL과 PostgreSQL ____비관계형 데이터베이스: NoSQL ____파이썬에서 로컬 데이터베이스 설정하기 __언제 간단한 파일을 사용하나 ____클라우드 저장과 파이썬 ____로컬 저장과 파이썬 __대안적인 데이터 저장 방법 __요약
7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화 __왜 데이터를 클리닝하는가? __데이터 클리닝 기초 ____데이터 클리닝을 위한 값 찾기 ____데이터 서식화하기 ____이상치와 불량 데이터 찾기 ____중복 기록 찾기 ____퍼지 매칭 ____정규식 매칭 ____중복 기록 처리하기 __요약
8장 데이터 클리닝하기: 표준화와 스크립트 __데이터 정규화 및 표준화 __데이터 저장하기 __프로젝트에 적절한 데이터 클리닝 방식 결정하기 __클리닝 스크립트 만들기 __새 데이터 테스트하기 __요약
9장 데이터 탐색과 분석 __데이터 탐색하기 ____데이터 불러오기 ____표 함수 탐색하기 ____다수의 데이터세트 결합하기 ____상관관계 판별하기 ____이상치 판별하기 ____그룹화하기 ____추가 탐색하기 __데이터 분석하기 ____데이터를 분리하고 집중하기 ____데이터가 무엇을 말하고 있나? ____결론 도출하기 ____결론 문서화 하기 __요약
10장 데이터 표현하기 __스토리텔링의 함정을 방지하기 ____스토리를 어떻게 전달할 것인가? ____청중을 알라 __데이터 시각화하기 ____차트 ____시간 관련 데이터 ____지도 ____인터랙티브 ____단어 ____이미지, 비디오, 일러스트 __프레젠테이션 도구 __데이터 게재하기 ____가능한 사이트 사용하기 ____오픈소스 플랫폼: 새로운 사이트 만들기 ____Jupyter(기존 IPython Notebooks) __요약
11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기 __스크래핑 대상과 방법 __웹 페이지 분석하기 ____요소 검사 : 마크업 구조 ____Network/Timeline 탭 : 페이지 로드 현황보기 ____콘솔 탭 : 자바스크립트와 상호작용하기 ____페이지 심층분석 __페이지 가져오기 : 페이지 요청 방법 __뷰티풀수프를 사용하여 웹페이지 읽어 들이기 __LXML로 웹페이지 읽어들이기 ____XPath 사례 __요약
12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더 __브라우저 기반 파싱 ____셀레니움(Selenium)으로 하는 스크린 리딩 ____Ghost.Py로 스크린 리딩하기 __웹 스파이더링 ____Scrapy를 이용한 스파이더 구축 ____Scrapy로 웹사이트 전체를 크롤링하기 __네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유 __변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유) __몇 가지 주의 사항 __요약
13장 API __API에서 제공하는 기능들 ____REST API vs. 스트리밍 API ____요청 제한 ____데이터 볼륨 계층 ____API 키와 토큰 __REST API로부터 간단한 데이터 받아 오기 __트위터 REST API를 사용한 고급 데이터 수집 __트위터 스트리밍 API를 통한 고급 데이터 수집 __요약
14장 자동화와 규모 확장 __왜 자동화를 해야 할까? __자동화 단계 __무엇이 잘못될 수 있는가? __자동화 수행 위치 __자동화를 위한 특별한 도구들 ____로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기 ____데이터 처리를 위해 클라우드 사용하기 ____병렬 프로세싱 사용하기 ____분산 프로세싱 사용하기 __단순 자동화 ____크론잡(CronJob) ____웹 인터페이스 ____주피터 노트북(Jupyter Notebooks) __대규모 자동화 ____셀러리(Celery) : 큐 기반 자동화 ____Ansible을 이용한 운영 자동화 __자동화 모니터링하기 ____파이썬으로 로깅(logging)하기 ____자동화된 메시지 보내기 ____파일 업로드 및 기타 보고 방법 ____로깅 및 모니터링 서비스 __완벽한 시스템은 없다 __요약
15장 결론 __데이터 랭글러의 의무 __데이터 랭글링을 넘어 ____더 나은 데이터 분석가가 되기 ____더 나은 개발자가 되기 ____더 나은 시각적 스토리텔러가 되기 ____더 나은 시스템 아키텍트가 되기 __이젠 무엇을 할까?
부록 A 프로그래밍 언어 비교 부록 B 초보자를 위한 파이썬 참고자료 부록 C 커맨드라인 배우기 부록 D 파이썬 고급 설정 부록 E 파이썬 주의사항 부록 F IPython 도움말 부록 G 아마존 웹 서비스 이용하기 |
상품 정보 고시
도서명 |
상품페이지 참고 |
저자 |
상품페이지 참고 |
출판사 |
상품페이지 참고 |
크기 |
상품페이지 참고 |
쪽수 |
상품페이지 참고 |
제품구성 |
상품페이지 참고 |
출간일 |
상품페이지 참고 |
목차 또는 책소개 |
상품페이지 참고 |
교환/반품
[반품/교환방법]
마이페이지> 주문배송조회 > 반품/교환신청 또는 고객센터 (070-4680-5689)로 문의 바랍니다.
[반품주소]
- 도로명 : (10882) 경기도 파주시 산남로 62-20 (산남동)
- 지번 : (10882) 경기도 파주시 산남동 305-21
[반품/교환가능 기간]
변심반품의 경우 수령 후 14일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
[반품/교환비용]
단순 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
[반품/교환 불가 사유]
- 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
(단지 확인을 위한 포장 훼손은 제외)
- 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
- 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
- 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
- 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
- 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
* (1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시
‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
[상품 품절]
공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.
[소비자 피해보상, 환불지연에 따른 배상]
- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됩니다.
- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함.