R로 배우는 텍스트 마이닝 : 북윈도
리뷰 0 위시 120

R로 배우는 텍스트 마이닝 요약정보 및 구매

tidytext 라이브러리를 활용하는 방법

상품 선택옵션 0 개, 추가옵션 0 개

출판사 제이펍
저자 줄리아 실기 , 데이비드 로빈슨
ISBN 9791188621552 (1188621556)
정가 20,000원
판매가 18,000원(10% 할인)
배송비 무료배송
포인트 정책 설명문 닫기

00포인트

포인트 정책 설명문 출력

선택된 옵션

관심상품

상품 정보

사은품
상품 기본설명
tidytext 라이브러리를 활용하는 방법
상품 상세설명
텍스트 데이터를 정리하고 시각화하기 위한 새로운 방법! tidytext 라이브러리와 그 밖의 정돈 텍스트 분석 방법을 배운다!

요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다. tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로 개발되었는데, 이 책을 통해 여러분은 tidytext와 R에서 쓸 수 있는 그 밖의 정돈 도구들로 텍스트를 더욱 쉽고 효율적으로 분석하는 방법을 익힐 수 있다.





목차
CHAPTER 1 정돈 텍스트(깔끔한 텍스트) 형식 1
정돈 텍스트와 다른 데이터 구조 비교하기 2
unnest_tokens 함수 3
제인 오스틴의 작품 정돈하기 6
gutenbergr 패키지 10
단어 빈도 10
요약 16

CHAPTER 2 정돈 데이터를 사용한 정서분석 17
정서 데이터셋 18
내부 조인을 사용한 정서분석 21
세 가지 정서 사전 비교 25
가장 흔한 긍정 단어와 부정 단어 28
워드 클라우드 30
단순한 단어 이상인 단위 보기 32
요약 35

CHAPTER 3 단어와 문서의 빈도 분석: tf-idf 37
제인 오스틴의 소설 속 용어빈도 38
지프의 법칙 40
bind_tf_idf 함수 44
물리학 텍스트의 말뭉치 47
요약 53

CHAPTER 4 단어 간 관계: 엔그램과 상관 55
엔그램에 의한 토큰화 56
엔그램 개수 세기와 선별하기 57
바이그램 분석 59
정서분석 시 바이그램을 사용해 문맥 제공하기 62
ggraph를 사용해 바이그램 연결망 시각화화기 65
그 밖의 텍스트에 들어 있는 바이그램 시각화하기 71
widyr 패키지와 단어 쌍 세기 및 상관 73
각 단원 간의 개수 세기 및 상관 74
쌍 단위 상관 검사 76
요약 81

CHAPTER 5 비정돈 형식 간에 변환하기 83
문서-용어 행렬 정돈하기 84
DocumentTermMatrix 객체 정돈하기 85
dfm 객체 정돈하기 89
정돈 텍스트 데이터를 행렬에 캐스팅하기 92
Corpus 객체를 메타데이터로 정돈하기 94
사례 연구: 금융 관련 기사 마이닝 97
요약 104

CHAPTER 6 토픽 모델링 105
잠재 디리클레 할당 106
단어-토픽 확률 108
문서-토픽 확률 111
예제: 대도서관 강도 113
각 장의 LDA 115
문서당 분류 118
단어별 할당: augment 121
대체 LDA 구현 125
요약 127

CHAPTER 7 사례 연구: 트위터 아카이브 비교 129
데이터 및 트위터 분포 얻기 129
단어 빈도 131
단어 용도 비교 135
단어 사용 변화 137
즐겨찾기 및 리트윗 143
요약 148

CHAPTER 8 사례 연구: NASA 메타데이터 마이닝 149
NASA가 데이터를 조직하는 방식 150
데이터 랭글링과 정돈 151
일부 초기 단순 탐사 154
단어 동시 발생과 상관 156
설명 및 제목 단어 연결망 156
중요어 연결망 159
설명 필드에 대한 tf-idf 계산 163
설명 필드 단어의 tf-idf는 무엇인가? 163
설명 필드를 중요어에 연결하기 164
토픽 모델링 166
문서-용어 행렬에 캐스팅하기 166
토픽 모델링 준비 167
토픽 모델 해석 168
토픽 모델링을 중요어와 연결하기 175
요약 178

CHAPTER 9 사례 연구: 유즈넷 텍스트 분석 179
전처리 179
텍스트 전처리 181
뉴스그룹의 단어들 183
뉴스그룹 내에서 tf-idf 찾기 184
토픽 모델링 187
정서분석 190
단어별 정서분석 191
메시지별 정서분석 194
엔그램 분석 197
요약 199

참고문헌t201
찾아보기t203
책속으로
제인 오스틴(Jane Austen)이 탈고해 출판한 소설 여섯 개를 janeaustenr 패키지에서 가져온 다음 정돈 형식으로 변형해 보자. janeaustenr 패키지는 텍스트를 1줄당 1행(one-row-per-line) 형식으로 제공하는데, 이 맥락에서 의미하는 줄(line)이란 실제 도서의 원문에 맞춰 인쇄된 한 줄을 말한다. 이것을 사용해 정돈 작업에 착수하되 mutate()를 사용해 linenumber 수에 해당하는 만큼을 주석으로 처리함으로써 원래 줄 형식을 추적하는 데 사용하고, chapter(regex 사용)를 사용해 모든 장이 어디부터 나오는지를 알아낸다.
_6쪽이제 janeaustenr 패키지를 사용해 정돈 텍스트를 탐색해 보았으므로, 이번에는 gutenbergr 패키지를 소개하겠다. gutenbergr 패키지는 구텐베르크 프로젝트(Project Gutenberg) 모음집 중 공공 저작물(public domain works)에 해당하는 텍스트에 접근할 수 있게 한다. 이 패키지에는 도서를 내려받기 위한 도구(도움이 되지 않는 머리글/바닥글 정보는 제거)와 관심 있는 작품을 찾는 데 사용할 수 있는 구텐베르크 프로젝트 메타데이터의 전체 데이터셋이 포함되어 있다. 이 책에서는 구텐베르크 프로젝트에서 ID별로 하나 이상의 작품을 다운로드하는 gutenberg_download() 함수를 주로 사용하지만, 다른 함수를 사용해 메타데이터를 탐색하고 제목, 작성자, 언어 등과 짝을 이루는 구텐베르크 ID를 탐색할 수 있을 뿐만 아니라 저자에 대한 정보도 수집할 수 있다.
_10쪽유용한 작품을 단어 수준(word level)에서 토큰화할 수 있지만 때로는 다른 단위에 맞춰 텍스트를 살펴보는 편이 더 유용하기도 하고 필요하기도 하다. 예를 들어 전체 문장의 정서를 이해할 수 있게 하기 위해 일부 정서분석 알고리즘은 유니그램(즉, 단일 단어)을 넘어서려고 한다. 이러한 알고리즘들은 ‘I am not having a good day(일진이 안 좋아)’라는 말이 기쁨을 나타내는 문장이 아닌 슬픔을 나타내는 문장이라는 점을 이해하려고 시도한다. coreNLP, cleanNLP 및 sentimentr을 포함한 여러 R 패키지들은 그러한 정서분석 알고리즘의 예다. 이런 패키지들을 사용해서 단어 단위가 아닌 문장 단위로 정서를 분석하려면 우리는 텍스트를 문장 단위로 토큰화해야 하는데, 그런 경우에는 출력 열에 새 이름을 사용하는 게 적절하다.
_32쪽이번 장에서는 정돈 텍스트 접근법이 개별 단어를 분석하는 데 유용할 뿐만 아니라 단어 간의 관계 및 연결을 탐색하는 데도 유용하다는 것을 보여 줬다. 이러한 관계에는 엔그램이 포함될 수 있으며, 이는 어떤 단어가 다른 단어 뒤에 나타나는 경향이 있는지와, 서로 인접한 곳에 출현하는 단어 간의 동시 발생(co-occurrences), 즉 상관(correlations)을 볼 수 있게 해 준다. 이번 장에서는 이러한 두 종류의 관계를 연결망으로 시각화하기 위한 ggraph 패키지도 소개했다. 이러한 연결망 시각화는 관계를 탐구하는 데 쓰기에 유연한 도구이며, 이후 장들에 나오는 사례 연구에서 중요한 역할을 수행한다.
_81쪽일련의 문서를 특징짓는 단어 군집을 찾기 위한 토픽 모델링을 소개하고, tidy() 동사가 dplyr 및 ggplot2를 사용해 이러한 모델을 탐색하고 이해하는 방법을 보여 줬다. 이는 모델 탐색에 대한 정돈된 접근법의 장점 중 하나다. 다양한 출력 형식의 문제를 정돈 함수들이 처리하고, 표준 도구 모음을 사용해 모델 결과를 탐색할 수 있다는 장점 말이다. 우리는 특히 토픽 모델링을 통해 네 개의 개별 도서와 장을 구분하고 구별할 수 있다는 점을 보았고, 잘못 지정된 단어와 장을 찾아보면서 모델의 한계점을 탐구했다.
_127쪽
출판사 서평
텍스트 데이터를 정리하고 시각화하기 위한 새로운 방법!
tidytext 라이브러리와 그 밖의 정돈 텍스트 분석 방법을 배운다!요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다. tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로 개발되었는데, 이 책을 통해 여러분은 tidytext와 R에서 쓸 수 있는 그 밖의 정돈 도구들로 텍스트를 더욱 쉽고 효율적으로 분석하는 방법을 익힐 수 있다.특히, 저자들은 텍스트를 데이터 프레임처럼 다루는 방법을 전수함으로써 여러분이 텍스트의 특성들을 조작하고, 요약하고, 시각화할 능력을 갖추게 한다. 또한, 여러분은 자연어 처리(NLP) 방식을 통합해 효율성 있는 작업 흐름을 배울 수 있다. 더욱이 실용적인 예제 코드를 통해 데이터를 탐색하다 보면, 우리가 분석하는 문학, 뉴스, 소셜 미디어로부터 진정한 통찰력을 창출할 수 있을 것이다.이 책의 주요 내용
■ tidytext 형식을 NLP에 적용하는 방법을 학습한다.
■ 정서 분석 기법으로 텍스트에 담긴 감성적 내용을 학습한다.
■ 빈도를 측정해 문서 내에서 가장 중요한 용어들을 식별한다.
■ ggraph 패키지와 widyr 패키지를 사용해 단어 사이의 관계와 연결을 찾아낸다.
■ 정돈된(깔끔한) 텍스트 형식과 정돈되지 않은 텍스트 형식을 서로 바꿔본다.
■ 토픽 모델링으로 문서 모음집을 자연스럽게 분류한다.
■ 트위터 아카이브를 비교하거나, 미항공우주국(NASA)이 제공하는 메타데이터를 파 보거나,
수천 개나 되는 유즈넷 메시지를 분석해 보는 식으로 사례 연구를 진행한다.
상품 정보 고시
도서명 R로 배우는 텍스트 마이닝
저자 줄리아 실기 , 데이비드 로빈슨
출판사 제이펍
ISBN 9791188621552 (1188621556)
쪽수 232
출간일 2019-06-04
사이즈 188 * 245 * 18 mm /566g
목차 또는 책소개 CHAPTER 1 정돈 텍스트(깔끔한 텍스트) 형식 1
정돈 텍스트와 다른 데이터 구조 비교하기 2
unnest_tokens 함수 3
제인 오스틴의 작품 정돈하기 6
gutenbergr 패키지 10
단어 빈도 10
요약 16

CHAPTER 2 정돈 데이터를 사용한 정서분석 17
정서 데이터셋 18
내부 조인을 사용한 정서분석 21
세 가지 정서 사전 비교 25
가장 흔한 긍정 단어와 부정 단어 28
워드 클라우드 30
단순한 단어 이상인 단위 보기 32
요약 35

CHAPTER 3 단어와 문서의 빈도 분석: tf-idf 37
제인 오스틴의 소설 속 용어빈도 38
지프의 법칙 40
bind_tf_idf 함수 44
물리학 텍스트의 말뭉치 47
요약 53

CHAPTER 4 단어 간 관계: 엔그램과 상관 55
엔그램에 의한 토큰화 56
엔그램 개수 세기와 선별하기 57
바이그램 분석 59
정서분석 시 바이그램을 사용해 문맥 제공하기 62
ggraph를 사용해 바이그램 연결망 시각화화기 65
그 밖의 텍스트에 들어 있는 바이그램 시각화하기 71
widyr 패키지와 단어 쌍 세기 및 상관 73
각 단원 간의 개수 세기 및 상관 74
쌍 단위 상관 검사 76
요약 81

CHAPTER 5 비정돈 형식 간에 변환하기 83
문서-용어 행렬 정돈하기 84
DocumentTermMatrix 객체 정돈하기 85
dfm 객체 정돈하기 89
정돈 텍스트 데이터를 행렬에 캐스팅하기 92
Corpus 객체를 메타데이터로 정돈하기 94
사례 연구: 금융 관련 기사 마이닝 97
요약 104

CHAPTER 6 토픽 모델링 105
잠재 디리클레 할당 106
단어-토픽 확률 108
문서-토픽 확률 111
예제: 대도서관 강도 113
각 장의 LDA 115
문서당 분류 118
단어별 할당: augment 121
대체 LDA 구현 125
요약 127

CHAPTER 7 사례 연구: 트위터 아카이브 비교 129
데이터 및 트위터 분포 얻기 129
단어 빈도 131
단어 용도 비교 135
단어 사용 변화 137
즐겨찾기 및 리트윗 143
요약 148

CHAPTER 8 사례 연구: NASA 메타데이터 마이닝 149
NASA가 데이터를 조직하는 방식 150
데이터 랭글링과 정돈 151
일부 초기 단순 탐사 154
단어 동시 발생과 상관 156
설명 및 제목 단어 연결망 156
중요어 연결망 159
설명 필드에 대한 tf-idf 계산 163
설명 필드 단어의 tf-idf는 무엇인가? 163
설명 필드를 중요어에 연결하기 164
토픽 모델링 166
문서-용어 행렬에 캐스팅하기 166
토픽 모델링 준비 167
토픽 모델 해석 168
토픽 모델링을 중요어와 연결하기 175
요약 178

CHAPTER 9 사례 연구: 유즈넷 텍스트 분석 179
전처리 179
텍스트 전처리 181
뉴스그룹의 단어들 183
뉴스그룹 내에서 tf-idf 찾기 184
토픽 모델링 187
정서분석 190
단어별 정서분석 191
메시지별 정서분석 194
엔그램 분석 197
요약 199

참고문헌t201
찾아보기t203
배송공지

사용후기

회원리뷰 총 0개

사용후기가 없습니다.

상품문의

등록된 상품문의

상품문의 총 0개

상품문의가 없습니다.

교환/반품

[반품/교환방법]
마이페이지> 주문배송조회 > 반품/교환신청 또는 고객센터 (070-4680-5689)로 문의 바랍니다.

[반품주소]
- 도로명 : (10882) 경기도 파주시 산남로 62-20 (산남동)
- 지번 : (10882) 경기도 파주시 산남동 305-21

[반품/교환가능 기간]
변심반품의 경우 수령 후 14일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

[반품/교환비용]
단순 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담

[반품/교환 불가 사유]
- 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
(단지 확인을 위한 포장 훼손은 제외)
- 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
- 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
- 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
- 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
- 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
* (1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시
‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)

[상품 품절]
공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.

[소비자 피해보상, 환불지연에 따른 배상]
- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됩니다.
- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함.

회원로그인

오늘 본 상품

  • R로 배우는 텍스트 마이닝
    R로 배우는 텍스트
    18,000
  • 빅 너드 랜치의 코틀린 프로그래밍
    빅 너드 랜치의 코
    27,000
  • 기적의 1분 동안 만들기 달력
    기적의 1분 동안
    11,250
  • 머신러닝 도감
    머신러닝 도감
    23,400
  • 고구려. 3: 낙랑정벌
    고구려. 3: 낙랑
    14,220
  • 변신 시골의사 - 세계문학전집 4
    변신 시골의사 -
    7,650
  • 스마트폰 메모
    스마트폰 메모
    12,600
  • [출간예정] 예제로 배우는 스프링 부트 입문
    [출간예정] 예제로
    27,000
  • 설민석 쌤과 함께 부르는 한국을 빛낸 100명의 위인들
    설민석 쌤과 함께
    14,400
  • 요가의 과학
    요가의 과학
    17,910
  • 브레이킹, 당신이라는 습관을 깨라
    브레이킹, 당신이라
    20,700
  • 가치관으로 경영하라
    가치관으로 경영하라
    15,300
  • 과자 중독에서 벗어나는 방법
    과자 중독에서 벗어
    13,500
  • 모두의 스크래치 : 블록 쌓기로 배우는 프로그래밍 기초 개념
    모두의 스크래치 :
    18,000
  • 4차원 건강비결
    4차원 건강비결
    12,600
  • 결국 이기는 사람들의 비밀
    결국 이기는 사람들
    13,500
  • 파이썬 네트워크 자동화
    파이썬 네트워크 자
    40,500
  • 1년만 닥치고 영어
    1년만 닥치고 영어
    12,600