데이터 엔지니어링 로그프레소를 만나다 : 북윈도
리뷰 0 위시 120

데이터 엔지니어링 로그프레소를 만나다 요약정보 및 구매

빅데이터에서 DataOps, Data Lake까지

상품 선택옵션 0 개, 추가옵션 0 개

출판사 프리버드
저자 김한도
ISBN 9791197301001 (1197301003)
정가 19,500원
판매가 17,550원(10% 할인)
배송비 무료배송
포인트 정책 설명문 닫기

00포인트

포인트 정책 설명문 출력

선택된 옵션

관심상품

상품 정보

사은품
상품 기본설명
빅데이터에서 DataOps, Data Lake까지
상품 상세설명
빅데이터, 데이터 사이언스를 넘어 이제는 ‘데이터 엔지니어링’이다 새로운 데이터 처리 방법에 대한 지식과 경험을 통해 인사이트를 얻어라

?? ‘데이터 엔지니어링’은 새로운 개념이 아니다. 데이터 관리, ETL(추출extract?, 변환transform?, 적재load), 빅데이터, 데이터 사이언스 등 지금까지 널리 사용된 데이터 처리 기법들을 통합한 공학으로 이해해야 한다. 특히 ‘데이터 레이크(data lake)’라는 트렌드와 맞물려 데이터를 활용하는 데 꼭 필요한 기술로 발전하고 있다. 이 책은 데이터 엔지니어링에 대한 설명과 더불어 기존의 데이터 처리 기술들이 어떻게 데이터 엔지니어링으로 발전하고 있는지 보여준다. ? 저자는 다년간 빅데이터를 취급한 경험을 토대로 데이터 엔지니어링에 가장 효과적인 도구가 갖추어야할 기능을 잘 짚어주고 있다. 특히 솔루션 자체를 목적으로 삼아 설명하기보다, 데이터 엔지니어가 가장 쉽고 안정적으로 데이터를 다룰 수 있는 도구를 소개하고 있다. 도구는 도구일 뿐이다. 쌓여 있는 데이터를 데이터 레이크로 빠르고 쉽게 전환해주는 도구가 가장 좋은 것이다. 저자는 데이터 사이언스 관점에서 이에 대한 경험을 들려주고 있다. ? 그리고 데이터 엔지니어링이 새롭지만 낯설지 않은 트렌드임을 강조하고 있다. 그것은 익숙한 것이 새롭게 다가온다는 의미일 것이다. 데이터 처리는 이전부터 계속해왔던 작업들이다. 데이터 엔지니어링은 익숙한 작업을 다른 관점에서 수행하는 것임이 예상 가능하다. 그러나 서로 다른 목적과 환경에서 데이터 엔지니어링에 쓸 수 있는 방법이나 도구가 하나만 있지는 않다. 이 책은 데이터 엔지니어링에 대한 원론적인 접근뿐 아니라 실제 적용까지 넓은 범위를 다루고 있다. 저자는 독자로 하여금 자신이 펼쳐 놓은 경험과 지식을 따라오면서 인사이트를 얻도록 유도한다. 우리는 이 책을 통해 데이터 엔지니어링에 대한 정보만 습득하는 것이 아니라, 데이터 엔지니어링에 대한 훌륭한 이해와 통찰을 얻게 될 것이다. [개요] 이 책은 빅데이터를 도입하려고 준비하고 있거나, 데이터 레이크를 통해 한 단계 도약하려는 데이터 관련 직종의 담당자, 컨설턴트, 그리고 데이터베이스를 다루는 엔지니어들에게 유용한 정보를 담고 있다. 이 책의 장점은 데이터 엔지니어링이라는 새로운 흐름에 대한 종합적인 정보를 제시하여, 현재 처한 환경을 파악하고 앞으로 구상하려는 미래를 준비하는데 꼭 필요한 조언을 찾을 수 있다.

목차
제 1부 데이터 엔지니어링

1. 왜 데이터 엔지니어링인가?

2. 데이터를 바라보는 새로운 시각
2.1 데이터 웨어하우스에서 데이터 레이크로

3. 데이터 엔지니어링
3.1 빅데이터 환경에서 데이터 엔지니어의 역할
3.2 데이터 엔지니어와 DataOPS
3.3 데이터 사이언티스트와 데이터 엔지니어
3.4 데이터 엔지니어링의 기능

4. 데이터 엔지니어링 솔루션
4.1 데이터 엔지니어링 솔루션의 구성
4.2 데이터 수집 인터페이스
4.3 데이터 처리 프레임워크
4.4 데이터 파이프라인
4.5 데이터 저장소
4.6 데이터 외부 연동 인터페이스
4.7 시스템 관리, 구성 플랫폼

제 2부 데이터 엔지니어링, 로그프레소를 만나다

5. 파이프라인의 시작과 끝
5.1 실시간 수집 인터페이스
5.2 외부 전송 인터페이스

6. 데이터 파이프라인과 쿼리
6.1 실시간을 품은 유니버설 쿼리
6.2 실시간 스트림 데이터 파이프라인
6.3 배치 처리 기반의 데이터 파이프라인
6.4 ETL 기반의 데이터 파이프라인
6.5 데이터 분석과 파이프라인

7. 데이터 저장소
7.1 데이터 엔지니어의 숨은 무기
7.2 검색 작업
7.3 집계 작업
7.4 데이터 샌드박스

8. 데이터 엔지니어링의 툴킷
8.1 실시간 대시보드
8.2 외부 시스템 확장
8.3 클라우드에서의 적용
책속으로
데이터 엔지니어링은 어떤 데이터를 어떻게, 어디로 움직이고, 어떤 역할을 하도록 정의하는 등의 설계 및 작업에 관련된 대부분의 행위들을 의미한다. 전통적으로 ETL 엔지니어들이 이러한 역할들을 수행하기도 했으나 데이터 엔지니어링은 빅데이터 기반에서 데이터 사이언티스트는 물론 데이터를 필요로 하는 사람들 모두와 협업을 진행하게 된다. 이런 차원에서 데이터 엔지니어링은 빅데이터로 촉발한 트렌드가 성숙하면서 자연 발생적으로 생겨나게 된 영역이라고 할 수 있다. - p.13DataOps는 DevOps에 대응하여 나온 용어로 개발자가 개발과 운영을 상호 협의를 통해 빠르게 적용하는 것처럼 데이터 엔지니어가 데이터의 모든 처리, 적응 작업을 협업을 통해 빠르게 진행하자는 정도로 이해하면 될 것이다. 여기서 눈 여겨 볼 지점은 두 가지로 하나는 데이터 처리는 운영과 개발이 유리될 수 없음을 의미하는 것과 또 다른 하나는 이 과정은 계속해서 반복한다는 의미가 있다. - p.38데이터 파이프라인은 데이터 수집에서 데이터의 최종 목적지까지 데이터를 이동, 변형하는 전 단계를 의미한다. 데이터 파이프라인은 그 필요에 따라 실시간 스트리밍 방식의 처리, 스케줄링 처리, ETL 방식의 처리가 있는데 데이터 엔지니어는 데이터의 활용 목적에 따라 적절한 방식으로 데이터 파이프라인을 구성해야 한다. - p.48데이터 엔지니어가 명심해야 할 것은 데이터 엔지니어가 요구사항을 통제할 수 없다는 점이다. 그렇기 때문에 데이터 엔지니어링 솔루션은 다양한 요구 사항을 수용할 수 있도록 기능이 제공되어야 한다. 데이터 엔지니어는 데이터의 처리를 담당한다. 데이터 엔지니어가 데이터를 처리하는 것을 수작업으로 할 수 있는 것은 아니기 때문에 도구가 반드시 필요하다. 또한 데이터 엔지니어는 데이터 처리에 있어 이 도구가 제공하는 기능의 범위를 넘어서는 것이 매우 어렵기 때문에 데이터 엔지니어링 솔루션은 데이터 엔지니어에게 있어 도구 이상의 것으로 생각해야 한다. - p.67데이터 엔지니어링 솔루션은 심장과 혈관의 기능처럼 회사 또는 기관 전체의 데이터를 필요한 곳에 전달해 주는 역할을 수행하는 데이터 파이프라인이라 말할 수 있다. 데이터 파이프라인의 시작은 원천 데이터가 있는 곳이고 파이프라인의 종착지는 외부 시스템이 된다. 기술적으로 보면 입력을 담당하는 인터페이스와 출력을 담당하는 인터페이스라고 할 수 있는데, 로그프레소에서는 원천 데이터의 수집을 담당하는 수집기가 파이프라인의 시작점이 되고 쿼리를 통해 외부 전송을 수행하게 되어 파이프라인의 끝을 담당한다. - p.94
데이터 엔지니어링 솔루션을 통해 데이터가 수집되어 실시간으로 처리가 되는 단계에서 는 유입되는 건마다 처리할 내용을 기술하기 시작하지만 실시간에서도 일부 데이터들이 집합처리(aggregation)가 적용될수록 점차 데이터셋 형태의 처리로 이전하게 된다. 데이터가 저장소에 저장된 이후에는 데이터베이스와 동일한 형태의 데이터 처리가 일어나게 되어 전적으로 데이터 셋 형태의 데이터 처리가 이루어 져야 한다. 데이터를 외부로 전송하게 되는 것도 외부 인터페이스에 따라 데이터 셋 단위로 적용을 하거나 데이터 건들을 순차적으로 흘려서 처리하게 되어 이 때는 다시 프로그래머의 시각이 필요해질 수도 있다. - p.140데이터 엔지니어링 솔루션은 외부의 데이터를 가져와 전달하는 역할만 수행하는 것이 아니다. 오히려 그 작업보다 외부에서 유입된 데이터를 의도에 적합하게 가공하여 최적의 형태로 만들어 최적의 시점에 저장하거나 외부 시스템에 전달하는 데이터 흐름을 관리하는데 있다. 지금까지 데이터 엔지니어들은 스케줄링이나 ETL과 같이 데이터를 모아서 지정한 시간이나 이벤트에 맞춰 간헐적으로 데이터를 전달하는 방법을 사용하였지만 데이터 엔지니어링 솔루션은 실시간의 요건을 충족하기 위해 실시간 데이터 파이프라인을 통해 라이브한 데이터 흐름을 만들어내고 있다. - p.173이 과정을 약간 추상화해보면 데이터가 발생하면 데이터 엔지니어링 솔루션으로 유입되면서 실시간 분석이 수행되고 이 데이터는 다시 새로운 모델의 학습 또는 검증을 위해 사용된다. 모델은 분석가에 의해 만들어지지만 실제 업무에서 적용하기 위해 데이터 엔지니어링 솔루션의 파이프라인의 일부로 편입되고 이 모델은 유효성을 유지하기 위해 끊임없이 갱신된다. 즉 모델과 데이터는 서로 피드백을 주고받으며 모델 작성과 현장에 적용된다. 이것이 데이터 사이언스와 데이터 엔지니어링과의 상호작용의 전형적인 예이며 데이터 사이언스가 데이터 엔지니어링을 소환하게 된 이유이기도 하다. - p.204결국 데이터 엔지니어링 솔루션은 클라우드와 온 프레미스(On-Premise) 환경 사이를 데이터 이전을 책임지는 매개 솔루션이 되어야 하기 때문에 안정성과 기능, 성능은 물론이고 클라우드 외부의 데이터를 전송하는 과정에서의 보안까지 고려사항에 포함된다. 하지만 로그프레소는 에이전트나 다른 로그프레소 서버끼리 데이터를 전송하게 된다면 종단간 데이터는 압축 및 암호화가 적용되기 때문에 이러한 문제를 따로 해결할 필요는 없게 된다. - p.244데이터 가상화가 데이터 엔지니어링의 일종이라고 할 수 있는 것은 일단 데이터 통합 자체가 데이터를 이동시키는 것이고 사용자로 하여금 일관된 인터페이스로 접근하도록 추상화하는 것은 데이터 레이크나 데이터 저수지의 목적과도 일맥상통하기 때문입니다. - p.250
출판사 서평
상품에서 흐르는 물로... 데이터에 대한 시각이 달라지고 있다
?
데이터 웨어하우스(data warehouse)는 데이터를 데이터베이스 같은 창고에 있는 상품으로 바라보았다. 데이터 레이크는 단순한 버즈워드(buzz word)가 아니라 데이터를 바라보는 관점의 변화를 내포하고 있다. 데이터는 이제 누군가 생산해 내는 상품이 아니라 흐르는 물과 같은 것으로 바라보기 시작했다. 이는 데이터는 누군가 의도적으로 만들어 내는 것이 아니라 존재하는 데이터를 가져다 사용하는 것이 중요하며, 가공하지 않고도 의미가 있다는 것을 의미한다. 또한 데이터는 공정에 따라 제어된 생산 과정을 거치는 것이 아니라 흐름이 존재하고, 가공 과정은 이 흐름을 방해하지 않으면서 따라가게 된다.
?
동영상 데이터에 흔히 스트리밍(streaming)이라는 단어를 붙여서 사용한다. 이는 동영상 정보를 가지고 있는 패킷이 연속적으로 소비되기 때문에 끊임없이 유입되어 소비하는 현상을 표현한 것이다. 센서나 장비에서 발생하는 머신 데이터를 다루는 빅데이터에서도 유사한 현상이 목도되었고, 이는 다시 스트림이라는 단어를 사용하게 된 이유가 되었다. 특히 실시간 빅데이터를 다루는 영역에서는 데이터를 흐르는 물을 다루듯 하면서 이를 통해 가공되지 않은 원본 데이터의 힘을 느끼게 된 것이다.
?
데이터 엔지니어링은 데이터베이스에 저장된 데이터뿐 아니라 빅데이터를 포괄하여 다루는 용어이다. 특히 데이터 원천에서 최종 사용자까지 파이프라인을 연결하고 이 흐름 속에서 가공, 연동 등을 수행한다. 사용자에 따라 물은 식용으로, 혹은 다른 재료가 되기도 한다. 데이터 엔지니어링은 데이터를 사용자의 필요에 따라 사용할 수 있도록 도와주는 역할을 수행한다.
?
데이터 엔지니어에 적합한 사람들은 누구인가?
?
데이터 엔지니어링이 기존 데이터 처리 방식과 새로운 트렌드가 수렴된 영역인 만큼 누가 데이터 엔지니어가 되어야 한다는 그런 배타적인 조건은 없다. 전통적으로 데이터를 다루는 사람들 그리고 새롭게 빅데이터 영역에서 데이터를 다루는 사람들 누구나 데이터 엔지니어가 될 수 있다.전통적으로 데이터를 다루는 사람들로 DBA(database administrator), ETL 엔지니어가 있다. DBA와 데이터 엔지니어의 역할은 업무 목표에서 차별화된다. DBA는 데이터를 관리하는 솔루션의 운영을 담당한다. 그러나 데이터보다는 데이터 관리 솔루션에 더 관심을 많이 두는 것도 사실이다. 혈액보다는 혈관을 중시하는 의사와 유사하다. 데이터 엔지니어는 데이터를 처리하기 위해 솔루션을 사용한다. 혈액은 운반하는 혈관과 이 혈액의 구성에도 관심을 가진다고 할 수 있다.
ETL 엔지니어와 빅데이터 엔지니어는 어떻게 다를까? ETL 엔지니어는 데이터를 창고(warehouse)에 쌓아 놓는 작업을 한다. 데이터 엔지니어의 중요한 역할이 파이프라인이라고 한다면 매우 유사성이 있다. 하지만 ETL 엔지니어와 데이터 엔지니어의 가장 큰 차이점은 데이터를 바라보는 관점이다. 사용자의 필요에 맞는 데이터 생산 공정에 요구되는 파이프라인이 아니라, 사용자의 필요에 따라 사용할 수 있도록 데이터를 운반하는 파이프라인을 만드는 것이 데이터 엔지니어이기 때문이다.빅데이터 엔지니어는 데이터 엔지니어와 동일한 데이터를 다룬다. 그러나 빅데이터 엔지니어가 데이터 엔지니어로 변신하려면 데이터를 다루는 방식의 차이를 이해해야 한다. 지금껏 빅데이터의 관심사는 수집, 저장, 검색이었다. 이제 데이터 엔지니어링에서 중요한 것은 데이터를 사용자에게 전달하는 것이다. 데이터를 추출, 변환해 창고에 저장하는 것에서 데이터를 실시간으로 처리하는 방식으로 전환할 수 있어야 하는 것이다.
?
클라우드, 데이터 가상화, 데이터 레이크 등 앞으로 다가 올 트렌드를 대비하는 기회
?
데이터 엔지니어링은 버즈워드를 넘어 데이터를 처리하는 근간이 되는 작업 영역, 실용 영역으로 자리 잡게 될 것이다. 이미 빅데이터, 데이터 사이언스, AI 등이 실용화 단계에 와 있고, 이들의 니즈가 한데 응축되어 나타난 현상이 그들의 역할을 위해 데이터를 다루어 줄 데이터 엔지니어링이다.데이터 엔지니어링은 단순히 빅데이터에만 국한되지 않고 데이터가 필요한 모든 영역에 영향을 줄 것이다. 클라우드에서는 이미 데이터 파이프라인이라는 용어가 심심치 않게 쓰이고 있다. 또한 온프레미스(on-premise)에서 발생하는 데이터와 클라우드의 데이터를 통합하기 위한 데이터 아키텍쳐 설계는 데이터 엔지니어링의 그것과 동일하다. 데이터 웨어하우스 저장소를 대체하게 될 데이터 레이크도 클라우드에 올라가게 될 가능성이 커지고 있어 데이터 엔지니어링은 점차 각광받게 될 것으로 보인다.데이터 가상화라는 새로운 트렌드에도 데이터 엔지니어링의 역할이 크다. 애플리케이션 개발자나 운영자에게 데이터 원천이 되는 서버의 접근 권한을 부여하는 것은 바람직하지 않다. 저자는 로그프레소를 이용하여 애플리케이션 로그를 모니터링 하는 사례를 소개한다. 데이터 엔지니어링은 데이터 사용자의 필요와 의도에 부응하는 방법을 제시해 주는 역할을 한다. 트렌드는 사용자들의 필요에 따라 계속 변화하므로 데이터 엔지니어링은 데이터에 관한 트렌드의 파고를 타고 계속해서 진행되는 영역이라고 할 수 있다.
??
상품 정보 고시
도서명 데이터 엔지니어링 로그프레소를 만나다
저자 김한도
출판사 프리버드
ISBN 9791197301001 (1197301003)
쪽수 252
출간일 2020-12-30
사이즈 189 * 257 * 16 mm /661g
목차 또는 책소개 제 1부 데이터 엔지니어링

1. 왜 데이터 엔지니어링인가?

2. 데이터를 바라보는 새로운 시각
2.1 데이터 웨어하우스에서 데이터 레이크로

3. 데이터 엔지니어링
3.1 빅데이터 환경에서 데이터 엔지니어의 역할
3.2 데이터 엔지니어와 DataOPS
3.3 데이터 사이언티스트와 데이터 엔지니어
3.4 데이터 엔지니어링의 기능

4. 데이터 엔지니어링 솔루션
4.1 데이터 엔지니어링 솔루션의 구성
4.2 데이터 수집 인터페이스
4.3 데이터 처리 프레임워크
4.4 데이터 파이프라인
4.5 데이터 저장소
4.6 데이터 외부 연동 인터페이스
4.7 시스템 관리, 구성 플랫폼

제 2부 데이터 엔지니어링, 로그프레소를 만나다

5. 파이프라인의 시작과 끝
5.1 실시간 수집 인터페이스
5.2 외부 전송 인터페이스

6. 데이터 파이프라인과 쿼리
6.1 실시간을 품은 유니버설 쿼리
6.2 실시간 스트림 데이터 파이프라인
6.3 배치 처리 기반의 데이터 파이프라인
6.4 ETL 기반의 데이터 파이프라인
6.5 데이터 분석과 파이프라인

7. 데이터 저장소
7.1 데이터 엔지니어의 숨은 무기
7.2 검색 작업
7.3 집계 작업
7.4 데이터 샌드박스

8. 데이터 엔지니어링의 툴킷
8.1 실시간 대시보드
8.2 외부 시스템 확장
8.3 클라우드에서의 적용
배송공지

사용후기

회원리뷰 총 0개

사용후기가 없습니다.

상품문의

등록된 상품문의

상품문의 총 0개

상품문의가 없습니다.

교환/반품

[반품/교환방법]
마이페이지> 주문배송조회 > 반품/교환신청 또는 고객센터 (070-4680-5689)로 문의 바랍니다.

[반품주소]
- 도로명 : (10882) 경기도 파주시 산남로 62-20 (산남동)
- 지번 : (10882) 경기도 파주시 산남동 305-21

[반품/교환가능 기간]
변심반품의 경우 수령 후 14일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

[반품/교환비용]
단순 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담

[반품/교환 불가 사유]
- 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
(단지 확인을 위한 포장 훼손은 제외)
- 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
예) 화장품, 식품, 가전제품(악세서리 포함) 등
- 복제가 가능한 상품 등의 포장을 훼손한 경우
예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
- 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
- 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
- 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
- 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
* (1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시
‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)

[상품 품절]
공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.

[소비자 피해보상, 환불지연에 따른 배상]
- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됩니다.
- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함.

회원로그인

오늘 본 상품

  • 데이터 엔지니어링 로그프레소를 만나다
    데이터 엔지니어링
    17,550