>
>
>
자바와 파이썬으로 만드는 빅데이터 시스템 : 하둡, 카프카, 아파치 스파크로 연결하는 나만의 빅데이터 전처리 파이프라인 구현
황세규 ㅣ 제이펍
  • 정가
30,000원
  • 판매가
27,000원 (10% ↓, 3,000원 ↓)
  • 발행일
2023년 05월 08일
  • 페이지수/크기/무게
436page/187*245*27/922g
  • ISBN
9791192987057/1192987055
  • 배송비
무료배송
  • 배송예정일
10/05(목) 배송완료예정
  • 현 보유재고
100 권 이상
  • 주문수량
  • 바로구매 북카트담기
  • 제휴몰 주문 시 고객보상, 일부 이벤트 참여 및 증정품 증정, 하루/당일 배송에서 제외되므로 참고 바랍니다.
  • 상세정보
  • 빅데이터 프로그래밍을 위한 최고의 입문서! 로컬에서 작은 규모나마 직접 빅데이터 서비스를 구현함으로써 독자들이 서비스 아키텍처에 대한 이해와 통찰력을 얻는 데 목표를 두며, 빅데이터 사용과 구현방식의 다양성을 위해 이 책은 자바와 파이썬으로 실습 애플리케이션을 구현하고, 각 빅데이터 기술의 설치와 설정에 있어서도 윈도우 11과 우분투 22.04에서 작업을 수행하며, 마지막으로 통합 개발환경은 이클립스 IDE를 사용하여 단일 개발환경에서 이 모든 개발을 진행합니다.
  • 이 책은 빅데이터 서비스에 대한 알기 쉬운 설명과 난도가 높지 않은 실습 프로젝트를 활용하여 빅데이터 분야에 입문하려는 개발자, 소프트웨어 전공자, 학생들에게 최고의 입문서가 될 것입니다. ● 빅데이터 오픈소스의 내부 아키텍처와 각종 기능의 API에 대한 고찰 없이 클라우드에서 제공하는 서비스를 사용만 했다면, 이제 여러분의 로컬 환경에서 이런 서비스를 직접 구현하여 빅데이터 서비스의 구조와 기능에 대한 넓은 경험과 통찰력을 얻을 수 있다. ● 자바와 파이썬 API를 모두 제공하여 자바의 객체지향적 프로그래밍과 스크립트 언어인 파이썬의 간결하고 파이썬다운(Pythonic) 코딩을 경험할 수 있으며, 윈도우와 리눅스 모두에서 폭넓게 시스템을 구축한다. ● 각 서비스의 끝단을 연동하여 파이프 라인을 구현함으로써 하둡, 카푸카, 아파치 스파크로 이어지는 데이터 가공과 변환, MySQL, MongoDB 적재에 대한 기술 지식과 구현 노하우를 익힐 수 있다. 대상 독자 * 다양한 분야에서 자바와 파이썬을 공부하려는 소프트웨어 전공 학생 및 취준생 * 빅 데이터 분야에 관심을 갖고 첫발을 디디려는 현업 개발자 및 직장인 * 빅 데이터 클라우드를 구축하기 위해 필요한 통찰력을 얻으려는 사내 클라우드 담당자
  • 머리말 viii 베타리더 후기 xii CHAPTER 1 빅데이터 개론 1 1.1 빅데이터란? 1 1.2 빅데이터 저장과 분석 12 1.3 데이터 전처리와 람다 아키텍처 23 CHAPTER 2 개발 통합 환경 29 2.1 자바 설치 29 2.2 파이썬 설치 34 2.3 이클립스 설치 및 설정 39 2.4 저장소 설치 51 2.5 실습 데이터 63 CHAPTER 3 하둡 파일 시스템 I 89 3.1 하둡 구조 및 기능 89 3.2 하둡 파일 시스템 설치 및 설정 93 3.3 하둡 파일시스템 API 114 CHAPTER 4 하둡 파일 시스템 II 129 4.1 자바 실습 프로젝트 129 4.2 파이썬 실습 프로젝트 172 CHAPTER 5 카프카를 이용한 데이터 송수신 197 5.1 카프카의 개념과 기능 197 5.2 카프카 설치 및 설정 202 5.3 카프카 메시지 서비스의 API 211 5.4 자바 실습 프로젝트 224 5.5 파이썬 실습 프로젝트 231 CHAPTER 6 아파치 스파크 배치 작업 I 237 6.1 아파치 스파크의 개념과 하부 프로젝트 237 6.2 아파치 스파크 설치 및 설정 242 6.3 아파치 스파크 SQL API 252 CHAPTER 7 아파치 스파크 배치 작업 II 295 7.1 자바 실습 프로젝트 295 7.2 파이썬 실습 프로젝트 306 CHAPTER 8 아파치 스파크 스트리밍 작업 317 8.1 아파치 스파크의 구조화 스...
  • 이 책은 작은 규모나마 직접 빅데이터 서비스를 구현함으로써 독자들이 서비스 아키텍처에 대한 이해와 통찰력을 얻는 데 목표를 두고 있습니다. 클라우드 서비스에서 각각의 서비스 모듈을 구입하여 사용하더라도 그 모듈의 기능과 내재된 아키텍처를 이해한다면 더욱 클라우드 서비스를 효율적으로 구축하고 사용할 수 있을 것입니다. _ix쪽 인공지능은 데이터를 생성하는 것이 아니라 데이터를 학습하여 가중치와 편차를 정하고 최적의 프로그램을 생성하는 패러다임입니다. 양질의 데이터가 많을수록 더 정확한 가중치와 편차를 생성하여 원하는 결과를 얻을 수 있습니다. 이 인공지능 프로그램의 학습용 데이터를 빅데이터 기술로 제공할 수 있습니다. 이렇듯 현재에는 양질의 데이터가 꼭 필요하고 누가 데이터를 많이 보유하고 있냐에 따라 원하는 결과의 차이가 극명해집니다. 구글, 페이스북, 아마존, 알리바바, 네이버 같은 세계적인 인터넷 공급업체는 자신이 보유한 엄청난 빅데이터를 활용하여 가치 있는 정보를 만들어내고 있습니다. 데이터의 중요성이 증가하고 있는 현재에는 “데이터가 세상을 집어삼키고 있다(Data is eating the world)”는 표현이 회자하고 있습니다. _7쪽 사용하는 운영체제로는 윈도우의 경우는 윈도우 11을 사용하고 리눅스로는 우분투 22.04를 사용하였습니다. 현재 우분투의 최신 LTE 버전은 22.04입니다. 그리고 ETL 실습 프로젝트는 윈도우의 경우는 자바로 구현하였으며 리눅스의 경우는 파이썬으로 구축되었습니다. 물론 약간의 소스를 수정하면 자바 프로젝트를 리눅스에서 실행할 수도 있고 파이썬 프로젝트를 윈도우에서 처리할 수도 있습니다. _29쪽 아파치 스파크에서 버전 2.0까지 중심이 되는 데이터 타입은 RDD(Resilient Distributed Datasets)입니다. 직역하면 복원성이 있는 분산 데이터 모음으로 번역될 수 있습니다. 아파치 스파크는 메모리 기반의 처리와 수정이 불가능한 데이터 구조를 생성하는 리니지(lineage) 방식, action이 이루어지기 전까지 실행을 유보하는 게으른 실행(lazy-execution)을 이용하여 빠르고 편리하게 빅데이터 분석을 수행할 수 있습니다. 분석 대상이 되는 데이터 요소는 RDD 데이터 타입으로 변환하여 스파크 클러스터에 저장됩니다. 수정이 불가능한 리니지 방식의 RDD 데이터는 만들어진 과정을 기억하고 있습니다. _237쪽
  • 황세규 [저]
  • 연세대학교에서 기계공학을 전공했고 동 대학원에서 석사학위를 취득하였다. 소프트웨어 사업을 천직으로 여기며 끊임없는 자기계발과 인사이트를 찾으려 하는 기술 작가다. 오픈소스 기술이 가져오는 열린 마음, 포용적이고 개방적인 영향력을 체험하며 오픈소스 관련 개발 언어와 서비스에 대한 서적을 집필하고 있다. 《Eclipse와 JBoss7을 이용한 Java 웹서비스 구축》(홍릉과학출판사), 《빅데이터 프로그래밍》(지앤선)을 집필하였다.
  • 전체 0개의 구매후기가 있습니다.

인터파크도서는 고객님의 단순 변심에 의한 교환과 반품에 드는 비용은 고객님이 지불케 됩니다.
단, 상품이나 서비스 자체의 하자로 인한 교환 및 반품은 무료로 반품 됩니다.
교환 및 반품이 가능한 경우
상품을 공급 받은 날로부터 7일이내 가능
공급받으신 상품의 내용이 표시, 광고 내용과 다르거나 다르게 이행된 경우에는 공급받은 날로부터 3개월 이내,
   혹은 그사실을 알게 된 날 또는 알 수 있었던 날로부터 30일 이내
상품에 아무런 하자가 없는 경우 소비자의 고객변심에 의한 교환은 상품의 포장상태 등이 전혀 손상되지 않은 경우에 한하여 가능
교환 및 반품이 불가능한 경우
구매확정 이후(오픈마켓상품에 한함)
고객님의 책임 있는 사유로 상품 등이 멸실 또는 훼손된 경우
   (단, 상품의 내용을 확인하기 위하여 포장 등을 훼손한 경우는 제외)
시간이 지남에 따라 재판매가 곤란할 정도로 물품의 가치가 떨어진 경우
포장 개봉되어 상품 가치가 훼손된 경우
다배송지의 경우 반품 환불
다배송지의 경우 다른 지역의 반품을 동시에 진행할 수 없습니다.
1개 지역의 반품이 완료된 후 다른 지역 반품을 진행할 수 있으므로, 이점 양해해 주시기 바랍니다.
중고상품의 교환
중고상품은 제한된 재고 내에서 판매가 이루어지므로, 교환은 불가능합니다.
오픈마켓 상품의 환불
오픈마켓상품에 대한 책임은 원칙적으로 업체에게 있으므로, 교환/반품 접수시 반드시 판매자와 협의 후 반품 접수를 하셔야하며,
   반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가능할 수 있으니 유의하시기 바랍니다.
배송예정일 안내
인터파크 도서는 모든 상품에 대해 배송완료예정일을 웹사이트에 표시하고 있습니다.
<인터파크 직배송 상품>
상품은 월~토요일 오전 10시 이전 주문분에 대하여 당일 출고/당일 배송완료를 보장하는 상품입니다.
상품은 서울지역/평일 주문분은 당일 출고/익일 배송완료를 보장하며,
서울외지역/평일 주문분의 경우는 오후 6시까지 주문분에 대하여 익일 배송완료를 보장하는 상품입니다.
(단, 월요일은 12시까지 주문에 한함)
상품은, 입고예정일(제품출시일)+택배사배송일(1일)에 배송완료를 보장합니다.
~ 상품은 유통특성상 인터파크에서 재고를 보유하지 않은 상품으로
주문일+기준출고일+택배사배송일(1일)에 배송완료를 보장합니다.(토/공휴일은 배송기간에 포함되지 않습니다.)
※기준출고일:인터파크가 상품을 수급하여 물류창고에서 포장/출고하기까지 소요되는 시간
<업체 직접배송/오픈마켓 상품>
~ 상품은 업체가 주문을 확인하고, 출고하기까지 걸리는 시간입니다.
주문일+기준출고일+택배사배송일(2일)에 배송완료를 보장합니다.(토/공휴일은 배송기간에 포함되지 않습니다.)
※5일이내 출고가 시작되지 않을시, 오픈마켓 상품은 자동으로 주문이 취소되며, 고객님께 품절보상금을 지급해 드립니다.
배송비 안내
도서(중고도서 포함)만 구매하시면 : 배송비 2,000원 (1만원이상 구매 시 무료배송)
음반/DVD만 구매하시면 : 배송비 1,500원 (2만원이상 구매 시 무료배송)
잡지/만화/기프트만 구매하시면 : 배송비 2,000원 (2만원이상 구매 시 무료배송)
도서와 음반/DVD를 함께 구매하시면 : 배송비 1,500원 1만원이상 구매 시 무료배송)
도서와 잡지/만화/기프트/중고직배송상품을 함께 구매하시면 : 2,000원 (1만원이상 구매 시 무료배송)
업체직접배송상품을 구매시 : 업체별로 상이한 배송비 적용

   * 세트상품의 경우 부분취소 시 추가 배송비가 부과될 수 있습니다.
   * 북카트에서 배송비없애기 버튼을 클릭하셔서, 동일업체상품을 조금 더 구매하시면, 배송비를 절약하실 수 있습니다.
해외배송 안내
인터파크도서에서는 국내에서 주문하시거나 해외에서 주문하여 해외로 배송을 원하실 경우 DHL과 특약으로 책정된 요금표에
   의해 개인이 이용하는 경우보다 배송요금을 크게 낮추며 DHL(www.dhl.co.kr)로 해외배송 서비스를 제공합니다.
해외배송은 도서/CD/DVD 상품에 한해 서비스하고 있으며, 다른 상품을 북카트에 함께 담으실 경우 해외배송이 불가합니다.
해외주문배송 서비스는 인터파크 도서 회원 가입을 하셔야만 신청 가능합니다.
알아두세요!!!
도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 취소될 수 있습니다.
오픈마켓업체의 배송지연시 주문이 자동으로 취소될 수 있습니다.
출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 기준으로 배송됩니다.
유통의 특성상 출고기간은 예정보다 앞당겨지거나 늦춰질 수 있습니다.
택배사 배송일인 서울 및 수도권은 1~2일, 지방은 2~3일, 도서, 산간, 군부대는 3일 이상의 시간이 소요됩니다.
  • 0개
  • 0개