>
>
>
>
파이썬 기반 강화학습 알고리듬 : DP, Q-Learning, AC, DQN, TRPO, PPO, DDPG, TD3
데이터 과학 시리즈(에이콘)1 ㅣ 안드레아 론자, 정사범 ㅣ 에이콘출판 ㅣ Reinforcement Learning Algorithms with Python
  • 정가
30,000원
  • 판매가
27,000원 (10% ↓, 3,000원 ↓)
  • 발행일
2021년 08월 25일
  • 페이지수/크기/무게
448page/188*235*34/1049g
  • ISBN
9791161755571/1161755578
  • 배송비
무료배송
  • 배송예정일
08/18(목) 배송완료예정
  • 현 보유재고
100 권 이상
  • 주문수량
  • 바로구매 북카트담기
  • 제휴몰 주문 시 고객보상, 일부 이벤트 참여 및 증정품 증정, 하루/당일 배송에서 제외되므로 참고 바랍니다.
  • 시리즈 도서
데이터 과학 시리즈(에이콘)(총79건)
컴퓨터 비전을 위한 다중 시점 기하학 2/e : 카메라를 위한 수학     58,500원 (10%↓)
컴퓨터 비전 5/e : 원리, 알고리듬, 응용     76,500원 (10%↓)
고객 리텐션의 전략 : 데이터를 통해 고객 이탈을 막아라     36,000원 (10%↓)
데이터의 미학 : 빅데이터 기술에서 데이터 과학자까지 데이터에 관한 모든 것     31,500원 (10%↓)
The R Book(한국어판) : R로 배우는 데이터 분석 기술     49,500원 (10%↓)
  • 상세정보
  • 강화학습(RL)은 인공지능의 인기 있고 유망한 분야로 변화하는 요구사항에 대응해 이상적인 행동을 자동으로 결정하는 에이전트와 스마트한 모델을 만드는 알고리듬이다. 이 책은 강화학습 알고리듬을 마스터하고 자가학습(self-learning)하는 에이전트를 구현하는 방법을 이해할 수 있도록 도와준다. 강화학습에 필요한 툴, 라이브러리, 설정 사항에 대한 소개를 시작으로 강화학습의 빌딩블록, Q-러닝, SARSA 알고리듬과 같은 가치 기반 방법을 상세히 다룬다
  • ★ 이 책에서 다루는 내용 ★ ■ OpenAI Gym 인터페이스를 이용해 카트폴 게임을 하는 에이전트 개발 ■ 모델 기반 강화학습 패러다임 ■ 동적 프로그래밍으로 프로즌레이크 문제 해결 ■ Q-러닝과 SARAS를 이용해 택시 게임 실행 ■ 딥 Q-러닝(DQN)을 이용해 아타리 게임 실행 ■ 액터 크리틱과 REINFORCE를 이용해 폴리시 그래디언트 알고리듬 학습 ■ PPO와 TRPO를 연속형 로코모션 환경에 사용 ■ 진화 전략을 사용한 달 착륙 문제 해결 ★ 이 책의 대상 독자 ★ 인공지능 엔지니어나 딥러닝 사용자가 강화학습 기초를 배울 때 적합하다. 또한 강화학습 분야의 일부 고급 기술을 알고 싶은 경우에도 유용하다. 다만 책 내용을 이해하려면 파이썬을 활용할 줄 알아야 한다. ★ 이 책의 구성 ★ 1장, ‘강화학습의 개요’에서는 강화학습이 필요한 분야와 강화학습 알고리듬을 이미 적용한 분야를 설명한다. 또한 2장의 프로젝트 실행에 필요한 툴, 라이브러리, 설정(setup)을 설명한다. 2장, ‘강화학습 사이클과 OpenAI Gym 구현’에서는 강화학습 알고리듬의 주요 사이클, 알고리듬 개발에 필요한 툴킷, 다양한 환경 유형을 설명한다. 랜덤 액션을 이용해 카트폴(cartpole)을 플레이하기 위해 OpenAI Gym 인터페이스를 이용한 랜덤 에이전트를 개발할 수 있다. 또한 다른 환경을 실행하기 위해 OpenAI Gym 인터페이스를 사용하는 방법을 학습해본다. 3장, ‘동적 프로그래밍으로 문제 해결하기’에서는 핵심 아이디어, 용어, 강화학습의 접근법을 소개한다. 강화학습의 메인 블록을 학습하고 문제 해결을 위해 강화학습 알고리듬을 만드는 방법의 일반적인 아이디어를 개발한다. 또한 모델 기반과 모델 프리 알고리듬의 차이와 강화학습 알고리듬 분류를 학습할 것이다. 동적 프로그래밍은 프로즌레이크(frozen lake) 게임을 해결하는 데 사용해본다. 4장, ‘Q-러닝과 SARSA 애플리케이션’에서는 가치 기반 메소드, 특히 동적 프로그래밍과 다르며 대규모 문제에 확장 적용이 가능한 Q-러닝과 SARSA를 설명한다. 이 알고리듬을 이해하기 위해 프로즌레이크 게임에 강화학습을 적용하고 동적 프로그래밍과의 차이를 알아본다. 5장, ‘DQN’에서는 특별히 Q-러닝에 적용한 신경망과 컨볼루션 신경망 CNN을 설명한다. Q-러닝과 신경망의 결합이 어떻게 뛰어난 결과를 만들고 많은 문제 해결에 사용될 수 있는지 알게 될 것이다. 추가로 DQN을 OpenAI Gym 인터페이스를 이용한 아타리 게임에 사용해본다. 6장, ‘확률적 PG 최적화 학습’에서는 새로운 모델 프리 알고리듬군(폴리시 그래디언트 메소드)을 소개한다. 그리고 폴리시 그래디언트와 가치 기반 메소드의 차이점과 장단점을 학습한다. 다음으로 REINFORCE와 액터 크리틱 알고리듬을 구현해 달 착륙 문제를 해결해 본다. 7장, ‘TRPO와 PPO 구현’에서는 폴리시 개선을 제어하기 위해 신규 메커니즘을 사용한 폴리시 그래디언트 메소드 변경을 제안한다. 이 메커니즘은 폴리시 그래디언트 알고리듬의 안정성과 수렴성을 개선하는 데 사용한다. 특히 TRPO와 PPO 같은 기술을 사용한 2개의 메인 폴리시 그래디언트 메소드를 구현한다. 연속형 액션 공간을 가진 환경인 로보스쿨(RoboSchool)에 구현해본다. 8장, ‘DDPG와 TD3 애플리케이션’에서는 폴리시 그래디언트와 Q-러닝을 모두 결합한 결정적 폴리시 알고리듬이라는 신규 알고리듬을 소개한다. 내부 컨셉을 학습하고 신규 환경에서 2개의 딥 결정적 알고리듬인 DDPG와 TD3를 구현해본다. 9장, ‘모델 기반 강화학습’에서는 미래 액션을 계획하거나 환경 모델을 학습하는 강화학습 알고리듬을 설명한다. 강화학습 알고리듬의 작동 방법, 장...
  • 1부. 알고리듬과 환경 1장. 강화학습의 개요 __강화학습 소개 ______강화학습과 지도학습의 비교 ____강화학습의 역사 ____딥 강화학습 __강화학습의 구성 요소 ____폴리시 ____가치함수 ____보상 ____모델 __강화학습 애플리케이션 ____게임 ____로봇과 인더스트리 4.0 ____기계학습 ____경제와 금융 ____헬스케어 ____지능형 교통시스템 ____에너지 최적화와 스마트 그리드 __요약 __질문 __심화학습 자료 2장. 강화학습 사이클과 OpenAI Gym 구현하기 __환경 설정하기 ____OpenAI Gym 설치하기 ____로보스쿨 설치하기 __OpenAI Gym과 강화학습 사이클 ____강화학습 사이클 개발하기 ____공간에 익숙해지기 ____텐서플로우 2.X ________즉시 실행 ________오토그래프 __텐서플로우 기반 기계학습 모델 개발 ____텐서 ________상수 ________변수 ________그래프 생성하기 ____간단한 선형회귀 예제 ____텐서보드 도입하기 __강화학습 환경의 유형 ____왜 다른 환경인가? ____오픈소스 환경 __요약 __질문 __심화학습 자료 3장. 동적 프로그래밍DP으로 문제 해결하기 __MDP ____폴리시 ____감가율과 리턴 ____가치함수 ____벨만 방정식 __강화학습 알고리듬 분류 ____모...
  • 안드레아 론자 [저]
  • 정사범 [저]
  • 전체 0개의 구매후기가 있습니다.

인터파크도서는 고객님의 단순 변심에 의한 교환과 반품에 드는 비용은 고객님이 지불케 됩니다.
단, 상품이나 서비스 자체의 하자로 인한 교환 및 반품은 무료로 반품 됩니다.
교환 및 반품이 가능한 경우
상품을 공급 받은 날로부터 7일이내 가능
공급받으신 상품의 내용이 표시, 광고 내용과 다르거나 다르게 이행된 경우에는 공급받은 날로부터 3개월 이내,
   혹은 그사실을 알게 된 날 또는 알 수 있었던 날로부터 30일 이내
상품에 아무런 하자가 없는 경우 소비자의 고객변심에 의한 교환은 상품의 포장상태 등이 전혀 손상되지 않은 경우에 한하여 가능
교환 및 반품이 불가능한 경우
구매확정 이후(오픈마켓상품에 한함)
고객님의 책임 있는 사유로 상품 등이 멸실 또는 훼손된 경우
   (단, 상품의 내용을 확인하기 위하여 포장 등을 훼손한 경우는 제외)
시간이 지남에 따라 재판매가 곤란할 정도로 물품의 가치가 떨어진 경우
포장 개봉되어 상품 가치가 훼손된 경우
다배송지의 경우 반품 환불
다배송지의 경우 다른 지역의 반품을 동시에 진행할 수 없습니다.
1개 지역의 반품이 완료된 후 다른 지역 반품을 진행할 수 있으므로, 이점 양해해 주시기 바랍니다.
중고상품의 교환
중고상품은 제한된 재고 내에서 판매가 이루어지므로, 교환은 불가능합니다.
오픈마켓 상품의 환불
오픈마켓상품에 대한 책임은 원칙적으로 업체에게 있으므로, 교환/반품 접수시 반드시 판매자와 협의 후 반품 접수를 하셔야하며,
   반품접수 없이 반송하거나, 우편으로 보낼 경우 상품 확인이 어려워 환불이 불가능할 수 있으니 유의하시기 바랍니다.
배송예정일 안내
인터파크 도서는 모든 상품에 대해 배송완료예정일을 웹사이트에 표시하고 있습니다.
<인터파크 직배송 상품>
상품은 월~토요일 오전 10시 이전 주문분에 대하여 당일 출고/당일 배송완료를 보장하는 상품입니다.
상품은 서울지역/평일 주문분은 당일 출고/익일 배송완료를 보장하며,
서울외지역/평일 주문분의 경우는 오후 6시까지 주문분에 대하여 익일 배송완료를 보장하는 상품입니다.
(단, 월요일은 12시까지 주문에 한함)
상품은, 입고예정일(제품출시일)+택배사배송일(1일)에 배송완료를 보장합니다.
~ 상품은 유통특성상 인터파크에서 재고를 보유하지 않은 상품으로
주문일+기준출고일+택배사배송일(1일)에 배송완료를 보장합니다.(토/공휴일은 배송기간에 포함되지 않습니다.)
※기준출고일:인터파크가 상품을 수급하여 물류창고에서 포장/출고하기까지 소요되는 시간
<업체 직접배송/오픈마켓 상품>
~ 상품은 업체가 주문을 확인하고, 출고하기까지 걸리는 시간입니다.
주문일+기준출고일+택배사배송일(2일)에 배송완료를 보장합니다.(토/공휴일은 배송기간에 포함되지 않습니다.)
※5일이내 출고가 시작되지 않을시, 오픈마켓 상품은 자동으로 주문이 취소되며, 고객님께 품절보상금을 지급해 드립니다.
배송비 안내
도서(중고도서 포함)만 구매하시면 : 배송비 2,000원 (1만원이상 구매 시 무료배송)
음반/DVD만 구매하시면 : 배송비 1,500원 (2만원이상 구매 시 무료배송)
잡지/만화/기프트만 구매하시면 : 배송비 2,000원 (2만원이상 구매 시 무료배송)
도서와 음반/DVD를 함께 구매하시면 : 배송비 1,500원 1만원이상 구매 시 무료배송)
도서와 잡지/만화/기프트/중고직배송상품을 함께 구매하시면 : 2,000원 (1만원이상 구매 시 무료배송)
업체직접배송상품을 구매시 : 업체별로 상이한 배송비 적용

   * 세트상품의 경우 부분취소 시 추가 배송비가 부과될 수 있습니다.
   * 북카트에서 배송비없애기 버튼을 클릭하셔서, 동일업체상품을 조금 더 구매하시면, 배송비를 절약하실 수 있습니다.
해외배송 안내
인터파크도서에서는 국내에서 주문하시거나 해외에서 주문하여 해외로 배송을 원하실 경우 DHL과 특약으로 책정된 요금표에
   의해 개인이 이용하는 경우보다 배송요금을 크게 낮추며 DHL(www.dhl.co.kr)로 해외배송 서비스를 제공합니다.
해외배송은 도서/CD/DVD 상품에 한해 서비스하고 있으며, 다른 상품을 북카트에 함께 담으실 경우 해외배송이 불가합니다.
해외주문배송 서비스는 인터파크 도서 회원 가입을 하셔야만 신청 가능합니다.
알아두세요!!!
도매상 및 제작사 사정에 따라 품절/절판 등의 사유로 취소될 수 있습니다.
오픈마켓업체의 배송지연시 주문이 자동으로 취소될 수 있습니다.
출고가능 시간이 서로 다른 상품을 함께 주문할 경우 출고가능 시간이 가장 긴 기준으로 배송됩니다.
유통의 특성상 출고기간은 예정보다 앞당겨지거나 늦춰질 수 있습니다.
택배사 배송일인 서울 및 수도권은 1~2일, 지방은 2~3일, 도서, 산간, 군부대는 3일 이상의 시간이 소요됩니다.
  • 0개
  • 0개