통합검색

검색

  • IT 자격증 수험서
    • 워드프로세서
    • 컴퓨터활용능력
    • 정보처리/사무자동화/정보기기
    • ITQ
    • GTQ
    • 컴퓨터그래픽스
    • 웹디자인
  • 실용 자격증 수험서
    • 한국사
    • 조리/제과/운전면허
    • 기타
  • IT 도서
    • 컴퓨터 일반/활용
    • 사무자동화(OA)
    • 웹/홈페이지
    • 그래픽/멀티미디어
    • 프로그래밍
    • 컴퓨터공학
    • 어린이 교재
  • 단행본 도서
    • 가정과 생활
    • 유아/아동
    • 기타
  • 시리즈
    • 더 쉽게 배우기
    • 환상의 콤비
    • 눈이 편한
    • 속전속결
    • 비주얼(Visual)
    • 학교에서 통하는
    • 이게 진짜

기타 프로그래밍

HOME 도서정보 IT 도서 프로그래밍

New 친절한 R with 스포츠 데이터 저자 황규인 | 페이지 416
ISBN 9788931465501 | 정가 26,000 | 출판일 2021-07-14
판매처

부록CD

도서소개

스포츠 통계로 알아보는 데이터 과학, 스포츠 속 데이터 과학
“코로나19 이후 무관중으로 진행된 경기에서 홈팀의 승률은 코로나 이전과 다를까?”,
“나달은 정말 클레이 코트에서 강할까?”, “만원 관중이 들어찬 고척돔에서 여성 팬 비율은 얼마나 될까?”, “FIFA 랭킹 1위를 꺾은 최저 랭킹 국가는?”, “배구의 어떤 기록이 승리를 잘 설명할까?” 농구, 배구, 야구, 축구, 테니스 등 스포츠 통계를 이용해 사소하지만 흥미로운 주제들을 데이터 과학으로 풀어내 답을 증명해 봅니다.
tidyverse, tidymodels 패키지를 활용한 데이터 정리 및 변형, 모델링, 분석 결과 정리 등 누구나 쉽게 R로 데이터 분석을 시작하고 활용할 수 있도록 도와줍니다.

저자소개

황규인
동아일보에서 스포츠 기자로 일하고 있습니다. 인문대 출신인 주제에 “야구 기록은 비키니와 같다. 많은 걸 보여주지만 다 보여주지는 않는다”는 격언에 꽂혀 2005년부터 세이버메트릭스(야구 통계학)를 주제로 블로그 운영을 시작했습니다. 2013년 스포츠 기자가 된 뒤로도 ‘베이스볼 비키니’, ‘발리볼 비키니’, ‘데이터 비키니’ 등을 문패로 스포츠와 데이터의 결합을 추구하고 있습니다. 이 노력을 인정받아 ‘구글 코리아’에서 주최한 ‘제1회 데이터 저널리즘 컨퍼런스’에 발표자로 초청을 받기도 했습니다. 대학원 졸업 논문 주제도 ‘머신러닝으로 장수 외국인 투수를 예측할 수 있을까’였습니다.

목차

Chapter 0 들어가며
0.1 왜 R인가?
0.2 데이터를 키워가는 방법: DIKW 피라미드
0.3 데이터를 분석하는 방법: PPDAC 모델

Chapter 1 R 언어학 입문
1.1 R 언어학 개론
1.2 2차원 데이터의 기본, 데이터 프레임
1.3 데이터 과학의 좋은 친구 CSV 파일
1.4 이 많은 함수를 어떻게 외울까?

Chapter 2 tidyverse 입문
2.1 패키지 관리 최강자 pacman 패키지
2.2 R 스튜디오 설치
2.3 생활 tidyverse 사투리

Chapter 3 그림을 그립시다
3.1 히스토그램
3.2 색, 계(色, 戒): 색깔 다루기
3.3 막대 그래프
3.4 팩터(factor)란 무엇인가?
3.5 선 그래프
3.6 점 그래프, 바이올린 그래프, 상자 그래프
3.7 산점도
3.8 밀도(분포) 그래프
3.9 축 조절하기
3.10 미처 다 못 그린 그래프

Chapter 4 데이터 다루기
4.1 dplyr 기본기 익히기
4.2 연습문제 풀이
4.3 ‘기타’가 필요할 때
4.4 실전 dplyr

Chapter 5 데이터 모양 바꾸기
5.1 와이드 폼 vs 롱 폼
5.2 `변수 이름`

Chapter 6 두 테이블 동사
6.1 FIFA 랭킹별 A 매치 결과 구하기 Scene #1
6.2 국가별 A 매치 결과 살펴보기
6.3 FIFA 랭킹 데이터 살펴보기
6.4 rowwise()가 필요할 때
6.5 A 매치 + FIFA 랭킹 나라 이름 합치기
6.6 join()으로 대동단결!

Chapter 7 날짜 데이터 다루기
7.1 lubridate 101
7.2 실전 lubridate
7.3 기간형과 지속형
7.4 시간 데이터
7.5 날짜, 시간에도 반올림이 있다
7.6 FIFA 랭킹별 A 매치 결과 구하기 Scene #2
7.7 FIFA 월드컵에서 랭킹 1위를 꺾은 최저 랭킹 국가는?

Chapter 8 확률
8.1 확률이란 무엇인가?
8.2 생일 역설
8.3 tidymodels 입문
8.4 생일 역설 시뮬레이션
8.5 확률분포
8.6 시뮬레이션의 좋은 친구 crossing()
8.7 이항분포 그리고 시뮬레이션
8.8 롯데 자이언츠 가을야구 진출 확률은?
8.9 이항분포 ∞ 정규분포?
8.10 세상은 정규분포

Chapter 9 일부로 전체를 추론하기
9.1 (복원) 추출이란 무엇인가?
9.2 모집단 vs 표본집단
9.3 중심극한정리
9.4 중첩 tibble이 필요할 때

Chapter 10 부트스트래핑
10.1 부트스트래핑이란 무엇인가?
10.2 신뢰구간이란 무엇인가?
10.3 infer 패키지 입문

Chapter 11 (원리)코로나19는 안방 팀 승률을 어떻게 바꿨을까?
11.1 데이터 뒤섞기
11.2 통계적 가설 검정
11.3 순열 검정
11.4 순열 검정 with infer
11.5 P-값이란 무엇인가?
11.6 P-값을 쓸 때 유의할 점
11.7 P-값 with infer
11.8 t-검정?

Chapter 12 (이론)코로나19는 안방 팀 승률을 어떻게 바꿨을까?
12.1 t-분포 그리고 자유도
12.2 웰치의 t-검정
12.3 t-검정 with infer
12.4 대응 표본 t-검정
12.5 NBA 안방 승률은?
12.6 검정력(power of a test)

Chapter 13 나달은 정말 클레이코트에서 강할까?
13.1 카이제곱 검정
13.2 귀찮은 일 도맡아 처리하는 janitor
13.3 카이제곱 검정 with infer
13.4 적합도 검정 with infer

Chapter 14 농구 포지션별 기록은 어떤 차이가 날까?
14.1 t, f, χ 2 무슨 사이야?
14.2 ANOVA with infer
14.3 분포는 달라도 원리는 똑같다

Chapter 15 어떤 야구 기록이 득점을 제일 잘 설명할까?
15.1 상관관계
15.2 회귀식
15.3 결정계수(R²)
15.4 broom
15.5 회귀분석 전제조건 LINE
15.6 OPS > wOBA
15.7 능력 vs 성과
15.8 피타고라스 승률

Chapter 16 어떤 배구 기록이 승리를 제일 잘 설명할까?
16.1 다중공선성 주의
16.2 회귀계수
16.3 다중 회귀분석 with parsnip
16.4 과적합
16.5 조절변수 *
16.6 심슨 역설 주의

Chapter 17 진짜 어떤 배구 기록이 승리를 제일 잘 설명할까?
17.1 오즈(odds), 로짓(logit)
17.2 glm()
17.3 로지스틱 회귀 with parsnip
17.4 ROC 곡선

Chapter 18 베이즈 통계란 무엇인가?
18.1 베이즈 정리
18.2 방출 위기 타자의 경우
18.3 사전, 사후 분포
18.4 가능도 비율
18.5 베타 분포
18.6 경험적 베이즈 추정
18.7 베이즈 통계 소개가 벌써 끝났다고?

목록