그래프의 시작은 19세기 런던의 콜레라 지도에서부터, 역학 학문의 시작으로써 발전.
데이터 시각화의 목적 : 그래프를 통해 정보를 명확하고 효과적으로 전달하기 위해서
인포그래픽 : 데이터와 디자인의 결합된 형태로 일종의 통계 그래프.
뇌과학 연구결과에 따르면 뇌의 50%가 직간접적으로 시기능과 관계가 있으며 인간의 65%가 시각을 통해 새로운 정보를 받아들인다고 한다.
인포그래픽(information graphic)의 예
- 프랑스 토목기사 찰스 요셉 미라는 지도의 흐름도를 이용해 나폴레옹의 러시아 침략 원인을 설명하였다 (1800년도)
데이터시각화의 역사
1) 17C 전 : 주로 기하학적 도형, 지도 혹은 다이어그램 (maps and diagram)
- Anaximander of Miletus (c.610BC-546BC) [Turkey] 600년 전 세계 최초의 지도
- 0C경 제작 : 행성의 주기적 움직임과 관련된 시계열도표
2) 17C : 시간, 공간, 거리 관련 측정에 관심을 갖기 시작함 (Measurement and theory)
- 1626년 Scheiner의 태양흑점의 시간에 따른 변화
3) 18C : 지도에 다른 데이터를 대응하여 그래프를 작성하기 시작함 (New Grapghic forms)
- 1701년 Hally의 지도에서 표현한 등고선 그래프
- 1702-1761년 Thomas Bayes : 베타분포 관련 그래프
- 1728-1777년 요한 람베르트(J. Lambert) : 실험데이터를 분석하는데 처음으로 그래프를 이용
4) 19C 전반 : 통계 그래프인 막대, 원, 선, 히스토그램, 시계열 도표 등의 시작 (Beginnings of modern graphic)
- 1759-1823년 W. Playfair : 오늘날 주로 이용되는 대부분의 그래프를 개발
- 1786 - 선 그래프와 막대 그래프
- 1801 - 임금과 세금 그래프
- 1805 - 미국 관련 원 그래프
- 1821 가격, 임금의 시계열 도표
- 1846 Quetelet 히스토그램 그래프
5) 19C 후반 : 유럽 통계청이 산업화에 대응하기 위해 설립되며 통계이론이 확산하면서 시각화가 급격히 발전 (The Golden Age of statistical graphics)
- 1851년 통계와 지도를 연결 [Pie-map]
- 1855년 John Snow의 콜레라 맵\
- 1857년 나이팅게일의 장미도표
- 1861년 Francis Galton의 현대식 기상 지도
- 1869년 Minard(1781-1870)의 복합그래프
- 1874년 미국의 첫 인구피라미드
- 1875년 Galton의 첫 상관계수 표현
- 1884년 미켈란젤로의 픽토그램
6) 20C 전반 : The modern Dark ages
- 1901년 Bowley의 시계열의 평활화
- 1927년 통계그래프
7) 20C 후반 : 컴퓨터와 통계이론, 컴퓨터 입력기 발전에 따라 크게 발전 (Re-birth of data visualization)
- 1962년 미국 John W. Tukey의 The Future of Data Analysis [EDA를 제안]
- 1967년 Bertin의 그래프
- 1969년 EDA 그래프
- 1973년 다변량 데이터의 얼굴 표현
8) 최근 : High-D, interactive and dynamic data visuallzation
- 1975년 William S. Cleveland and Beat Kleiner의 산점도오 평활호된 선
- 1981년 Mosaic 그래프
- 2006년 한스로즈링의 Gapminder
- UN의 세계상품교역
그래프의 종류와 그래프 그리기
1. 원 그래프 (pie chart)
전체를 구성하는 부분들의 구성비율을 나타낼 때 적합한 도표
prod = scan()
3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
prod.counts = table(prod)
names(prod.counts) = c("자장면","우동","짬뽕","기타")
prod.counts/25*100
pie(prod.counts,col=c("purple","green2","cyan","white"))
2. 막대 그래프 (bar chart)
각 범주에 속한 비율 또는 값을 하나의 막대로 나타내는 그래프로 수평, 수직 막대그래프로 구분된다.
ex ) 히스토그램
prod = scan()
3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
prod.counts = table(prod)
names(prod.counts) = c("자장면","우동","짬뽕","기타")
barplot(prod.counts,col=c("purple","green2","cyan","white"))
3. 꺾은선 그래프
시간의 변화와 흐름에 따라서 데이터를 표현하고 정보를 제공하기에 적합하다. (시계열 그래프용으로 좋음)
gdpa = read.csv("파일경로/파일명.csv", header=TRUE)
attach(gdpa)
plot(data, gdp_1, type=I")
plot(data, gdp_r, type=I")
plot(data, gdp_ap, type=I")
4. 상자그림
다섯 개의 숫자로 분포를 요약하는 그래프 [최소값 ,제1사분위수, 중앙값, 제3사분위수, 최대값]
① 제1사분위수에서 제3사분위수까지로 가운데 상자를 그린다
② 가운데 상자의 중심선은 중앙값으로 맞춘다
③ 상자 밖의 선은 최소값부터 최대값까지 이어진다
④ 특이항을 표시할 땐 울타리 밖 0으로 표시한다
[울타리 : 제1사분위수 - 1.5IQR , 제3사분위수+1.5IQR | IQR = 제3사분위수-제1사분위수]
par(mfrow=c(2,2)) #1페이지에 2x2로 그래프 옵션
boxplot(iris[,1]~iris[,5],main="Sepal Length")
boxplot(iris[,2]~iris[,5],main="Sepal Width")
boxplot(iris[,3]~iris[,5],main="Petal Length")
boxplot(iris[,4]~iris[,5],main="Petal Width")
5. 산점도
두 종류의 변수간 어떤 관계가 있는지 파악할 수 있음
plot(iris[,1:4])
6. 그래프의 왜곡
그래프는 숫자에 비해 강렬한 인상을 주므로 주의깊게 그래프를 살펴봐야 함.좋은 그래프는 자료의 진실을 간단하고 정확하게 말해야 하며, 그대로 받아들이지 않고 공정여부를 파악해야 한다.
자료를 그래프로 정리할 때 유의사항
① 그래프에 적합한 제목 붙이기② 자료의 출처, 표본의 크기, 수집방법에 대한 내용 포함③ 축에 대한 제목 붙이기④ 도수, 비율, 퍼센트 등이 0에서 시작하는지 점검⑤ 축이 끊어지지 않고 연속적으로 이어지는지 점검⑥ 변수의 측정 단위 표기.
'공부하지안 > 프라임칼리지[1학년]' 카테고리의 다른 글
일반물리 요약정리 (0) | 2021.06.05 |
---|---|
[파이썬]3강 - 12강 요약 정리 (0) | 2021.05.30 |
R 프로그래밍 기초 1차 , R의 개념과 기초함수 (0) | 2021.04.08 |
제 1강, 데이터와 통계학 (0) | 2021.04.07 |
제 2강, 데이터의 수치요약 (0) | 2021.04.07 |