본문 바로가기

공부하지안/프라임칼리지[1학년]

제 3강, 데이터의 시각화

그래프의 시작은 19세기 런던의 콜레라 지도에서부터, 역학 학문의 시작으로써 발전.

 

데이터 시각화의 목적 : 그래프를 통해 정보를 명확하고 효과적으로 전달하기 위해서

인포그래픽 : 데이터와 디자인의 결합된 형태로 일종의 통계 그래프.

뇌과학 연구결과에 따르면 뇌의 50%가 직간접적으로 시기능과 관계가 있으며 인간의 65%가 시각을 통해 새로운 정보를 받아들인다고 한다.

인포그래픽(information graphic)의 예

- 프랑스 토목기사 찰스 요셉 미라는 지도의 흐름도를 이용해 나폴레옹의 러시아 침략 원인을 설명하였다 (1800년도)

 

데이터시각화의 역사

1) 17C 전 : 주로 기하학적 도형, 지도 혹은 다이어그램 (maps and diagram)

  • Anaximander of Miletus (c.610BC-546BC) [Turkey] 600년 전 세계 최초의 지도
  • 0C경 제작 : 행성의 주기적 움직임과 관련된 시계열도표

2) 17C : 시간, 공간, 거리 관련 측정에 관심을 갖기 시작함 (Measurement and theory)

  • 1626년 Scheiner의 태양흑점의 시간에 따른 변화

3) 18C : 지도에 다른 데이터를 대응하여 그래프를 작성하기 시작함 (New Grapghic forms)

  • 1701년 Hally의 지도에서 표현한 등고선 그래프
  • 1702-1761년 Thomas Bayes : 베타분포 관련 그래프
  • 1728-1777년 요한 람베르트(J. Lambert) : 실험데이터를 분석하는데 처음으로 그래프를 이용

4) 19C 전반 : 통계 그래프인 막대, 원, 선, 히스토그램, 시계열 도표 등의 시작 (Beginnings of modern graphic)

  • 1759-1823년 W. Playfair : 오늘날 주로 이용되는 대부분의 그래프를 개발
    • 1786 - 선 그래프와 막대 그래프
    • 1801 - 임금과 세금 그래프
    • 1805 - 미국 관련 원 그래프
    • 1821 가격, 임금의 시계열 도표
  • 1846 Quetelet 히스토그램 그래프

5) 19C 후반 : 유럽 통계청이 산업화에 대응하기 위해 설립되며 통계이론이 확산하면서 시각화가 급격히 발전 (The Golden Age of statistical graphics)

  • 1851년 통계와 지도를 연결 [Pie-map]
  • 1855년 John Snow의 콜레라 맵\
  • 1857년 나이팅게일의 장미도표
  • 1861년 Francis Galton의 현대식 기상 지도
  • 1869년 Minard(1781-1870)의 복합그래프
  • 1874년 미국의 첫 인구피라미드
  • 1875년 Galton의 첫 상관계수 표현
  • 1884년 미켈란젤로의 픽토그램

6) 20C 전반 : The modern Dark ages

  • 1901년 Bowley의 시계열의 평활화
  • 1927년 통계그래프

7) 20C 후반 : 컴퓨터와 통계이론, 컴퓨터 입력기 발전에 따라 크게 발전 (Re-birth of data visualization)

  • 1962년 미국 John W. Tukey의 The Future of Data Analysis [EDA를 제안]
  • 1967년 Bertin의 그래프
  • 1969년 EDA 그래프
  • 1973년 다변량 데이터의 얼굴 표현

8) 최근 : High-D, interactive and dynamic data visuallzation

  • 1975년 William S. Cleveland and Beat Kleiner의 산점도오 평활호된 선
  • 1981년 Mosaic 그래프
  • 2006년 한스로즈링의 Gapminder
  • UN의 세계상품교역

그래프의 종류와 그래프 그리기

1. 원 그래프 (pie chart)

전체를 구성하는 부분들의 구성비율을 나타낼 때 적합한 도표

prod = scan()
3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
prod.counts = table(prod)
names(prod.counts) = c("자장면","우동","짬뽕","기타")
prod.counts/25*100
pie(prod.counts,col=c("purple","green2","cyan","white"))

 

2. 막대 그래프 (bar chart)

각 범주에 속한 비율 또는 값을 하나의 막대로 나타내는 그래프로 수평, 수직 막대그래프로 구분된다.

ex ) 히스토그램

prod = scan()
3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
prod.counts = table(prod)
names(prod.counts) = c("자장면","우동","짬뽕","기타")
barplot(prod.counts,col=c("purple","green2","cyan","white"))

3. 꺾은선 그래프

시간의 변화와 흐름에 따라서 데이터를 표현하고 정보를 제공하기에 적합하다. (시계열 그래프용으로 좋음)

gdpa = read.csv("파일경로/파일명.csv", header=TRUE)
attach(gdpa)
plot(data, gdp_1, type=I")
plot(data, gdp_r, type=I")
plot(data, gdp_ap, type=I")

4. 상자그림

다섯 개의 숫자로 분포를 요약하는 그래프 [최소값 ,제1사분위수, 중앙값, 제3사분위수, 최대값]

① 제1사분위수에서 제3사분위수까지로 가운데 상자를 그린다

② 가운데 상자의 중심선은 중앙값으로 맞춘다

③ 상자 밖의 선은 최소값부터 최대값까지 이어진다

④ 특이항을 표시할 땐 울타리 밖 0으로 표시한다

[울타리 : 제1사분위수 - 1.5IQR , 제3사분위수+1.5IQR | IQR = 제3사분위수-제1사분위수]

par(mfrow=c(2,2))			#1페이지에 2x2로 그래프 옵션
boxplot(iris[,1]~iris[,5],main="Sepal Length")
boxplot(iris[,2]~iris[,5],main="Sepal Width")
boxplot(iris[,3]~iris[,5],main="Petal Length")
boxplot(iris[,4]~iris[,5],main="Petal Width")

5. 산점도

두 종류의 변수간 어떤 관계가 있는지 파악할 수 있음

plot(iris[,1:4])

6. 그래프의 왜곡

그래프는 숫자에 비해 강렬한 인상을 주므로 주의깊게 그래프를 살펴봐야 함.좋은 그래프는 자료의 진실을 간단하고 정확하게 말해야 하며, 그대로 받아들이지 않고 공정여부를 파악해야 한다.

자료를 그래프로 정리할 때 유의사항

① 그래프에 적합한 제목 붙이기② 자료의 출처, 표본의 크기, 수집방법에 대한 내용 포함③ 축에 대한 제목 붙이기④ 도수, 비율, 퍼센트 등이 0에서 시작하는지 점검⑤ 축이 끊어지지 않고 연속적으로 이어지는지 점검⑥ 변수의 측정 단위 표기.

반응형