티스토리 뷰

GIS 분야에서 빅데이터는 어떠한 연구가 진행되고 있나요?

앞으로 어떤 연구가 있을까요?


이번 포스트를 들어가기전에 저는 개인적으로 빅데이터를 공부하는 학생이라는 점을 다시한번 상기시켜 드립니다.

학생이기에 잘은 모르지만 'Geospatial big data handling theory and methods: A review and research challenges, Songnian Li 등 9명, 2016', 같은 review 논문들을 읽고 여기서 나오는 몇가지를 공유하고자 합니다. (나중에 시간이 되면 자세한 논문 리뷰를 포스트 할 계획입니다.)  


VGI


현재 공간 빅데이터의 뜨거움 감자는 VGI(Volunteered Geo-spatial Information)가 아닐까 싶습니다. VGI는 여러 포멧에서 얻을 수 있는데 센서, SNS 등이 있습니다. VGI 얻는 방식에 따라 Participatory 형과 Opportunistic 형으로 나눌 수 있습니다.[각주:1] 전자는 사용자가 자신이 VGI을 사용하고 있음을 인식하면서, 특별한 이유를 갖고 정보를 모으는 것입니다. (ex. OSM) 후자는 그 반대로, 자신이 정보를 모으고 있는것을 인지하지 못하고 특별한 이유가 없이 VGI를 통해 데이터를 모으는 것입니다. T map에서 자동차 위치 데이터를 이용하여 교통량을 계산할 때 본인의 차량이 그 계산에 포함되는 것을 인지하지 못하는 것과 같습니다. (인지하더라도 그 목적은 T map의 사용이지 data acquisition(데이터 획득)이 아니기 때문에 후자로 예를 들었습니다.)


현재 VGI는 재난경보에도 사용이 되고 있습니다. SNS (Twitter 등)을 통해 새로운 정보를 빠르게 취득하고 해당 지역의 재난이 있음을 인지하면 그 지역 사람들에게 재난이 있음을 알리는 선행연구가 진행되기도 하였습니다. (Goodchild, Glennon 2010, Fuches et al. 2013) 


재난 뿐만 아니라 특정 keyword를 주시하여 event 예측 등 다양한 방식으로 VGI는 사용되고 있습니다. 여기서 VGI는 Geo-Temporal data 즉, 지형정보와 시간정보가 합쳐져 있는 정보인 것이 많습니다. 앞으로의 VGI는 이런 Geo-Temporal 한 데이터를 어떻게 관리하고 어떤식으로 가치를 뽑아낼지에 대한 연구가 필요하겠습니다. 여기서 관리란 데이터 veracity 즉 정확성을 어느정도 확보를 하면서도 Velocity 즉 데이터 처리 속도를 빠르게 처리하는 방법을 동시에 연구해야 할 것입니다.



▶  Visualization


데이터 시각화가 왜 필요할까요?

데이터의 시각호는 의사결정을 쉽게 도와줍니다. 

ML(머신러닝)에서 나온 데이터 분석 값을 데이터 분석가 뿐만 아닌 일반 사람들에게도 정보를 공유하기 위해서는 시각화 기술이 필수입니다.  

세계 각지에서 이를 위한 시도가 끊임없이 이루어지고 있습니다. 영국에서 large scale로 하는 http://ubdc.ac.uk/, 호주의 https://aurin.org.au/, 유로 정부의 http://inspire-geoportal.ec.europa.eu/ 등이 있습니다.

이런 노력들이 일반 사람들도 빅데이터를 이용한 의사결정을 실생활에서 가능하게끔 해줍니다.


Big data Visualization에는 해결해야 하는 과제가 있습니다.

바로 인간의 인지능력 한계로 인해 시각화를 효과적으로 하기 힘들다는 것입니다.

사람의 인지능력에 맞게 시각화를 해야 합니다.

해결책으로서는 multiple-linked view라는 방법이 가장 주목 받고 있습니다.

다양한 시각화 자료들을 서로 연결시켜서 보여주는 방법입니다.

그 외, summarization, clustering and highlighting 같은 방법도 제시되고 있습니다. 

즉, 안 중요한 정보 또는 불 확실한 것은 제거하고/ 주제별로 분류하고/ 중요한 점은 먼저 보여주는 방법입니다.

말로는 아주 쉽지만 속을 들여다 보면 통계지식과 머신러닝이 쓰이는 등 복잡합니다. 

나중에 자세히 포스팅 하겠습니다. 


또한 빅데이터의 velocity 특징처럼, 실시간적인 데이터를 어떻게 시각화 해야하는지도 중요한 이슈입니다.

VGI의 정보를 어떻게 표현해야 할지 다양한 연구들이 쏟아지고 있습니다.

VGI를 효과적으로 시각화 한 모델로는 Ushahidi(https://www.ushahidi.com/) 같은 플레폼이 있습니다.

Smart city, SNS, VGI 기술 발전으로 엄청난 공간정보가 실시간으로 무수히 쏟아 지고 있습니다. 이 정보의 특징은 시간데이터가 포함되어있다는 것입니다. 한 공간안에 Real-time(실시간) 데이터와 historical(과거) 데이터가 혼재합니다. 이런 정보들은 어떻게 표현해야 사람들이 효과적으로 이해하고 의사결정을 내릴까요? 앞으로의 과제입니다.


Data Mining & Knowledge Discovery (KD)



KD(Knowledge Discovery) 는 데이터 속의 유용하고, 새롭고, 의미있는 패턴이나 관계들을 mining(케내는)하는것 입니다. 가장 심플한 KD로는 ARM(Association Rule Mining)가 있습니다. ARM은 rule based deep learning 기술 중 하나이며 '딥러닝 배우기' 항목에 관련내용 포스팅이 있습니다. Spatio-temporal(시공간) 데이터에 대한 회귀 모델은 time series analysis(시계열 분석), econometrics(계량 경제학), spatial science(공간 과학)의 아이디어 교차 수분에서 탄생했습니다.

STARIMA (Space Time Auto Regressive Integrated Moving Average,시공간 자동 회귀 통합 이동 평균) 모델 (Pfeifer and Deutsch, 1980, Cheng 외 2014a, 2014b), Spatial panel data model(공간 패널 데이터 모델) (Elhorst, 2003), Bayesian hierarchical models(베이지안 계층 모델) (Cressie and Wikle, (Stein et al., 1998, Heuvelink and Griffith, 2010), Image mining(이미지 마이닝) (Rajasekar et al., 2006) 등의 선행연구가 진행되어 있습니다.


빅데이터 시대에 이르면서 데이터가 세분화되면서기존 통계로는 nonliearity(비선형), heterogeneity(여러 다른 종류로 이뤄진)인 데이터를 해석하기 힘들어졌습니다. 이에 학자들은 ML(Machine Learning)을 해결책으로 내놓았습니다. 90년대에는 Artificial Neural Networks(ANNs), 오늘날은 kernel methods가 많이 쓰입니다.

Classification과 regression에 유명한 머신러닝 기법은 SVM(Support Vector Machine) 입니다.

SVM은 kernel을 이용하여 비선형 회귀와 분류를 합니다. 

RF(Random Forest)는 여러 의사결정 트리를 bootstrapping으로 묶어서 분류를 하는 최근 유명해진 기법입니다.


그외에도 anomaly detection 이라는 outlier detection & clustering(군집화) KD 기술이 있습니다. 사용자가 기대하는 것과 다른 데이터의 이벤트 또는 패턴을 식별하는 작업을 합니다. 무엇이 normal인지 abnormal인지 기준 혹은 definition이 있어야하기 때문에 어렵습니다. Clustering은 자율 학습의 한 형태이며, 우리가 거의 알지 못하는 데이터 set의 숨겨진 구조를 밝혀내는 것을 포함합니다. 클러스터링은 geodemographic(지형 학적 분류) (Vickers and Rees, 2007) 및 hotspot detection(핫스팟 감지) 와 같은 공간 과학 분야에서 폭넓게 응용됩니다. 공간 클러스터링 방법이 잘 개발되었지만, Spatio Temporal Clustering (STC)은 새로운 과제입니다. 인기를 얻고있는 STC 방법은 ST-DBSCAN (Birant and Kut, 2007) 및 Space-Time Scan Statistics (STSS)(Kulldorff et al., 2005, Cheng and Adepeju, 2014)가 있습니다. 기회가 되면 나중에 STC 내용을따로 포스팅 하겠습니다.


위 머신러닝기법들은 비선형적인 혹은 multi-scale, heterogeneity 같은 spatial data들을 처리하는데 효과적입니다. 하지만 ML은 데이터가 많을 때 초기 계산비용이 비싸다는 단점을 갖고 있습니다. 또한 시공간 데이터는 시간이 지남에 따라 계속 바뀌기 때문에 계산을 지속적으로 계속 해야합니다. 따라서 실시간처리를 할 수 있는 ML 알고리즘이 혹은 전통적인 알고리즘의 개발이 필요합니다.


Parallel & Grid computation은 KD 가 이러한 문제점을 돕고 있긴 합니다. 하지만 몇몇 문제는 풀기 매우 어렵습니다. 현재 STC의 가장 큰 문제는 cluster가 시간에 따라 emerge, change, move, dissipate/disappear 하게 하는 것입니다. 현재까지 이런 STDM(Spatial Temporal Data Mining) 와 KD는 historical data를 다루기까지는 많이 발전했지만 진화하는 시공간 data(실시간 처리 등)를 처리하기에는 아직 역부족입니다.





  1. 'Geospatial big data handling theory and methods: A review and research challenges, Songnian Li 등 9명, 2016 [본문으로]
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함