[태화강]빅데이터와 확률예보

기상 빅데이터 변수로 예측 오차 많아
대기불안정 여름엔 정확도 85% 고작
AI시스템 도입 등 속도·정확도 높여야

2020-07-05     경상일보

다시 장마철이다. 이번 주 내내 비가 내린다는 예보다. 예년 통계에 의하면 평년 장마철이 32일 정도이니 8월 초까지 장맛비가 오락가락하는 우기를 맞이하게 될 듯하다. 거기에다 7, 8월에는 평균 10개 내외의 태풍이 발생하게 되는데, 그 가운데 2개 정도는 우리나라에 직접 영향을 미치는 것으로 알려져 있다. 해마다 태풍으로 큰 피해를 보는데도 불구하고 태풍의 발생과 진로를 조기에 예측하는 것에는 어려움이 많다. 그냥 해마다 오는 불청객이거니 생각하고 미리 대비하고 닥쳤을 때 피해 예방에 최선을 다할 따름이다.

재난영화에서 지구의 기상이변을 기술적으로 제어하고 해결하는 장면을 보게 되지만, 현실에서는 아직 요원한 문제이다. 다만 우리는 지구를 온전히 구석구석 들여다보고 주요 특징과 기후 특성을 측정하고 분석할 수 있을 정도로 손안에 넣고 있다. 국가기상위성센터에서 제공하는 실시간 위성영상을 보면 지역별로 현재 구름의 밀도와 이동, 대기질, 심지어 태풍의 발생과 이동에 대한 정보까지 상세하게 볼 수 있다. 그러나 이러한 기상정보를 보는 사람마다 해석하는데 차이가 있고, 보다 세밀한 정보 또는 일상의 의사결정에 중요한 정보가 필요하니 강수확률을 계산하여 확률예보 형태로 서비스하고 있다.

원래 확률이란 하나의 사건이 일어날 가능성을 수로 나타낸 것으로 0과 1 사이의 값을 갖는다. 고전적인 개념의 확률이란 대표적으로 주사위를 던질 때 짝수의 눈이 나올 확률이 0.5인 것처럼 수학적인 것에서 출발한다. 반면, 통계적 또는 경험적인 확률은, 대표적으로 강수확률과 같이, 원인과 결과의 관계가 어떤 조건에 따라 변하기에 수학적으로 계산할 수 없다. 최근에는 고전적 의미의 확률보다는 경험 데이터에 기반을 둔, 백분율(%) 또는 비율로 표시되는 빈도적 의미에서의 확률이 더욱 유용하게 쓰이고 있다. 빅데이터, 나아가 인공지능의 대표적인 활용 영역이라고 볼 수 있다. 그러면 시시각각으로 변하는 강수확률은 어떻게 계산하는가. 가령 특정 위치에서 과거 수십 년 동안의 기상 관련 데이터가 시점별로 관측되어 있다고 할 때, 현재 기상조건을 과거의 수많은 조건과 비교하여 유사한 경우들을 뽑아내고, 이를 분모로 한다. 여기서 24시간 이후에 비가 내린 경우의 수를 분자로 하면 특정 지역에서의 24시간 이후 강수확률이 계산되는 것이다. 절차만으로야 어렵잖아 보이지만, 기상 빅데이터의 규모와 강수 영향변수 및 유사한 기상조건의 정교화, 수치예보모델, 슈퍼컴퓨터의 분석성능, 예보관의 해석 전문성이 예측 오차에 영향을 준다. 최근 우리 기상청의 확률예보 정확도는 연평균 92% 수준이나 통상 여름철이면 대기 불안정으로 인하여 85% 수준으로 뚝 떨어진다. 예보 서비스에 대한 주요 불만족의 요인이 되고 있다.

한편, 최근 구글의 인공지능 시스템인 밋넷(MetNet)은 인공위성 등으로부터 수신한 방대한 데이터를 기반으로 인공지능 학습방식을 활용함으로써 사람이 개입하여 해석하는 기존의 체계보다 약 2배 정도의 정확도와 속도를 향상시켰다고 한다. 기상이변이나 대기 불안정 등의 요인에 관한 것도 시간차의 문제가 있기는 하지만 어느 정도 해결해 낼 수 있지 않을까 싶다. 다양한 계획의 수립에서 기상예보는 중장기도 중요하지만, 일반 시민들에게는 1~2일 사전 예측이 제일 중요하다. 거기에 더하여 소지구별로 예측이 가능해진다면 앞으로 이동 동선과 시간에 따라 우산을 준비해야 할지도 결정하기가 수월할 것이다. 예전의 중부지방, 남부지방, 한때 흐리거나 비 소식, 이런 식의 예보에 비하면 상전벽해다. 그럼에도 보다 정확한 예보와 정교한 서비스를 갈망한다. 현재의 10% 단위의 확률예보도 더욱 세분화하여 정교하게 제공될 것이다. 예보 시간차이는 있으나 예측오차 제로로 가고 있다. 남호수 동서대학교 융합전자공학과 교수