통계학과 기하

통계학과 기하

작성일 2021.06.04댓글 1건
    게시물 수정 , 삭제는 로그인 필요

저희 학교 기하 수행이 기하나 수학1에 내용(기하가 있으면 더 좋음)이 실생활에 쓰이는 사례를 알아보는건데 제가 진로가 통계학과를 생각하고 있어서 혹시 기하나 수1 내용이 통계학에는 안 쓰이나요... 찾아봤는데 내용이 거의 없는거 같아서요... 


#통계학과 기하

profile_image 익명 작성일 -

통계학과 현대기하학의 관계

대수기하가 정보기하에서 어떻게 쓰이는지와 관련해서 질문에 대해 제가 갖고있는 그림에 대해 공유할 목적으로 적는 글입니다. 관련된 설명 중 정규-통계다양체에 대한 설명은 정보기하의 좋은 레퍼런스들 대부분에서 찾을 수 있으며 특이-통계다양체에 대한 설명은 스미오 와타나베의 Algebraic geometry and Statistical learning theory의 1-2단원에서 찾을 수 있습니다.

1차원 실수축 위에서 정규분포는 평균과 분산 두 파라미터로 특정된다. 평균과 분산이 정해지면 확률분포함수를 유일하게 특정하며, 정규분포 전제 하에서 확률분포함수와 위의 두 파라미터는 일대일 대응 관계가 성립한다.

평균은 일반적으로 모든 실수값을 취하며 음수가 아닌 값을 갖는 분산의 경우 0인 경우를 제외하면 이 두 파라미터의 모임은 상반평면(upper half plane), 기하학적으로는 음의 상수 곡률을 갖는 푸앙카레 모델 공간에 해당한다. 그리고 두 파라미터의 모임과 확률분포함수의 모임의 1-1 대응 관계를 활용하면 확률분포함수의 모임을 미분다양체로서 간주할 수 있게 된다. 이와 같이 비록 정규분포가 아니더라도 확률분포함수의 모임을 미분다양체로 간주할 수 있는 모임을 정규-통계다양체(regular Statistical manifold)라 부른다. 이 대상(object)이 현재의 정보기하(information geometry)에서 고려하는 표준적인 공간에 해당한다.

위에서 ‘정규'라는 말마따나 공간이 만족해야 하는 특정 제약 조건 두 가지가 요구되는데, 첫번째로는 파라미터의 모임과 확률분포함수의 1-1 대응 관계가 성립해야 한다는 점이다. 즉 다른 파라미터들을 사용하여 동일한 확률분포함수를 만드는 상황을 배제한다. 그리고 두번째로는 미분다양체에 사용되는 리만메트릭(이하 메트릭)에 대한 제약이 걸리는데, 임의의 메트릭을 사용하는 대신에 각 파라미터들을 편미분한 로그-우도 함수(log likelihood function)들을 기저 벡터장으로서 사용하고 이들을 곱해서 취한 (벡터장 선택지마다의) 기댓값들의 정방행렬(square matrix)이 positive definite이어야 하는 가정을 한다. 이 가정이 있어야 이 행렬을 비로소 리만메트릭으로 사용하여 미분기하적인 양들을 관측하는 게 유효하기 때문이다.

정보기하에서 위의 두 가지 제약을 만족하는 표준예시로 exponential family 및 mixture family를 들곤 한다. 이 두 예시들 하에서 사용되는 좋은 듀얼 커넥션들 하에 curvature tensor들이 취하는 재미있는 양상들이 있으며 (eg. dual-flatness), 이 내용들은 아주 구체적으로 확률분포함수를 결정해나가는 일에 대한 자연스러운 미분기하학적인 해석과 관점을 제공한다. 많이 언급되는 어플리케이션으로 가설검정(multi hypothesis test)과 관련해서 위에서 정의한 리만메트릭을 이용해서 만든 측지선이 구체적으로 어떻게 사용될 수 있는지는 정보기하의 표준 레퍼런스들을 보면 여러 설명들이 되어있다.

정규-통계다양체의 두 가지 제약 조건은 여러 의미에서 문제가 되고 까다롭다. 일단은 정규-통계다양체에 해당하는 예시는 극히 제한적이며 실제적으로 많은 예시에 해당하는 확률분포의 모임을 다양체로 간주해보면 정규적이지 않다. 이 경우를 특이(singular), singular statistical manifold라 부른다. 이 경우는 두 가지 제약 중 하나는 깨지는 상황을 뜻한다.

위 두 가지 제약은 사실 쿨백-라이블러 함수(divergence) K를 토대로 기술할 수 있다. 첫번째 제약, 파라미터에 해당하는 확률분포함수가 한개 뿐이라는 가정은 사실 쿨백-라이블러 함수 K (=참인 확률분포함수(true pdf)와 파라미터를 토대로 만든 확률분포함수의 차이로 정의한다고 간주하였다)의 zero set (K=0)에 해당하는 파라미터가 오직 한 개여야 한다는 새로운 제약을 만든다. 즉 정규-통계다양체의 가정에서 K의 zero set은 반드시 원소 한개 집합(singletone set)이어야 한다. 또한 위의 리만메트릭은 사실은 K의 헤시안 행렬과 같아서 두번째 제약은 결국 이 행렬이 positive definite이라고 가정한 것과 같다. 이 제약 역시 많은 예시에서 성립하지 않는다.

정규-통계다양체의 문제를 극복하는데 대수기하의 쓰임새는 다음과 같다. 쿨백-라이블러 함수 K를 real analytic function으로 간주한다. 그래서 N=(K=0)인 집합을 대수기하적 공간인 analytic variety로 간주하고 위의 제약 사항들이 문제가 생기는 지점을 대수기하적으로 singular, 즉 탄젠트콘과 접평면이 달라지는 점 p로 묘사하고 특이점 해소(resolution of singularity)를 적용하여 singularity가 제거하는 부분의 집합을 블로우업하여 바꾼다 (Real Analytic variety이므로 비록 복소수체를 사용하지 않음에도 불구하고 히로나카가 필즈메달을 받은 특이점 해소를 적용 가능하다). 그리고 블로우업을 수행한 Bl_p{N}에 대해서는 정규-통계다양체에서 성립하던 논지들을 동일하게 적용할 수 있음을 주장한다 (필요하면 analytic topology의 컴팩트성을 이용하여 블로우업을 유한 번 수행하는 것으로 충분하도록 논지를 맞춘다). 가령 ‘정규’라는 가정을 하지않으면 잃어버리는 중심극한정리 류의 asymptotic normality등의 내용들이 블로우 업 수행 후에는 비로소 의미가 부여되며, 관찰하고자 하는 이 양들이 블로우업 하에서 불변인 birational invariant임이 참임에 대해 수학적으로 증명이 되었다. 스미오 와타나베의 책은 birational invariant와 관련된 네 가지 명제에 대해 소개하는 책으로 각 명제들에 대해서는 1단원에 잘 설명이 되어있다.

책에서 이야기하는 이 논지를 적용할 수 있는 (정규가 아닌) 특이-통계다양체의 예시들은 다음과 같다.

다음의 예시들이 정규가 아닌 특이-통계다양체의 예시에 해당한다:

(1) Layered neural networks

(2) Radial basis functions

(3) Normal mixtures

(4) Binomial and multinomial mixtures

(5) Mixtures of statistical models

(6) Reduced rank regressions

(7) Boltzmann machines

(8) Bayes networks

(9) Hidden Markov models

(10) Stochastic context-free grammar

이 방향은 20세기 초반부터 발전한 고전적인 정보기하인 미분기하적 접근만으로는 확률분포함수의 모임을 기하학적 공간으로 이론적으로 담아내는데 불충분했으며, 이를 극복하기 위해서는 특이점 해소라는 대수기하의 중요한 기술이 필요하고, 이 각각의 다른 기하학들의 색깔들을 동시에 보아야 비로소 무언가를 의미있게 설명할 수 있을 가능성을 보여주고 있다. 사람들이 알고자 하는 여러 데이터들의 기저에 놓인 인과 관계를 현대기하학의 언어로 새로이 해석할 수 있는게 있다면 참 매력적이라 여긴다.

사변.

복소기하를 공부하는 내 사변으로 궁금증을 자아내게 한 건 복소기하의 표준모델에 해당하는 캘러다양체에 대한 의구심이었다. 수학적으로 리만다양체 구조와, 복소구조와 심플렉틱 구조, 이 세 가지 구조 중에 두 구조가 있으면 나머지 한 구조가 반드시 함께 있으며 이 경우 반드시 공간은 캘러 구조를 갖는 캘러다양체이다. 이 관점에서 내가 처음에 정보기하에서 대수기하가 정보량상 유의미하게 쓰인다는 것을 알고나서 궁금했던 점은 통계적 다양체의 일부는 실상 캘러다양체인 경우가 있지 않겠는가 하는 점이었다. 그런데 찾아보니 아니나다를까 통계다양체의 캘러구조는 와타나베가 2010년도에 저 책을 쓴 이후인 2013년에 첫 논문이 나와있었다. 그 다음에 내가 궁금했던 것은 캘러다양체에 해당하는 실제 통계적 다양체의 예시였다. 아니나다를까 찾아보니 2015년도에 페이퍼로 나왔고 이 페이퍼에 따르면 신호처리 필터가 이 예시가 됨이 증명되어있었다. 그리고 이 즈음에 시계열 분석 계열의 통계적 다양체도 캘러다양체 구조를 갖는다는 결과가 나왔다. 다만 현재로선 연구자수가 적음으로 인해 아주 제한적으로 발전하고 있는 것으로 보인다.

도움되길바라며, 관련학과로

선문대 경영학과 알아보세요~

선문대학교 경영학과는

전문적인 경영학 이론과 현장실무 역량을 겸비한

21세기형 글로컬 경영인재육성을 목표로 합니다.

전공 분야 관련 자격증 취득 프로그램,

외국어능력향상 프로그램, IPP장기현장 실습 프로그램,

전공해외연수 프로그램 등을 진행하고 있습니다.

기하 교과목이 통계학과에서 쓰이나요?

미적분하고 기하하고 고민중인데 통계학과에서 쓰이는 수학 중에 기하 교과목 내용이 쓰이나요? 쓰인다면 어느 과목에서 쓰이나요 미적분이 쓰인다는건 알고있어요 기하는 그...

통계학과 관련 세특...

... 통계학과 관련하여 기하학의 개념을 이해하는 것은 중요합니다. 예를 들어, 데이터 시각화를 할 때 기하학적인 개념을 적용하여 데이터를 보다 명확하게 표현할 수...

통계학과 선택과목

수시로 통계학과를 희망해서 생기부 내용은 통계학과로 해놨습니다. 선택과목을 기하,경제,화학,지구과학,인공지능 수학을 현재(고2) 듣고있습니다. 물리를 선택하지 않았는데...

통계학과 과목 선택

... 고3때는 미적을 배우고 고2때는 기하아니면 확통을 배우는데 통계학과가는데 확통대신 기하를 선택한게 불이익으로 작용할 수 있을까요? 통계학과로 지원하려면 확통...

성균관대 통계학과 선택과목

... 필수 이수 과목에 무엇이 있는지 알려주실 수 있으신가요 성균관대를 비롯한 인서울 5개 대학이 권장과목을 공동 발표했는데 통계학과는 확통 미적 기하가 모두 권장과목에...

통계학과 예습

제가 확률과 통계는 단 1도 모르고 미적분 선택해서 통계학과에 들어가게 됐는데... 아 참고로 수능 수학은 1등급 받았고 기초적인 부분은 다 이해하고 있어요 확통, 기하만...