Learn Again! 러너게인

전체 글

[Linear Algebra] Lecture 25 대칭 행렬(Symmetric Matrix)과 스펙트럼 정리(Spectral Theorem) 2017.11.18 17
[Linear Algebra] Lecture 24 마코브 행렬(Markov Matrix) 2017.10.18 7
[Linear Algebra] Lecture 23-(3) 미분방정식과 선형대수(Differential equations and Linear algebra) 2017.10.08

[Linear Algebra] Lecture 25 대칭 행렬(Symmetric Matrix)과 스펙트럼 정리(Spectral Theorem)

2017. 11. 18. 20:54

이번 강의에서는 대칭 행렬(Symmetric Matrix)에 대해 이야기 하도록 하겠다. 지난 강의 에서 간략히 배우긴 했으나, 이번 강의에선 고유값과 고유벡터의 관점에서 대칭 행렬의 특성에 관한 내용을 다룰 것이다. 대칭 행렬은 굉장히 좋은 특성을 가지고 있기 때문에 특이값 분해(Singular Value Decomposition), 주성분 분석(Principal Component Analysis)등 여러 분야에 응용될 수 있다.

1. 대칭 행렬의 개념

- Basic concept of symmetric matrix

이미 지난 강의 Lecture 5-(1)에서 공부했지만, 대칭행렬에 대해 간략히 정리해 보도록 하자. 대칭 행렬은 다음의 조건을 만족하는 행렬이다.

대칭 행렬(symmetric matrix)는 어떤 행렬 A가 있다고 했을 때, 자신의 전치(transpose)행렬이 원래의 자기 자신과 같은 행렬이다. 전치라는 것은 행렬의 임의의 원소의 row와 column의 인덱스가 서로 바뀌어도, 즉 a_ij와 a_ji가 서로 같아야 한다. 이것은 식 (1)의 1번 조건을 만족하는 것이며, 이 조건을 만족하기 위해선 반드시 정방 행렬(square matrix)의 형태이어야만 한다.

식 (1)의 3x3 행렬을 보면 row와 column의 인덱스가 같은 대각 원소(diagonal element)=[8, 3, 6]가 있다. 이 대각 원소를 기준으로 우측 상단의 상삼각행렬의 원소들과 좌측 하단의 하삼각행렬 원소들의 값이 같은 것을 볼 수 있다. 이처럼 전치 이후에도 그 결과가 완전히 같은 행렬을 대칭행렬이라 한다.

2. 대칭행렬과 스펙트럼 정리(Spectral theorem)

- Eigenvalues and Eigenvectors of symmetric matrix

대칭행렬은 보통의 행렬과는 다른 특별한 형태의 행렬이다. 지난 강의 Lecture 24에서 우리는 마코브 행렬(Markov matrix)이 보통의 다른 행렬과는 달리 특별한 형태임을 배웠다. 모든 원소가 0보다 크고, 각 column의 합이 1이 되는 등의 특징을 보였는데, 이와 같이 특별한 특성을 보이는 행렬은 고유값과 고유벡터 역시 어떤 특징을 보이기 마련이다. 마코브 행렬은 적어도 하나의 고유값은 1을 가져야 한다는 특징을 보였다. 이와 마찬가지로 대칭행렬 역시 고유값과 고유벡터가 어떤 특징을 보인다. 그렇다면 대칭행렬은 어떤 특징을 보일까? 아래를 보도록 하자.

대칭행렬은 (2)에 정리된 것과 같은 특성을 보인다. 첫 번째 특성은 대칭행렬의 고유값(eigenvalue)은 전부 실수(Real number)라는 것이다. Lecture 21-(2)에서 회전 행렬(rotation matrix)의 고유값을 구했을 때 허수(complex number)가 나왔었다. 하지만 대칭행렬에서는 절대 이와 같은 허수 고유값이 나오지 않는다. 그 이유는 잠시 후에 설명하도록 하겠다.

두 번째 특성은 대칭행렬의 고유벡터(eigenvector)는 직각(perpendicular)을 이룬다는 것이다. 대칭행렬은 실수인 고유값들을 가지며, 각각의 고유값에 대응되는 고유벡터들은 1차원의 고유공간(eigenspace)을 형성한다. 그리고 각 고유 벡터, 즉 각각의 고유공간들은 서로 직교(orthogonal)하다는 것이 두 번째 특성이다.

- Diagonalization of symmetric matrix

그렇다면 위의 특성으로부터 알 수 있는 것은 무엇일까? 일단 모든 고유벡터들이 서로 수직하다는 특성 2에 주목해보자. 이 특성은 어떤 nxn크기의 대칭행렬(symmetric matrix)은 n개의 서로 수직인 고유벡터들을 가지고 있다는 의미이다. 이는 행렬을 대각화하여 분해(factorization)할 때 특별한 형태를 띄게 된다. 그 특별한 형태를 알아보도록 하자.

먼저 행렬의 대각화(diagonalization) (Lecture 22)에서 배웠듯이 어떤 행렬은 고유벡터행렬과 고유값 대각 행렬의 조합으로 분해될 수 있다.

식 (3)은 임의의 행렬 A를 대각화하여 분해한 모습이며, S는 고유벡터행렬을, 대문자 람다는 고유값행렬을 각각 나타낸다. 그렇다면 대칭행렬은 분해할 때 무엇이 특별하다는 것일까? 특별한 형태가 나타나는 부분은 고유벡터행렬이다. 앞서 언급했듯이 대칭행렬의 고유벡터들은 서로 수직이며, 수직인 벡터들이 column 벡터 형태로써 고유벡터행렬 S를 형성한다. 이때 이 고유벡터들은 정규화(normalization)과정을 거쳐 그 크기를 1로 만들 수 있다. 고유벡터는 크기보단 방향이 의미가 있기 때문에 단위 벡터(unit vector)로 만들어도 문제가 없으며 실제로 MATLAB의 내장 함수 eig()를 이용하여 고유값을 구해도 정규화된 고유벡터가 나온다.

어쨋든 대칭행렬의 고유벡터들은 서로 수직(perpendicular)하며 방향 성분만을 나타내는 단위 벡터(unit vector)로 만들 수 있다. 이들은 정규직교벡터(orthonormal vector)이며, 이 정규직교벡터인 고유벡터들을 모아 행렬을 만들었기 때문에 결과적으로 대칭행렬의 고유벡터행렬은 정규직교행렬(orthonormal matrix)이 된다. 이제 대칭행렬의 분해는 아래와 같은 식으로 표현할 수 있다.

대칭행렬의 경우 식 (4)와 같이 원래의 고유벡터행렬 S가 정규직교행렬을 나타내는 Q로 대체되었다. 정규직교행렬은 Lecture 17-(1)에서 배운바 있다. 정규직교행렬은 역행렬이 전치(transpose)와 같음을 이미 배웠다. 따라서 (4.1)의 우변의 Q의 역행렬은 (4.2)와 같이 Q의 전치 행렬로 간단히 표현할 수 있다. 결과적으로 대칭행렬은 식 (4.2)와 같이 정규직교행렬 Q와 고유값 행렬 람다, 그리고 Q의 전치의 곱으로 분해하여 표현할 수 있으며, 이는 선형대수에서 굉장히 중요한 식이므로 잘 알아두도록 하자. 또한 반대로 해석하면 어떤 행렬을 (4.2)와 같이 분해하여 표현할 수 있다면, 그 행렬은 대칭행렬이라고 할 수 있다.

식 (4.2)가 대칭행렬인지를 증명할 수 있는 방법이 한 가지 있다. 바로 (4.2)를 전치(transpose)시켜보는 것이다.

식 (4.2)를 전치시키면 (4.3)을 거쳐 (4.4)와 같이 정리할 수 있다. 우선 각 행렬의 순서가 뒤집혀서 곱해지는데, 첫 번째 Q는 전치에 전치를 거쳐서 원래의 Q로, 고유값행렬은 대각행렬이기 때문에 원래 행렬 그대로, 마지막 Q는 전치된 행렬로 각각 정리할 수 있다. 결과 식인 (4.5)를 보면 전치를 하기 이전의 식인 (4.2)와 같은 것을 볼 수 있다. 결국 대칭행렬의 분해식을 기준으로 전치를 시켜도 분해식의 결과가 같기 때문에 대칭행렬의 분해를 식 (4.2)와 같이 정리할 수 있다.

아래 그림은 식 (4.2)를 검증하기 위한 MATLAB 코드와 그 결과이다.

Fig. 1 대칭행렬의 분해. [Left] 실행 결과. [Right] 소스코드

Fig. 1의 프로그램 결과를 살펴보면 먼저 대칭 행렬 A에 대한 고유값과 고유벡터를 구한 뒤, 이를 식 (4.2)와 같이 다시 곱하였다. 결과값이 정확히 원래의 대칭행렬과 일치하는 것을 볼 수 있다.

- Special case

앞서 우리는 대칭행렬이 전부 실수(real number)인 고유값을 가지고, 고유벡터들은 모두 수직(perpendicular)하다는 것을 배웠으며 이를 식 (2)에 정리하였다. 그런데 식 (2)의 특성 2번의 "대칭행렬의 고유벡터들은 서로 수직이다"는 어떤 특수한 형태의 대칭행렬인 경우엔 약간 다르게 표현되어야 한다. 여기서 특수한 형태의 대칭행렬은 바로 단위 행렬(Identity matrix)을 의미하며, 이 경우 특성 2는 다음과 같이 표현될 수 있다.

"고유벡터들은 서로 수직한 벡터들로 선택될 수 있다"

왜 이와 같이 표현하는지 당장은 이해가 가지 않을 것이다. 다음의 2x2 단위행렬의 고유값과 고유벡터를 구해서 그 이유를 알아보자.

식 (5)는 대칭행렬이 단위행렬일 때의 고유값과 고유벡터를 나타낸 것이다. 행렬이 단위행렬이기 때문에 고유값은 식 (5.1)과 같이 A가 없는 것과 마찬가지로 볼 수 있다. 따라서 식을 만족시키는 고유값은 오직 1이기 때문에 두 개의 고유값 모두 1이 된다. 여기서 중요한 포인트는 고유값이 반복(repeated eigenvalue)된다는 것이다. 이렇게 고유값이 반복되는 경우엔 어떠한 벡터라도 고유벡터가 될 수 있다. 식 (5.2)를 보면 고유벡터를 구하는 과정에서 행렬의 모든 원소가 0이 되고, 이때의 null space(고유벡터공간을 의미)는 어떠한 벡터이든 가능하게 된다. 즉 2x2행렬 기준으로 전체 평면이 고유벡터가 되는 것이다. 이 수많은 벡터들중 어떠한 벡터들을 고유벡터로 선택하든 식은 성립한다. 그러나 어떠한 벡터든지 고유벡터가 될 수 있다면, 기왕이면 서로 수직한 벡터(위의 경우엔 x1=[1 0]T, x2=[0 1]T )를 선택하는 것이 여러 모로 더 유리하다고 볼 수 있다. 그렇기 때문에 식 (2)의 특성 2가 "고유벡터들은 서로 수직한 벡터들로 선택될 수 있다" 로 정의할 수 있는 것이다.

- Spectral Theorem

지금까지 우리는 대칭행렬을 대각화하여 분해하는 과정을 살펴보았다. 이쯤에서 스펙트럼 정리(spectral theorem)에 대해 알아보자. 사실 스펙트럼 정리라는 것은 별다를 것이 없다. 우리가 지금까지 대각행렬을 대각화하여 분해하는 과정이 전부 스펙트럼 정리에 기반하여 이루어진 것이다. 스펙트럼 정리는 아래와 같다.

스펙트럼 정리(Spectral Theorem) :
nxn 크기의 에르미트 행렬(Hermitian matrix 또는 self-adjoint matrix)은 아래 식과 같이 실수로 이루어진 고유값행렬와 유니터리 행렬(Unitary matrix) U로 대각화 과정을 통해 분해할 수 있다.

일단 식을 보아하니 (4.2)와 유사하게 생기긴 했는데, 어려운 용어가 나오고 지수부에 이상한 기호도 보여서 헷갈리는 분들도 있을 것이다. 그러나 어렵게 생각할 필요 없다. 차근차근 알아보자.

에르미트 행렬(Hermitian matrix)은 행렬이 가질 수 있는 값들을 실수와 함께 복소수까지 고려하여 확장하여 설명한 개념이다. 즉 복소수를 원소로 가지고 있는 정방 행렬이고, 자기 자신과 그의 켤레전치(conjugate transpose)행렬이 같은 행렬을 의미하며 다음의 식을 만족시킨다.

에르미트 행렬은 일단 (6.2)와 같이 대각 원소들은 반드시 실수(Real number)여야 한다. 또한 (6.2)의 왼쪽의 행렬 A에서 먼저 전치(transpose)를 한 뒤, 켤레 복소를 해주면 결국 원래의 행렬과 같아진다. 이러한 조건들을 만족시키는 행렬을 에르미트 행렬이라 한다. 지금까지 우리는 실수로만 이루어진 행렬만 다루어 왔지만, 사실 행렬의 원소로 복소수(complex number)가 올 수 있기 때문에 에르미트 행렬에 대해 알아두면 좋다.

유니터리 행렬(unitary matrix) 역시 에르미트 행렬과 정의가 거의 유사하다. 복소수를 원소로 가질 수 있으며 원래의 행렬과 켤레전치(conjugate transpose)가 같은 행렬이다.

식 (7)과 같이 자기 자신과 켤레전치행렬을 곱하면 단위 행렬(Identity matrix)이 되므로 결국 켤레전치행렬은 원래 행렬의 역행렬과 같다. 이 외에도 정규화된 행렬(normalized matrix)이고, 대각화가 가능(diagonalizable)하고, 고유 공간이 서로 직교(orthogonal)하는 등 여러 특성들이 존재한다. 자세한 사항은 위키를 참고 하자. (※ 켤레전치행렬(conjugate transpose matrix)의 표현은 선형대수에서는 * 혹은 H 둘 다 사용 가능하다. 즉 와 는 같은 의미이다. 양자역학(quantum mechanics)에서는 dagger를 사용)

중요한것은 유니터리 행렬 U의 각 column은 U의 고유벡터(eigenvector)라는 것이다. 그런데 스펙트럼 정리에 의해 A가 U와 실수 고유값행렬 $\Lambda$로 분해할 수 있으므로 U의 고유벡터들은 곧 A의 고유벡터가 된다.

여기서 다시 한 번 생각해보자. 스펙트럼 정리가 의미하는 것은 어떤 복소수를 가질 수 있는 nxn크기의 정방행렬인 에르미트 행렬 A가 있고, 이 행렬은 실수로 이루어진 고유값행렬 $\Lambda$와 유니터리 행렬인 U와 U의 켤레전치행렬 $U^H$로 분해할 수 있다. 또한 유니터리 행렬의 성질에 의해 U의 역행렬은 U의 켤레복소행렬과 같고, U의 각 column vector는 서로 직교(orthogonal)한다. 이때 U의 column vector들은 A의 고유벡터들이다.

바로 위에서 정리한 내용들을 보고 이미 눈치채신 분들이 있을 것이다. 그렇다. 스펙트럼 정리는 대칭행렬의 대각화와 매우 유사하다. 식 (4.2)와 비교해보면 더욱 잘 이해할 수 있을 것이다. 에르미트 행렬이 정의하는 것이 복소행렬까지 포함한 것을 제외하면 스펙트럼 정리에서 에르미트 행렬을 대칭행렬로 놓고 이해해도 무리가 없을 정도이다. 결과적으로 우리는 실수대칭행렬(real symmetric matrix)의 대각화를 스펙트럼 정리로 설명할 수 있다.

스펙트럼 정리는 마치 빛을 서로 다른 파장을 가지는 스펙트럼으로 쪼개서 나타낼 수 있는 것과 같다. 원래는 그냥 하얗게 보이는 빛을 프리즘에 통과시켜보면 여러 색깔로 이루어져 있음을 알 수 있다. 마찬가지로 스펙트럼 정리도 어떤 행렬을 순수 고유값(pure eigenvalue)과 순수고유벡터(pure eigenvector)로 분해하여 표현할 수 있다는 의미에서 빛의 스펙트럼과 그 의미가 같다고 할 수 있다.

어떤 행렬이 선형 변환(Linear transformation)을 시킴에 있어서 얼마만큼(고유값), 어느 방향으로(고유벡터) 변환시키는 지에 대한 순수 값들로 분해하는 과정. 마치 하얀 빛을 여러 파장의 순수한 빛들로 분해하여 나타내는 것과 같은 느낌으로 받아들이면 좋을 것 같다. 그러한 측면에서 대칭행렬은 정규직교(orthonormal)한 고유벡터와, 역행렬이 전치와 같음으로 인한 계산의 편의성 등 유용한 특성을 지니고 있는 좋은 특성을 지닌 행렬이라고 할 수 있다.

- Why real eigenvalues?

이제 처음 부분에서 공부했던 대칭행렬의 특성문제로 돌아가보자. 식 (2)의 특성 1은 대칭행렬이 실수인 고유값을 가진다고 했다. 왜 그런지 알아보도록 하자.

식 (8)은 A가 실수 대칭행렬(real symmetric matrix)일 때를 가정하여 정리한 것이다. 식 (8.1)은 우리가 이미 잘 알고있는 고유값/고유벡터에 대한 식이다. 여기서 양변에 복소켤레(complex conjugate)를 취하면 (8.2)와 같이 된다. 복소켤레는 실수부(real part)는 그대로두고 허수부(imaginary part)의 부호가 반대로 바뀌는 것을 의미하며, 표기는 각 알파벳 기호 위에 bar를 써서 표현한다. 양변에 똑같이 복소켤레를 취해도 여전히 식은 성립하기 때문에 (8.2)와 같이 정리할 수 있다.

사실 (8.1)에서 (8.2)로 넘어가는 과정이 의미하는 것이 있다. 어떤 실수 행렬 A에 대한 고유값이 복소수 형태라면, 원래의 고유값 와 그의 켤레값(conjugate)인 가 쌍(pair)으로 존재한다. 이는 고유벡터에도 마찬가지로 적용이 되어 와 의 형태로 나타난다.

그러나 여기서 증명하고자 하는 것은 행렬 A가 실수 대칭행렬일 때 고유값은 항상 실수라는 것이다. 따라서 이를 보이기위해 양변을 전치시켜주면 전치의 규칙에의해 순서가 바뀌어 (8.3)과 같이 정리할 수 있다. 여기서 행렬 A는 실수로 이루어진 대칭행렬이라 가정하였으므로 켤레(conjugate)와 전치(transpose)가 의미가 없어진다. 결과적으로 A의 bar와 전치 기호가 제거된 (8.4)와 같은 형태로 정리할 수 있다. 사실 (8.4)에서 고유값인 λ는 상수이기 때문에 x앞으로 빼서 정리해도 되지만, 전치의 결과를 보이기 위해 바뀐 순서를 그대로 하여 정리하였다.

이제 식 (8)로부터 고유값이 실수(real number)임을 증명해보자. 어떻게 할 수 있을까? 식 (8.1)과 (8.4)를 이용하면 된다. 아래 식을 보자.

먼저 식 (8.1)의 양변의 좌측에 $\bar{\textbf{x}}^T$를 곱해주면 (9.1)과 같이 정리할 수 있다. 람다는 상수이기 때문에 앞으로 빼서 정리할 수 있음을 기억하자. 다음으로 (8.4)의 양변의 우측에 x를 곱해주면 (9.2)와 같이 정리가 된다. 이때 (9.1)과 (9.2)의 좌변에 $\bar{\textbf{x}}^T A\textbf{x}$가 존재하는 것을 볼 수 있다. 따라서 식 (9.3)과 같이 (9.1)의 좌변과 (9.2)의 좌변이 같다고 정리할 수 있고, 다시 (9.3)의 양변을 $\bar{\textbf{x}}^T \textbf{x}$로 나눠주게 되면 결과적으로 람다와 람다 bar는 같다고 정의할 수 있다. 즉 복소수인 고유값과 그의 켤레(conjugate)가 같다는 것은 허수부(imaginary part)의 값이 0과 같다는 의미이다. 따라서 이때의 고유값은 항상 실수(real number)라고 할 수 있다.

정리하자면 실수 대칭행렬인 A가 있을 때, A에 대한 고유값/고유벡터 식을 (8.1)과 같이 정의하고 그의 켤레 전치(conjugate transpose)에 대한 식을 (8.4)와 같이 도출한다. 이때 행렬이 실수 대칭행렬이기 때문에 (8.4)의 A에는 bar와 transpose기호가 없어진다. 이렇게 만들어진 고유값에 대한 식 (8.1)과 (8.4)를 이용하여 양변에 적절한 수를 곱해주어 (9.3)의 관계를 도출하였고, 이를 통해 결과적으로 실수 대칭행렬(real symmetric matrix)은 고유값이 무조건 실수(real number)라는 식 (2)의 조건 1을 증명한 것이다.

지금까지의 과정을 통해 우리는 실수대칭행렬은 식 (2)에서와 같이 고유값은 언제나 실수(real number)이며 고유벡터들은 서로 수직(perpendicular)임을 증명하였다. 대각화(diagonalization)과정을 통해 실수대칭행렬을 분해하면 일반적인 행렬과는 달리 정규직교(orthonormal)한 고유벡터행렬 Q로 분해할 수 있으며, 이때 Q는 역행렬을 전치(transpose)를 통해 간단히 구할 수 있다. 이처럼 실수 대칭행렬은 좋은 특성들을 가지고 있기 때문에 굳이 이름을 붙이자면 좋은 행렬(good matrix)이라고 하겠다. 바꿔 말하면 좋은 행렬이 되기 위해선 대칭행렬이 가지는 특성들, 실수인 고유값과 직교인 고유벡터의 특성들을 가지고 있어야하며 실은 대칭행렬 그 자체가 되면 된다.

우리는 지금까지 실수로 이루어진 행렬만을 가정하고 문제를 풀어왔다. 하지만 행렬에는 허수가 포함된 경우도 있을 수 있다. 만약 허수가 포함된 행렬이 있다면, 이또한 좋은 행렬이 될 수 있을까? 다시 말하면 허수가 포함된 대칭행렬도 실수인 고유값을 가지고 고유벡터들이 서로 직교(orthogonal)할 수 있을까? 결론부터 말하자면 어떤 허수가 포함된 대칭행렬(complex symmetric matrix) A가 이와 같은 특성을 가지기 위해선 A의 켤레전치행렬(conjugate transpose matrix)이 원래의 A와 같아야 한다는 조건을 만족시켜야 한다.

좋은 행렬(good matrix, 실수 고유값, 직교 고유벡터)이 되려면...

A가 실수(real number)로만 이루어져 있을 때

A가 허수(complex number)도 포함할 때

를 만족시켜야 한다.

를 만족시켜야 한다.

위 테이블의 좌측은 우리가 지금까지 다뤄왔던 A가 실수로만 이루어진 경우에 좋은 행렬이 되기 위한 조건이다. 반면에 오른쪽은 A가 허수를 포함한 경우에 좋은 행렬이 되기 위한 조건을 나타낸다. 원래의 행렬과 켤레전치행렬이 같은 경우에 좋은 행렬이 될 수 있다. 그런데 테이블의 오른쪽 허수를 포함한 행렬은 이번 강의에서 이미 다룬 것이다. 바로 식(6)의 에르미트 행렬(Hermitian matrix)이다. 행렬의 원소를 복소수가 포함된 경우까지 확장하여 생각해보면 에르미트 행렬인 경우에 좋은 행렬이 될 수 있다는 결론이 나온다. 에르미트 행렬이 되기 위해선 켤레전치행렬이 같아야 하고, 켤레전치행렬이 같기 위해선 서로 대응되는 원소, 즉 위의 경우엔 (1, 2)의 1+i와 (2, 1)의 1-i가 서로 켤레(conjugate)의 관계여야 한다. 물론 실제 응용문제에서는 거의 대부분이 실수대칭행렬문제이긴 하지만 그래도 실수대칭행렬과 에르미트 행렬의 차이를 잘 알아두도록 하자.

3. 대칭행렬의 그 외의 특징들

- projection matrices in symmetric matrix

대칭행렬을 해석하는 또 다른 관점이 있다. 이미 알다시피 대칭행렬은 대각화를 통해 Q와 Λ의 곱으로 분해할 수 있다. 이 식을 다시 써보자.

식 (10.1)은 분해된 행렬의 원소들이 곱해지는 과정을 자세히 풀어서 작성한 것이며, Lecture 3에서 배웠던 행렬 곱셈에 따라 column * row의 곱의 조합으로 나타낸 것이다. (10.2)와 (10.3)은 (10.1)의 우변에 해당하는 각각의 항들을 보다 이해하기 쉽게 시각화한 것이다. 이미 배운대로 column * row의 순으로 벡터를 곱하면 하나의 행렬이 만들어지는데, 여기에선 같은 벡터끼리 곱해줬기 때문에 (10.3)과 같이 nxn크기의 정방행렬이 나올 것이다. 모든 대칭행렬들이 이와 같은 조합(combination)의 형태로 표현될 수 있다.

그렇다면 (10.3)에서 표현된 각 람다와 곱해진 정방행렬들은 무엇일까? 바로 상호간 서로 독립인 투영행렬(mutually independent projection matrix)이다. 투영행렬에 대한 내용은 Lecture 15를 참고하자. (10.3)의 각 투영행렬은 n개 만큼 나오고, rank는 1이다. 이는 대칭행렬 A가 nxn의 정방행렬이고 역행렬의 계산이 가능하다면 이때의 대칭행렬은 full rank일 것이고, 따라서 n개의 투영행렬의 조합이 가능하다면 각 투영행렬은 rank=1이 될 것이다. 이는 결국 스펙트럼 정리의 측면에서 보자면 nxn크기의 대칭행렬 A는 n개의 투영행렬과 고유값의 조합으로 표현이 가능하다는 것을 알 수 있다.

대칭행렬이 실제로 어떻게 투영행렬의 조합으로 표현될 수 있는지 그래프를 통해 알아보도록 하자. 먼저 임의의 대칭행렬의 고유값과 고유벡터를 구해보자.

(11.1)은 대칭행렬, (11.2)는 고유값, (11.3)은 아직 정규화(normalization)되지 않은 상태의 고유벡터를 각각 나타낸다. 자세한 풀이 방법은 Lecture 21-(2)을 참고하자. 다음으로 고유벡터를 정규화 한 뒤, (10.3)과 같이 투영행렬의 조합으로 표현해보자.

(12.1)은 (10.1)의 형태로, (12.2)는 (10.3)의 형태로 정리한 것이다. 여기서 고유값 바로 뒤에 곱해진 정방행렬들이 바로 투영행렬들이다. 이제 (11.1)의 대칭행렬 A의 선형변환을 그래프로 표현해보자.

Fig. 2 식 (11)의 대칭행렬의 선형변환 그래프

파란색 벡터는 변환 전, 빨간색 점선 벡터는 A에 의해 변환된 벡터를 의미하며, 벡터의 끝 부분에는 변환 전 원래 벡터의 좌표가 표시되어 있다. 변환 전과 변환 후의 벡터의 모습을 보고 대략적으로 이 행렬이 어떤식으로 변환을 시키는지를 유추할 수 있다. 변환의 방향은 고유벡터, 변하는 정도는 고유값이 영향을 미친다는 것을 알아두자.

그렇다면 (12.2)에서 정리한 각 고유벡터의 투영행렬을 이용하여 위의 파란색 벡터를 투영시키면 어떤 모습이 될까? 바로 아래 그림과 같은 모습이 될 것이다.

Fig. 3 (12.2)의 첫 번째 투영행렬을 이용하여 투영시킨 모습

Fig. 4 (12.2)의 두 번째 투영행렬을 이용하여 투영시킨 모습

Fig. 3과 4는 각각 (12.2)의 첫 번째와 두 번째 투영행렬을 이용하여 원래의 파란벡터들을 투영시킨 모습이다. 결과적으로 파란 벡터들이 투영행렬 A의 고유공간(eigenspace)으로 투영(projection)된 것을 볼 수 있다. 이것을 그래프상에서 해석해보면 Fig. 3의 투영된 벡터와 Fig. 4에서 투영된 벡터를 더하면 Fig. 2의 대칭행렬로 변환된 벡터와 일치한다는 것이다. 즉 예를 들면 [1, 1]의 벡터를 첫 번째 투영행렬로 투영시킨 벡터와, 두 번째 투영행렬로 투영시킨 벡터를(고유값의 곱도 포함함) 서로 더하면 [1, 1]을 A로 변환시킨 벡터와 같다는 것이다. 아래 그림은 [1, 1]의 투영에 대한 예시이다.

Fig. 5 (11.1)의 대칭행렬을 이용한 [1, 1]벡터의 투영 예시

Fig. 5의 파란색 벡터는 [1, 1]의 변환 전 벡터를 나타내고 빨간색 벡터는 첫 번째 투영 벡터, 두꺼운 자홍색 벡터는 두 번째 투영벡터를, 녹색 벡터는 대칭행렬 A에 의해 변환된 벡터를 각각 의미한다. 얇은 자홍색 벡터는 첫 번째 투영벡터와 두 번째 투영벡터를 더한 결과를 나타낸다. 더한 결과가 일치하는 것을 볼 수 있다. (대칭행렬일 때만 항상 성립함을 주의하자) 이것을 스펙트럼 정리에 적용시켜 이해해보면 각각의 투영행렬은 대칭행렬의 스펙트럼(spectrum)이라고 이해해도 무리가 없다.

이를 통해 우리는 다음의 결론을 내릴 수 있다.

모든 대칭행렬은 상호수직(mutually perpendicular)인 투영행렬들의 조합으로 표현될 수 있다.

아래는 MATLAB코드이다.

- pivots and eigenvalues

마지막으로 살펴볼 대칭행렬의 특징은 피벗(pivot)에 관한 것이다. 정확히는 피벗과 고유값 사이의 관계에 관한 내용이다. 얼핏 생각하면 피벗과 고유값은 별 관계가 없을 것 같지만 한 가지 공통점이 있다. 바로 부호(sign)와 관련된 것인데, 바로 대칭행렬에서 피벗과 고유값은 같은 부호를 갖는 원소의 개수가 같다는 것이다. 쉽게 예를 들어 설명하면 100x100크기의 정방행렬이 있을 때, 피벗과 고유값의 개수도 똑같이 100개가 될 것이다. 여기서 100개의 피벗 중 56개의 피벗이 양수이고, 나머지 44개의 피벗이 음수라고 가정하자. 이때 고유값도 마찬가지로 100개 중에 56개의 고유값이 양수, 나머지 44개의 고유값이 음수가 된다. 이것이 대칭행렬에서 피벗과 고유값의 부호에 관한 관계이다. 아래의 식을 보자.

식 (13.1)의 2x2 행렬은 양수와 음수 피벗이 한 개씩 존재한다. 마찬가지로 고유값도 양수와 음수 한 개씩 존재하는 것을 볼 수 있다. (13.2)의 경우엔 피벗이 둘 다 양수이고 고유값도 마찬가지로 둘 다 양수임을 볼 수 있다.

그렇다면 위와 같은 피벗과 고유값 사이의 부호 관계는 왜 알아야할까? 일단 Lecture 23-(1)에서 공부했던 미분방정식에서 고유값의 부호가 해당 시스템의 안정성(stability)에 영향을 미치는 등 중요한 역할을 한다는 것을 이미 배운바있다. 고유값의 부호가 중요하다는 것은 알겠는데, 피벗과는 왜 연관지어서 알아야할까?

지금까지 우리가 다루어왔던 행렬들은 그 크기가 2x2, 3x3, 아무리 커 봐야 4x4 정도였다. 하지만 어떤 시스템에서는 50x50, 100x100, 혹은 그 이상의 크기의 행렬을 다루어야 하는 경우도 발생할 수 있다. 우리가 배웠던 고유값을 구하는 방식은 det(A-λI)의 꼴로 놓고 λ에 대한 다항식(polynomial)을 만들어 푸는 방식이다. 그러나 차수가 증가함에따라 고차다항식을 풀어서 고유값을 구해야 하는데, 고차로 갈 수록 해(solution)의 불안정성이 커지게 된다. 즉 100x100의 고유값을 구하려면 100차 다항식을 풀어야 한다는 소리다.

이와 같은 커다란 행렬의 고유값을 구하려면 기존의 방법보다는 수치선형대수(numerical linear algebra)의 방법을 이용해서 값을 구하는 것이 훨씬 안정적이다. 즉 피벗 같은 경우엔 MATLAB같은 프로그램으로 비교적 안정적으로 해를 구할 수 있으므로 우선 피벗을 구해서 양의 개수가 몇 개인지, 음의 개수가 몇 개인지를 안 다음, 거기서부터 수치해석적으로 고유값을 구해나가는 방식을 사용하는 것이다.

자세한 것을 다루진 않겠지만 고유값을 수치적으로 구하기 위해서 사용되는 중요한 사항이므로 이러한 것이 있다는 것 정도만 알아두도록 하자.

4. 마치며

이번 강의에선 대칭행렬의 여러 가지 특성과 스펙트럼 정리에 대해 알아봤다. 기본적으로 대칭행렬은 실수인 고유값, 그리고 서로 수직인 고유벡터들을 가지며 이를 통해 행렬을 대각화하여 분해할 때 전치연산으로 간단히 역행렬을 구할 수 있는 등 좋은 특성들이 있음을 배웠다. 이러한 좋은 특성들은 특이값 분해(SVD), 주성분 분석(PCA)등의 연산에 기본이 되는 성질이다. 또한 대칭행렬은 스펙트럼 정리로 설명할 수 있으며, 행렬 원소를 복소수까지 확장한 에르미트 행렬에 대해서도 공부하였다. 이번 대칭행렬은 앞으로의 강의에서 다룰 positive definite matrix에 대한 준비과정이므로 잘 공부하도록 하자.

저작자표시 비영리 변경금지

'Fundamentals > Linear Algebra' 카테고리의 다른 글

[Linear Algebra] Lecture 26-(2) 정규직교기저와 푸리에 급수 그리고 오일러 공식(Orthonormal basis, Fourier series and Euler's formula) (3)	2018.01.01
[Linear Algebra] Lecture 26-(1) 푸리에 급수와 직교성 (Fourier Series and Orthogonality) (12)	2017.12.10
[Linear Algebra] Lecture 24 마코브 행렬(Markov Matrix) (7)	2017.10.18
[Linear Algebra] Lecture 23-(3) 미분방정식과 선형대수(Differential equations and Linear algebra) (0)	2017.10.08
[Linear Algebra] Lecture 23-(2) 미분방정식과 선형대수(Differential equations and Linear algebra) (8)	2017.08.15

[Linear Algebra] Lecture 24 마코브 행렬(Markov Matrix)

2017. 10. 18. 20:17

이번 포스팅에서는 마코브 행렬(Markov matrix)에 대해 다루도록 하겠다. 마코브 행렬은 이전 강의에서 다루었던 행렬의 대각화 Lecture 22와 관련이 깊기 때문에 앞선 포스팅을 먼저 학습하길 바란다.

1. 마코브 행렬과 마코브 체인

- What is the Markov matrix and Markov chain?

마코브 행렬(Markov matrix)은 1906년에 러시아의 수학자 Andrey Markov에 의해 처음으로 언급된 개념이다. 마코브 행렬은 마코브 체인(Markov chain)을 기술하기 위한 수학적 도구인데, 확률적 방법을 기반으로 하기 때문에 확률 행렬(stochastic matrix or probability matrix)로 불리기도 한다.

여기서 마코브 체인은 확률을 이용하여 어떤 객체 상태를 시간에 따라 어떻게 변화할지를 모델링(modeling)하는 것이다. 말이 약간 어려워 보이지만 쉽게 말하자면 날씨 예측, 인구 이동 예측 등과 같이 어떤 객체(날씨, 인구)의 상태(맑음, 흐림, 10만명, 5만명, ...)가 시간이 지남에 따라 어떻게 변화할지를 확률을 이용하여 예측하는 것이다. 체인(chain)이라는 단어가 의미하듯이 객체의 시간에 따른 서로 다른 상태를 어떻게 연결할지를 기술하는 것이 마코브 체인이며, 이들을 연결시켜주는 매개체 역할을 마코브 행렬이 하는 것이다.

마코브 체인(Markov chain)은 마코브 프로세스(Markov process)와 혼용되기도 하는데, 이 둘을 구분 짓는 정확한 정의는 없다. 다만 일반적으로 객체의 상태 공간이 이산 시간(discrete time)이면 마코브 체인, 연속시간(continuous time)이면 마코브 프로세스로 정의한다.

마코브 행렬은 다른 말로 전이 행렬(transition matrix), 또는 치환 행렬(substitution matrix)이라고도 한다. 마코브 행렬이 왜 이렇게 불리는지 아래의 그림을 통해 알아보자.

Fig. 1 삼성 갤럭시 핸드폰과 애플 아이폰의 시장 점유율 예측에 관한 마코브 체인 상태 전이 다이어그램(Markov chain state transition diagram)

Fig. 1은 삼성 갤럭시 핸드폰과 애플의 아이폰에 대한 시장 점유율을 마코브 체인으로 표현한 것이다. 물론 수치는 임의로 정한 것들이다. Fig. 1과 같은 도표를 마코브 체인 상태 전이 다이어그램(Markov chain state transition diagram)이라고 한다. 마코브 체인은 기본적으로 각 상태들이 다른 상태로의 전이(transition)가 얼마의 확률로 이루어질 것인가를 기술한다.

애플의 아이폰을 사용하는 것을 state 1, 삼성의 갤럭시 핸드폰을 사용하는 것을 state 2로 각각 정의했고, 각 상태가 다른 상태로 전이되는 행위를 화살표로 표시하였다. 상태전이는 자기 자신으로 될 수도 있는데, 아이폰의 경우 상태(state)가 자기 자신으로 전이되는 것은 현재 아이폰을 사용하고 있는 유저가 계속 아이폰을 사용하는 것을 의미하며, 그 확률을 71.4%로 정의하였다. 반면 아이폰을 쓰던 유저가 갤럭시폰으로 갈아탈 확률은 28.6%라고 정의하였다. 이것을 state 1에서 state 2로 상태가 전이 될 확률로 해석할 수 있다.

마찬가지로 삼성의 갤럭시폰을 쓰던 유저가 계속 갤럭시 폰을 사용할 확률은 63.7%, 아이폰으로 갈아탈 확률은 36.3%로 각각 정의하였다. 이것이 마코브 체인 상태 전이 다이어그램이다.

우리가 이와 같이 마코브 체인을 구성한 이유는 앞선 문제의 경우엔 결국 핸드폰 사업에서 두 회사의 앞으로의 시장 점유율을 예측하기 위함이다. 마코브 방법을 이용하여 앞으로의 상태를 예측하기 위해선 먼저 위 그림과 같이 마코브 체인을 정의하고, 현재 시간의 상태와 그 다음 시간의 상태 사이를 연결시켜줄 수 있는 매개체인 마코브 행렬을 구해야한다. 마코브 행렬은 마코브 체인에서 각 상태로 전이될 확률만 나오면 쉽게 구할 수 있다. Fig. 1의 마코브 체인에 대한 마코브 행렬은 아래와 같다.

식 (1)의 좌측의 행렬 M이 바로 마코브 행렬(Markov matrix)이다. 행렬의 각 원소는 어떤 상태에서 자기 자신, 혹은 다른 상태로 전이될 확률값을 가진다.

행렬을 해석할 땐 column의 인덱스를 시작 상태로 보고, row의 인덱스를 전이 되는 상태로 보면 된다. 즉 M의 첫 번째 column인 Apple을 시작 상태로 봤을 때, 다시 Apple이 될 확률을 row 1로 보고 이때의 값은 0.714가 된다. Apple에서 Samsung으로 전이 될 확률은 row 2가 되며, 이때의 값은 0.286이다. 마찬가지로 두 번째 column인 Sam을 시작 상태로 봤을 때, Apple로 상태가 전이 될 확률은 row 1이 되고 그 값은 0.363이 되며, 다시 자기 자신인 Sam으로 될 확률은 row 2이고 값은 0.637이다. 결국 어떤 시작 상태에서 다시 자기 자신이 될 확률은 column과 row가 같은 인덱스를 가질 때이며, 각 column의 인덱스를 시작 상태로 하여 다른 상태로 전이될 확률을 보고 싶으면 각 column에 해당하는 row의 원소들을 보면 된다.

식 (1)의 우측에 있는 u는 Fig. 1에서 Apple과 Samsung의 현재의 시장 점유율을 의미한다. 주어진 마코브 행렬의 우측에 u를 곱한 결과는 다음 시점에서의 시장 점유율의 예측값이 된다.

참고로 필자가 마코브 행렬을 표현한 방식은 column을 기준으로 만든 행렬인데, 어떤 사람들은 row를 기준으로 행렬을 구성하기도 한다. 즉 row인덱스가 시작 상태가 되고 column이 전이될 상태를 의미하는 것이다. 이 경우 마코브 행렬은 column 기준 마코브 행렬이 전치(transpose)된 형태가 되며, 현재 상태인 u도 역시 전치된 row 벡터 형태로써 M의 좌측에 곱해진다. 어떤 방법이 더 옳다고 할 순 없지만, 필자는 column 기준 방식을 선호하기 때문에 이번 강의에서는 column 기준 마코브 행렬을 사용하도록 하겠다.

이제 마코브 체인(Markov chain)과 마코브 행렬(Markov matrix)이 어떤 것을 의미하는지 대략적으로 파악했을 것이다. 자세한 풀이는 이후에 하도록 하고 먼저 마코브 행렬이 가지는 특성에 대해서 알아보도록 하자.

2. 마코브 행렬의 특성

- Properties of Markov matrix

아래 행렬은 임의의 3x3크기의 마코브 행렬을 만든 것이다.

식 (2)에 표현된 마코브 행렬에서 어떤 특징이 보이는가?

마코브 행렬의 첫 번째 특징은 모든 원소의 값이 0보다 크거나 같다는 것이다. 즉 오직 양수만 허용된다. 마코브 행렬은 기본적으로 상태들의 전이 확률(transition probability)을 나타내기 위한 행렬이므로 확률값을 원소로 가진다. 확률 값에는 음수가 있을 수 없기 때문에 마코브 행렬의 원소값들은 반드시 0보다 크거나 같은 양수만 올 수 있다. 또한 마코브 행렬은 시간이 지남에 따라 변화하는 상태를 기술 및 예측하기 위한 행렬이므로 행렬의 거듭제곱이 발생한다. 이때 거듭제곱의 결과값도 모두 양수가 된다.

두 번째 특징은 각 column의 원소의 합은 1이 된다는 것이다. 식 (2)의 column 1의 원소들을 모두 더해보자. 그 결과값은 1이 되고, column 2, column 3도 마찬가지이다. 이 두 번째 특징은 마코브 행렬을 거듭제곱해도 마찬가지로 성립한다. 즉 M2=MxM 이라고 했을 때(M은 마코브 행렬을 의미), M2의 각 column 원소들의 합은 역시 1이 되는 것이다. column의 원소의 합이 1이 되어야 하는 이유는 하나의 column은 어떤 상태에 대한 모든 전이 확률을 나타내기 때문이다. 즉 column 1이 자기 자신이 될 확률(row1), 상태 2(row2)나 상태 3(row3)이 될 확률을 각각 기술하고 있으며, 따라서 하나의 상태에 대한 모든 전이 확률을 나타내는 것이기 때문에 column의 합은 1이 되어야한다.

이 두 가지 특성을 정리하면 아래와 같다.

모든 원소들이 0보다 크거나 같아야 한다. 모든 각 column원소들은 더했을 때 1이 되도록 해야한다. 이것이 마코브 행렬(Markov matrix)이 가지는 기본적인 특성이다.

- Eigenvalues of Markov matrix and steady state

마코브 행렬은 고유값에 대한 한 가지 특성을 가진다. 이 특성을 이해하기 위해선 정상 상태(steady state)에 대해서 먼저 이야기해야 한다. 정상상태는 지난 미분방정식과 선형대수에 대한 강의 Lecture 23-(1)에서 언급된 바 있다. 해당 강의에서 우리는 미분방정식에서 해가 시간이 지남에 따라 크게 세 가지 형태가 될 수 있다고 하였으며, 그 형태는 각각 안정 상태(stability), 정상 상태(steady state), 발산(divergence)이다. 안정 상태가 되려면 행렬의 모든 고유값이 0보다 작아야하고, 정상 상태일때는 하나의 고유값이 0이고 나머지가 0보다 작아야 한다. 그리고 어느 하나의 고유값이라도 0보다 크면 그 해는 발산한다. 미분방정식의 해가 고유값에 따라 세 가지 형태를 띄는 이유는 미분방정식의 일반해(general solution)의 형태를 보면 쉽게 유추할 수 있다. 해당 강의의 일반해에 대한 식을 다시 써보자.

식 (4)은 행렬로 정의된 미분방정식의 일반해에 대한 식을 나타낸다. 보다시피 일반해는 계수값 c1, c2, 지수 함수(exponential function)의 지수부에는 고유값이, 그리고 고유벡터 x1, x2의 선형 조합(linear combination)으로 구성되어 있다. 계수값 c와 고유벡터 x는 상수이기 때문에 고정되고, 변수 t와 곱해지는 고유값이 해(solution)에 영향을 미치게 되는데, 고유값이 0인 경우 지수 함수가 1이 되기 때문에 극한의 시간으로 가도 그 값은 결국 상수 c와 x의 곱으로 유지가 된다. 고유값이 0보다 작을 경우엔 시간이 지날 수록 값이 작아져서 결국엔 0이 된다. 이것이 하나의 고유값이 0이고, 나머지 고유값이 0보다 작을 경우 정상 상태가 되는 이유이다.

이에 대한 자세한 사항은 해당 강의를 참조하자.

여기서 우리가 관심을 가져야 하는 상태는 바로 정상 상태(steady state)이다. 그 이유는 마코브 행렬(Markov matrix)이 정상 상태(steady state)의 특성을 가지기 때문이다. 여기서 "마코브 행렬이 정상 상태의 특성을 가진다고? 그렇다면 마코브 행렬의 고유값 중 하나는 0의 값을 가지겠군!" 라고 생각하는 사람들이 있을 것이다. 그러나 이건 잘못된 생각이다. 미분방정식의 경우엔 일반해에서 고유값의 위치가 지수함수의 지수부이다. 따라서 지수함수를 시간에 상관없이 1로 만들기 위해선 고유값이 반드시 0이어야 한다.

그러나 마코브 행렬의 경우엔 미래의 일을 예측하기 위해서는 행렬을 거듭제곱(power)해야 한다. 행렬을 거듭 제곱 함에 있어서 행렬의 고유값이 0이라면, 그리고 나머지 고유값들의 크기가 1보다 작다면 이 행렬의 거듭제곱의 결과값은 얼마 못가 0이 되고 만다. 행렬의 거듭제곱을 함에 있어 해당 행렬이 정상 상태의 특성을 가지기 위해선 아래의 두 가지 조건을 충족시켜야 한다.

행렬의 거듭제곱에서 정상 상태의 특성을 보이기 위해선 적어도 하나의 고유값은 1이어야 한다. 그리고 다른 모든 고유값들의 크기는 1보다 작아야한다. 마코브 행렬은 이 두 가지 조건을 충족시키는 행렬이고, 결과적으로 행렬의 거듭제곱(power)에 있어서 정상 상태(steady state)의 특성을 갖는다. 조건 (5)에 대한 내용을 MATLAB을 통해 검증해보자.

Fig. 2 고유값에 따른 행렬의 거듭제곱 결과. [Upper left] 고유값=1일 때. [Lower right] 고유값=0일 때

Fig. 2는 고유값에 따라 행렬의 거듭제곱 결과가 어떻게 나오는지를 MATLAB을 통해 검증한 결과이다. 왼쪽 상단(파란색 영역)은 하나의 고유값이 1이고 나머지 고유값의 크기가 1보다 작을 때 행렬을 100번을 거듭제곱 한 결과이다. rst=로 표현된 값이 행렬을 거듭제곱한 결과인데, 어떤 특정 값으로 수렴하는 모습을 보인다. 따라서 조건 (5)를 만족시키는 마코브 행렬은 정상 상태(steady state)의 성질을 가짐을 증명하였다.

행렬의 거듭제곱의 결과값인 rst=로 표시된 값 아래에 LC1=로 표시된 결과가 나오는데, 앞서 계산한 거듭제곱의 결과(rst=)와 그 값이 같은 것을 볼 수 있다. LC1=로 표현된 값은 소스코드의 맨 아래 줄에 의해 계산된 값인데, 어디서 많이 본 기억이 날 것이다. 바로 지난 강의 Lecture 22의 행렬의 대각화에서 배운 내용이다. 행렬의 대각화 강의에서 우리는 계차방정식(difference equation)의 해를 행렬의 대각화를 통해 구했는데, 그때 행렬을 일일이 거듭제곱을 하지 않고서도 행렬의 고유값과 고유벡터, 그리고 계수의 선형조합의 형태로 해를 효율적으로 구하는 방법을 배웠다. 잘 기억나지 않는 분들을 위해 식을 다시 써보면 아래와 같다.

식 (6)과 같이 행렬의 거듭제곱을 일일이 계산할 필요가 없다. 단지 행렬의 고유값과 고유벡터를 알면 훨씬 적은 계산량으로 구할 수 있으며, LC1이 그 결과값이다. 여기서 중요한 포인트는 계수 c1, c2와 고유벡터 x1, x2는 상수이기 때문에 고정된 값이고, 우리가 주목해야 할 값은 고유값이라는 것이다. 즉 고유값이 어떻게 나오느냐에 따라서 해당 행렬이 발산하는지, 정상 상태(특정 값으로 수렴)인지, 0으로 수렴하는지가 결정이 되는데 그 이유는 식 (6)과 같이 나머지는 상수이고 고유값만 k의 거듭제곱으로 표현이 되기 때문이다. Fig. 2에 나온 문제를 예로 들자면 첫 번째 고유값은 1이고, 100제곱을 하던 1000제곱을 하던 그 결과는 항상 1이다. 반면 두 번째 고유값은 그 크기가 1보다 작은 0.351이기 때문에 거듭제곱을 할 수록 그 값은 작아져서 0에 가까워지게 된다.

식 (7)을 통해 말할 수 있는 것은 Fig. 2의 M1 마코브 행렬의 정상 상태가 바로 (7.2)인 c1x1이라는 것이다. 결국 마코브 행렬의 정상 상태(steady state)는 λ=1에 대응되는 고유벡터(eigenvector)라 할 수 있다.

반면 Fig. 2의 오른쪽 하단(붉은색 영역)의 경우를 보면 마코브 행렬 M2가 0인 고유값을 가지는 것을 볼 수 있다. 또한 나머지 고유값의 크기도 1보다 작기 때문에 결과적으로 0행렬의 결과를 보인다. 이를 통해 행렬을 거듭제곱 함에 있어 정상 상태(steady state)의 특성을 보이기 위해선 조건 (5)를 만족시켜야 함을 알 수 있다.

물론 마코브 행렬이면서 위의 조건을 충족시키지 않는 예외 적인 경우도 있는데, 바로 단위 행렬(identity matrix)이 그 경우다. 조건 (3)을 만족시키기 때문에 마코브 행렬이라 할 수 있지만, 정상 상태를 위한 조건 (5)는 만족시키지 않는다. 하지만 거듭 제곱(power)을 해도 발산하거나 0행렬이 되지 않기 때문에 결과적으로는 정상 상태라고 할 수 있다. 예외 적인 경우이니 잘 알아두도록 하자.

- Eigenvalue 1

앞서 우리는 마코브 행렬이 정상 상태의 특성을 가지기 위해선 반드시 하나의 고유값이 1이어야 함을 배웠고, 이를 계차방정식을 이용하여 이를 설명하였다. 하지만 계차방정식 이외에도 고유값이 1이어야 하는 것을 설명할 수 있다. 바로 조건 (3)-2의 각 column의 합은 1이 된다는 조건으로부터 고유값이 1이어야 한다는 것을 설명할 수 있다. column의 합이 1이 된다는 조건과 고유값이 1인 것이 무슨 관계지? 라는 의문이 들 것이다. 하나씩 풀어나가보자. 앞서 만들었던 임의의 마코브 행렬 (2)를 다시 써보자.

식 (2)는 각 원소의 크기가 0보다 크고 각 column의 합이 1이 되는 조건을 충족하는 마코브 행렬이다. 이제 이 행렬의 고유값을 구한다고 생각해보자. 고유값을 구하기 위해선 det(A-λI)를 계산해야 하는데, 우리는 A의 고유값이 λ=1임을 가정했기 때문에 (A-I)를 계산해보도록 하겠다.

식 (8)은 A-I를 계산한 모습을 나타낸다. 원래 행렬 A의 특징 중 하나가 각 column의 합이 1이 되는 것이었는데, 단위 행렬을 빼고 나니 각 column의 합이 0이 되는 특징을 보인다. 이때 이 column의 합이 0이 되는 특성이 의미하는 것은 곧 A-I가 특이 행렬(singular matrix)임을 의미한다. 어째서 그럴까? 바로 0벡터 이외의 null space가 존재하기 때문이다. 이 null space가 존재하는지를 계산해보지도 않고 어떻게 바로 알 수 있을까? 그 힌트는 바로 식 (8)에 이미 나와있다.

식 (8)의 행렬 A-I는 모든 각 column이 더했을 때 0이 된다. 이는 바꿔말하면 A-I 행렬의 row들이 dependent함을 의미한다. 즉 A-I는 transpose를 시켰을 때 null space가 존재한다는 의미다. Lecture 10을 공부했다면 A-I의 transpose의 null space가 Left Null Space라는 것을 알 것이다. 식 (8)의 Left null space를 정리하면 아래와 같다.

식 (9)에 보이는 것 처럼 0벡터 이외의 $(A-I)^T \boldsymbol{x}=0$를 만족시키는 벡터가 존재하므로 (A-I)는 Left null space가 존재한다. Left null space의 값은 column을 다 더했을 때 0이 된다는 사실로부터 쉽게 유추할 수 있는데, 이 상태에서 전치(transpose)를 시켰을 때 모든 column을 그대로 더하면 0벡터가 나옴을 알 수 있고, 따라서 각 column에 계수 1을 곱해주면 된다는 결론이 나온다. 이렇게 되면 Left null space의 값은 식 (9)에서와 같이 $[1 \; 1 \; 1]^T$ 가 되어야만 한다.

한편으로 Left null space가 존재한다는 의미는 곧 (A-I)는 full rank가 아니라는 의미가 되며, (A-I)의 column이 dependent하다는 결론을 내릴 수 있다. 따라서 아래와 같이 (A-I)의 null space도 존재하게 된다.

식 (10)에서 (A-I)의 null space를 계산하였다. 그런데 생각해보면 식 (10)의 null space를 구하는 식은 사실 우리가 가정했던 "마코브 행렬 A는 고유값 λ=1을 가진다"는 사실로부터 출발하였고, (10)에서 구한 고유벡터는 A의 λ=1에 대응되는 고유벡터이다. 이것이 곧 A의 정상 상태(steady state)라고 할 수 있다. 결과적으로 마코브 행렬의 각 column은 더했을 때 그 크기가 1이 된다는 성질로 부터 마코브 행렬의 최소 하나의 고유값은 1이 된다는 사실을 연결지어 설명하였다. 설명이 조금 길어져서 잘 이해가 안될 수 있기 때문에 다시 한 번 정리해보자.

->   마코브 행렬은 적어도 하나의 고유값이 λ=1이 된다.

-> 왜냐하면 마코브 행렬의 각각의 column은 더하면 1이 되기 때문이다.

-> 그 이유를 알아보자. 일단 고유값을 λ=1로 가정하고 고유값을 구하면 det(A-I)으로 구할 수 있다.
이때 (A-I)는 각 column을 더하면 0이 된다. 이 사실로 부터 (A-I)는 singular임을 알 수 있다.

-> 왜냐하면 (A-I)의 row가 dependent하기 때문이다.

->   (A-I)의 row가 dependent한 이유는 (A-I)가 left null space인 [1, 1, 1]T를 가지기 때문이다.

->   (A-I)가 left null space를 가진다면, 즉 (A-I)^T가 null space를 가진다면, (A-I)는 full rank가 아니다.

-> (A-I)가 full rank가 아니라면 (A-I)의 column도 역시 dependent하다.

-> (A-I)의 column이 dependent하다면, (A-I)는 null space를 가진다.

->   (A-I)의 null space는 (A-I)x=0을 만족시키는 x값들인데, 이는 애초에 λ=1임을 가정하였다.

-> 따라서 (A-I)의 null space는 λ=1에 대응되는 고유벡터 x이며, 이 x가 마코브 행렬의 정상 상태(steady state)이다.

또 다른 관점에서는 A의 행렬식의 성질로부터 이를 유추할 수 있다. Lecture 18에서 행렬식의 특성 10번으로 부터 A와 A의 transpose는 같은 고유값을 가진다는 것을 알 수 있다. A transpose가 고유값 1을 가질 때, 앞에서와 같이 null space [1, 1, 1]T를 가진다. 즉 A입장에서는 left null space를 가지는 것이다. 그런데 A는 A transpose와 같은 고유값을 가지므로 λ=1을 가질 것이고, 그에 따른 고유벡터도 존재하게 된다. 여기서 고유값 1에 대응되는 고유벡터가 마코브 행렬 A의 정상 상태이다. A와 A transpose는 같은 고유값을 가질 수는 있으나, 같은 고유값에 대응되는 각각의 고유벡터는 다를 수 있음에 유의하자.

3. 마코브 행렬의 응용

- i-Phone vs Galaxy S

이제 앞서 제시했던 문제를 풀어보도록 하자. Fig. 1에서 우리는 애플의 아이폰과 삼성의 갤럭시 핸드폰의 시장 점유율 예측에 대한 가상의 문제를 마코브 체인으로 모델링 하였다. 또한 마코브 체인에 대한 마코브 행렬을 식 (1)에 정리하였다. 일단 이 마코브 행렬을 다시 써보자.

앞서 언급한 것과 같이 식 (1)의 M은 아이폰과 갤럭시폰 유저들의 상태가 전이될 확률을 표현한 마코브 행렬, u는 현재의 상태(시장점유율)를 나타낸다. 만약 상태 전이에 대한 예측 단위가 한 달 단위로 이루어진다고 가정해보자. 올해 1월의 시장 점유율은 아이폰이 49.2%, 갤럭시가 50.8%를 차지하고 있다. 그렇다면 2월의 시장점유율을 예측하려면 어떻게 해야할까? 이미 모델링 해놓은 마코브 행렬을 u의 좌변에 곱해주면 된다. 실제 계산을 해보면 2월의 시장점유율 예측치는 아래와 같이 계산할 수 있다.

Fig. 3 아이폰과 갤럭시폰의 마코브 체인

Fig. 3은 시장점유율의 계산을 위한 마코브 체인을 나타낸다. 1월의 시장점유율 벡터인 [0.492, 0.508]T를 마코브 행렬에 곱해주면 그 결과는 2월의 시장점유율이 되고 값은 [0.535, 0.464]T가 된다. 다시 2월의 시장점유율을 마코브행렬과 곱해주면 3월의 시장점유율에 대한 예측치가 나온다. 아래 식은 계산 과정을 나타낸다.

식 (11)에 표현된 식들을 보고 약간 익숙하게 느끼는 분들이 있을 것이다. 바로 계차방정식 $u_{k+1}=Au_k$ 와 같은 형태이다. 이 말은 마코브 체인을 계차방정식으로 생각할 수 있고, 결국 고유값과 고유벡터의 선형조합의 형태로 표현하여 해를 구할 수 있다는 의미다. 우리는 이미 식 (6)에서 계차방정식의 해에 대한 식을 보았으므로 여기에 필요한 고유값과 고유벡터를 구해보자.

기존에 고유값을 구할 때 행렬식(determinant)을 이용했는데, 식 (12.1)에서는 행렬식을 이용하지 않고 고유값의 합은 행렬의 trace와 같다는 성질을 이용하여 간단히 구했다. 행렬 M이 마코브 행렬임을 이미 알고있기 때문에 첫 번째 고유값은 1임을 미리 알 수 있으며, 나머지는 M의 trace에서 1을 빼주면 간단히 구할 수 있다. 물론 이 trace성질은 2x2행렬에 국한된 것임을 유의하자.

식 (12.2)와 (12.3)에서는 각각 고유벡터를 구한 뒤, 정규화(normalization)를 해주었다. 이제 필요한 값들을 모두 구했으니 해를 구해보자.

식 (13.2)에서는 계수값 c를 계산하였다. 이는 식 (13.1)에서 k=0으로 놓고 계산한 것이다. 식 (13.3)에서는 계수, 고유값, 고유벡터의 실제 값을 대입하여 정리하였다. 이제 이 식을 기반으로 향후 시장 전망을 예측할 수 있다. 물론 몇 step까지는 행렬을 일일이 곱하여 계산할 수도 있다. 하지만 이는 행렬의 크기가 커질 경우 속도가 매우 느리고 비효율적이다. 만약 어떤 마코브 체인 문제에서 마코브 행렬의 크기가 10000 x 10000인데 극한(infinite)에서의 결과값을 알고싶다고 하자. 실제 극한을 구할 수는 없으니 예를 들어 10,000,000 step이후의 상황을 예측한다고 가정해보자. 이 경우 직접 행렬을 곱해서 계산을 한다는 것은 매우 무식한 방법이다. 식 (13.3)과 같이 해를 계산한다면 단지 고유값의 거듭제곱만 계산하면 되기 때문에 훨씬 빠르고 효율적으로 답을 구할 수 있게 된다.

이제 위의 식을 이용하여 아이폰과 갤럭시폰의 한 해 동안의 시장점유율을 예측해보자. 아래 그림은 마코브 체인으로 모델링한 애플과 삼성의 핸드폰 시장점유율 예측 그래프이다.

Fig. 4 마코브 체인을 이용한 애플과 삼성의 휴대폰 시장점유율 예측 그래프

초기 점유율은 삼성이 더 높았지만, 마코브 체인을 통한 시뮬레이션 결과 급격하게 점유율이 역전하면서 약 4월달 정도에는 정상상태(steady state)로 수렴하는 모습을 보인다.

한 가지 알아둬야 할 것은 마코브 체인은 그 한계점이 극명하게 존재한다는 것이다. 위의 문제에선 매달 시장점유율을 예측함에 있어서 그 달의 점유율에 마코브 행렬을 곱하여 다음달의 점유율에 대한 예측을 하였다. 중요한 점은 그 과정에서 마코브 행렬 자체는 한 번도 변하지 않았다는 것이다. 위 문제에서 마코브 행렬은 유저들의 이동변화율을 기술하였다. 그러나 이 변화율은 실제 세계에서는 시시각각 변하고 또한 변수도 너무나도 많다. 따라서 좀 더 정교한 예측을 하기 위해서는 마코브 행렬의 값을 스텝을 거칠 때마다 업데이트를 해야할 것이다. 하지만 마코브 행렬의 지속적인 업데이트가 필요없는 분야, 예를 들면 전자회로에서의 응용 문제 등에는 비교적 잘 들어맞을 때가 많다.

이 외에도 마코브 체인의 단골 손님으로 나오는 문제인 날씨 예측, 인구이동 예측 문제 등이 있으니 직접 문제를 만들어 풀어보기 바란다. 문제 설정 및 풀이를 하는 과정은 애플-삼성 휴대폰 시장 점유율 예측 문제와 다르지않다. 아래는 소스코드이다.

4. 마치며

이번 강의에서는 마코브 체인과 마코브 행렬에 대해 공부하였다. 마코브 행렬은 기본적으로 확률을 기반으로 한 상태 전이 행렬이며, 어떤 상태의 변환 이후에도 상태의 총량은 유지된다는 특성이 있다. 예를 들면 인구이동 문제의 경우 이동에 따른 상태 값의 변화(인구수)는 있겠으나 그 총량은 유지된다. 이는 확률을 기반으로 하며, 각 column의(혹은 row) 합은 1이 된다는 마코브 행렬의 특성에서도 유추해 볼 수 있다. 그 특성의 결과로 항상 하나의 고유값은 1을 가진다는 특성도 공부하였다. 또한 계차방정식과 연결지어 행렬의 거듭제곱 문제를 고유값의 거듭제곱 문제로 바꾸어 보다 빠르고 효율적인 계산방법을 배웠다.

마지막으로 부가적인 설명을 하자면 애플과 삼성의 핸드폰 시장 점유율 예측에 대한 문제를 마코브 행렬로 모델링하고 이를 계산하는 과정에서 알아챈 분들이 있을지 모르겠으나, 이번 강의에서 설명한 마코브 체인은 1차 마코브 체인(first order Markov chain)이다. 이것이 의미하는 것은 상태 전이 과정에서 다른 시점에서의 상태와는 무관하고 오직 바로 이전상태에만 영향을 받는다는 것이다. 예측을 함에 있어 그 전전 상태까지 고려하는 2차 마코브 체인 등도 있지만 1차가 가장 보편적으로 사용된다. 또한 일반적으로 마코브 체인이라 하면 1차 마코브 체인을 의미한다.

저작자표시 비영리 변경금지

'Fundamentals > Linear Algebra' 카테고리의 다른 글

[Linear Algebra] Lecture 26-(1) 푸리에 급수와 직교성 (Fourier Series and Orthogonality) (12)	2017.12.10
[Linear Algebra] Lecture 25 대칭 행렬(Symmetric Matrix)과 스펙트럼 정리(Spectral Theorem) (17)	2017.11.18
[Linear Algebra] Lecture 23-(3) 미분방정식과 선형대수(Differential equations and Linear algebra) (0)	2017.10.08
[Linear Algebra] Lecture 23-(2) 미분방정식과 선형대수(Differential equations and Linear algebra) (8)	2017.08.15
[Linear Algebra] Lecture 23-(1) 미분방정식과 선형대수(Differential equations and Linear algebra) (10)	2017.07.09

[Linear Algebra] Lecture 23-(3) 미분방정식과 선형대수(Differential equations and Linear algebra)

2017. 10. 8. 06:41

앞선 두 강의 Lecture 23-(1)과 Lecture 23-(2)에 이은 미분방정식과 선형대수의 마지막 강의이다. 지난 강의에서 우리는 u'=Au의 형태로 식이 주어졌을 때 그 풀이방법에 대해 주로 공부하였다. 이번에는 N차의 미분방정식이 주어졌을 때 이를 행렬의 형태로 만들어 푸는 방법에 대해 공부해보자. 앞의 두 강의를 충분히 이해했다면 이번에는 어렵지 않게 이해할 수 있을 것이다.

6. 선형대수를 이용한 N차 미분방정식의 풀이

- 3rd order linear differential equation

미분방정식의 차수가 올라갈 수록 그 해를 구하기가 까다로워진다. 이때 선형대수를 이용하면 고차 미분방정식을 비교적 쉽게 풀 수 있다. 아래의 미분방정식을 보자.

식 (38)은 3차 미분방정식을 나타낸다. y는 t의 함수이고, y의 최고차항은 3차항이며 Derivative form으로 표현한 식이다. 이제 이 미분방정식을 선형대수의 행렬을 이용하여 일반해(general solution)를 구해보도록 하자.

해를 구하기 위해선 우선 식 (38)을 u'=Au의 형태로 만들어야 한다. 즉 u와 행렬 A를 식 (38)로 부터 만들어내야 한다. 어떻게 만들 수 있을까?

가장 먼저 해야할 일은 벡터 u를 만드는 것이다. u에 정의되어야 할 것은 식 (38)에서 계수(coefficient)들을 제외한 나머지 미분항들을 넣으면 된다. u'=Au를 보면 u앞에 행렬 A를 곱해주면 u가 미분이 된다. 따라서 이 미분을 고려해보면 u에는 최고차항이 들어가면 안된다는 것을 알 수 있다. 그러므로 u에 들어갈 것은 최고차항 바로 전의 항까지 들어가면 되고, u'(u prime)에는 최고차항부터 최저차항 바로 전까지 들어가면 된다. 정리하면 아래와 같다.

식 (40)과 같이 미분방정식을 u'=Au의 꼴로 정리하였고, u와 u'은 정의를 하였다. 이제 남은 과정은 행렬 A를 채워넣는 일이다. A를 어떻게 정리할 수 있을까? 힌트는 바로 미분방정식의 계수(coefficient)로부터 찾을 수 있다. A를 row별로 채워 넣는다고 생각하고 A의 row1과 u(t)가 곱해졌을 때를 가정해보면 아래와 같이 쓸 수 있다.

식 (41.1)은 식 (40)의 u'(t) = row1 x u(t)를 가정한 것이다. 이때 ?로 표시된 계수들을 찾아야 하는데, 이 계수들은 사실 식 (38)에서 y'''을 제외한 나머지 항들을 우변으로 넘겨서 y'''=의 꼴로 정리를 했을 때와 같다. 이렇게 정리를 했을 때 식 (41.2)와 같이 쓸 수 있고, 이때의 계수들을 행렬 A에 삽입해주면 된다.

row2부터는 굉장히 간단해진다. y''=?y''+?y'+?y에서 ?인 계수들을 찾으면 되는데, 사실 y''항에만 1을 곱해주고 나머지 항에는 0을 곱해주면 간단히 만들어지기 때문이다. 따라서 식을 다시 써보면 y''=1y''+0y'+0y와 같이 정리가 되고 row2는 [1 0 0]이 된다. 마찬가지 방법으로 row3까지 정리하면 row3=[0 1 0]이 될 것이다. 식 (40)을 행렬을 완성하여 다시 정리하면 아래와 같이 만들 수 있다.

이렇게 하여 우리는 식 (38)의 3차 상미분방정식(3rd order ordinary differential equation)을 u(t)에 대한 1차 미분방정식으로 만들었다. u(t)가 벡터라고 해도 원래 미분방정식에 관련된 모든 정보를 담고있기 때문에 u(t)의 해를 구하면 y에 대한 해도 구할 수 있다. 이제 남은 것은 지금까지 배웠던 것처럼 식 (42)를 푸는 것이고, 그 핵심엔 A의 고유값(eigenvalue)과 고유벡터(eigenvector)가 있다. 이제 Lecture 21-(1)과 Lecture 21-(2)를 참고하여 행렬 A의 고유값과 고유벡터를 구해보자.

고유값은 det(A-λI)의 계산을 통해서 람다에 대한 방정식을 만들어 풀 수 있다. (43)과 같이 행렬식(determinant)을 풀어서 고유값을 계산하면 각각 λ1=4, λ2=-1, λ3=1로 계산할 수 있다. 람다의 순서는 정하기 나름이므로 중요하진 않다. 이제 이 고유값을 가지고 고유벡터를 구해보자. 고유벡터는 알다시피 (A-λI)x=0에 대한 null space를 구하면 된다.

식 (43)에서 고유값을 구하기 위해 세웠던 행렬식에 각각의 람다값을 대입하여 각 고유값에 해당하는 고유벡터들을 구하였다. 고유벡터를 구하는 과정에서 null space를 계산하야 하는데, 가우스 소거(Gauss elimination)를 이용하여 계산하는 방법도 있지만, 식이 간단할 경우 직관적으로 값을 대입해보면 쉽게 계산할 수 있다. 식 (44.1), (44.2), (44.3)은 각 고유값에 해당하는 고유벡터를 구하기 위한 null space 식을 나타내며, 소거법을 이용하지 않아도 Lecture 1-(1)에서 배웠던 column picture의 방식으로 생각하면 각 고유벡터의 원소값을 쉽게 구할 수 있다. 행렬 A의 고유값과 고유벡터를 구했으니 이를 이용하여 식 (42)의 일반해(general solution)를 아래와 같이 정의할 수 있다.

식 (45.1)은 u(t)에 대한 일반해의 형태를 나타낸다. C1, C2, C3는 임의의 계수이고 지수함수(exponential function)의 지수부에는 고유값이, 그리곡 각 항에는 고유벡터 x가 곱해진다. (45.2)는 (45.1)의 기본형태에 맞게 고유값과 고유벡터를 대입하여 일반해를 정리한 것이다. 만약 y에 대한 일반해를 정의하고자 한다면 고유벡터의 마지막 세 번째 원소만 고려하여 정리하면 된다. 이는 u(t)의 마지막 원소(component)가 y이기 때문이다. (45.2)의 각 고유벡터들의 마지막 원소값은 모두 1이기 때문에 y(t)에 대해서 해를 정리하면 (45.3)과 같이 된다.

이렇게하여 미분방정식 (38)에 대한 일반해를 (45)와 같이 도출하였다. 아직 미지수로 남아있는 계수 C1, C2, C3는 초기 조건(initial condition)이 주어져 있다면 Lecture 23-(1)에서와 같이 구할 수 있다. 그러나 앞서 배웠듯이 이렇게 구한 일반해 말고도 또 하나의 방법이 있다. 바로 행렬지수함수(Matrix exponential) exp(At)를 이용하여 미분방정식의 해를 구하는 것이다. 지난 강의 Lecture 23-(2)에서 배운대로 행렬지수함수를 이용한 해를 구해보자.

식 (46.1)과 (46.2)는 행렬지수함수로 정의하는 해 u(t)를 나타낸다. (46.3)의 S는 고유벡터행렬(eigenvector matrix)로써 각 고유벡터들이 column이 되는 행렬이다. (46.4)는 고유값 행렬(eigenvalue matrix)의 행렬지수함수이고 고유값 행렬이 대각 원소만 존재하기 때문에 행렬지수함수도 대각 원소만 존재한다. (46.5)는 S의 역행렬(inverse matrix)이고 S의 행렬식(determinant)과 cofactor matrix의 전치(transpose)를 이용하여 계산할 수 있다. 자세한 사항은 Lecture 20-(1)를 참고하기 바란다.

식 (46.6), (46.7)은 행렬지수함수의 해의 정의에 따라 구한 해 u(t)를 나타낸다. 식이 약간 복잡해보이지만 계산 과정을 나타내기 위해서 자세히 풀어서 나타내었다. 실제 계산은 컴퓨터를 이용하여 하는 경우가 많기 때문에 이렇게 계산하는구나 정도만 알면 된다. 결과적으로 미분방정식의 해를 행렬지수함수를 이용하여 나타내었고 이는 고유벡터행렬 S와 고유값행렬의 행렬지수함수 e(λt), 그리고 고유벡터행렬 S의 역함수의 곱으로 정의됨을 다시 확인하였다. u(t)의 최종 결과값을 확인하려면 위의 식의 우측에 초기값 u(0)를 곱해주고 알고자하는 시점의 값 t를 대입하면 위의 미분방정식에 대한 최종 값을 구할 수 있다.

- N-th order linear differential equation with linear algebra

앞서 우리는 3차 미분방정식을 행렬을 이용하여 1차의 미분식으로 만들어서 그 해를 구하는 방법을 배웠다. 그렇다면 4차, 5차, 나아가 N차 미분방정식일 때도 가능한 이야기일까? 그렇다. N차 미분방정식도 행렬을 이용하여 1차의 미분식으로 연결시켜 해를 구할 수 있다. 이에 대한 설명을 위해 앞서 다루었던 식을 일반화시켜 정리해보자.

식 (47.1)은 3차 미분방정식이고 (47.2)는 이를 1차의 미분식으로 만든것이다. 여기서 나름의 규칙을 볼 수 있는데, 행렬 A의 row1은 미분방정식의 두 번째 고차항부터 그 아래 항의 계수들, 즉 (47.1)에선 a, b, c들이 부호가 바뀌어서 채워진다는 것을 알 수 있다. 그리고 뒤이어 row2, row3부터는 가장 왼쪽 끝 원소부터 대각선 방향으로 차례로 1이 채워지고 나머지 부분은 0이 된다. 이 규칙을 N차 방정식으로 정리해보면 아래와 같다.

N차 미분방정식을 행렬의 형태로 만들면 식 (48)과 같이 nxn크기의 행렬이 만들어진다. 이때 첫 번째 row는 최고차항을 제외한 나머지 항들의 계수가 부호가 바뀌어 채워지고, 나머지 row들은 왼쪽부터 1이 대각선 방향으로 차례로 채워지게 된다. 결국 N차 미분방정식도 위와 같이 1차의 nxn크기의 행렬로 이루어진 식으로 바꾸어 풀 수 있다.

7. 마치며

총 세 편에 걸쳐 미분방정식과 선형대수를 배웠다. 고차의 미분방정식이라도 선형대수를 이용하면 1차의 식으로 바꿀 수 있다는 것은 정말 매력적이지 않을 수 없다. 또한 해를 구하기 위한 핵심에는 고유값과 고유벡터가 빠지지 않고 등장한다. 이 고유값/고유벡터를 통해 행렬지수함수를 정의할 수 있었으며, 그 배경에는 테일러 급수라는 훌륭한 근사법이 존재했다. 이쯤 되면 고유값과 고유벡터의 깊이는 도대체 어디까지인가 하는 생각이 들기도 한다. 아무쪼록 세 번에 걸친 이번 강의를 통해 미분방정식과 선형대수의 연결고리를 이해하는데 도움이 되길 바랍니다.

저작자표시 비영리 변경금지

'Fundamentals > Linear Algebra' 카테고리의 다른 글

[Linear Algebra] Lecture 25 대칭 행렬(Symmetric Matrix)과 스펙트럼 정리(Spectral Theorem) (17)	2017.11.18
[Linear Algebra] Lecture 24 마코브 행렬(Markov Matrix) (7)	2017.10.18
[Linear Algebra] Lecture 23-(2) 미분방정식과 선형대수(Differential equations and Linear algebra) (8)	2017.08.15
[Linear Algebra] Lecture 23-(1) 미분방정식과 선형대수(Differential equations and Linear algebra) (10)	2017.07.09
[Linear Algebra] Lecture 22 행렬의 대각화(Diagonalization)와 거듭제곱(powers) (23)	2017.06.14

PREV 1 2 3 4 5 6 ···20 NEXT

Learn Again! 러너게인

전체 글

[Linear Algebra] Lecture 25 대칭 행렬(Symmetric Matrix)과 스펙트럼 정리(Spectral Theorem)

'Fundamentals > Linear Algebra' 카테고리의 다른 글

[Linear Algebra] Lecture 24 마코브 행렬(Markov Matrix)

'Fundamentals > Linear Algebra' 카테고리의 다른 글

[Linear Algebra] Lecture 23-(3) 미분방정식과 선형대수(Differential equations and Linear algebra)

'Fundamentals > Linear Algebra' 카테고리의 다른 글

+ Recent posts

티스토리툴바