이번 포스팅에서 다룰 내용은 바로 행렬의 대각화(Diagonalization)이다. 행렬의 대각화는 지난 시간에 배운 고유값(eigenvalue)과 고유벡터(eigenvector)를 활용하기 위한 하나의 방법이라고 할 수 있으며, 다른 말로는 고유값분해(Eigendecomposition)라고도 불린다. 또한 행렬의 대각화를 통해 LU 분해, QR분해와 같이 행렬을 고유값과 고유벡터로 구성된 부분 행렬들로 분해할 수 있으며, 이는 어떤 반복적인 선형방정식을 풀 때 굉장히 유용한 특성을 가지고 있다. 대각화에 대해 공부해보자. 

 

 

1. 행렬의 대각화(Diagonalization)

 

- Diagonalizing a matrix

 

지난 시간에 우리는 고유값(eigenvalue)과 고유벡터(eigenvector)에 대한 내용을 배웠다. 일단 관련 식을 다시 써보자. 

 

 

식 (1)을 다시 한 번 설명해보면 람다(lambda, λ)는 고유값을, x는 고유벡터를 각각 나타내며, 행렬 A에 의해 선형 변환(Linear transformation)을 시켜도 변환 전과 후가 평행한(parallel) 벡터를 고유벡터, 그리고 길이 변화량의 정도를 나타낸 것이 고유값이다. 이 고유값/고유벡터를 알면 행렬 A의 중요한 특성과 정보를 알 수 있으며 다양한 곳에 응용할 수 있다. 그 중 하나가 바로 행렬의 대각화(diagonalization)이다. 그렇다면 고유값과 고유벡터를 이용하여 행렬 A를 어떻게 대각화 할 수 있는 걸까? 

 

우선 식 (1)은 하나의 고유벡터와 고유값에 대한 식이다. 그러나 일부 경우를 제외하곤 대부분의 nxn크기의 행렬은 n개의 고유값과 고유벡터를 갖는다. 어떤 행렬 A의 n개의 고유값과 고유벡터를 찾은 뒤엔 아래의 식에 따라 대각화를 수행하면 된다. 

 

 

식 (2)는 대각화에 대한 식이며, 이번 포스팅의 핵심적인 식이라고 보면 된다. 식 (2)에서 A는 원래의 행렬을 의미하고, 행렬 S는 A의 고유벡터들을 column vector형태로 차례로 끼워 넣은 nxn크기의 고유벡터 행렬이다. 이때 A의 앞에는 S의 역행렬이, A의 뒤에는 S가 각각 곱해진다. 이렇게 좌변을 계산하면 우변의 Λ (대문자 람다)행렬이 만들어지는데, 이 람다 행렬(Λ)은 대각 행렬(diagonal matrix)이고 각각의 대각 원소들은 고유값들로 차례로 채워져있다. 이제 식 (2)가 대충 뭘 나타내는지는 알겠는데, 도대체 저게 어떻게 만들어졌고, 무슨 의미가 있다는 걸까? 이제부터 차근차근 알아보도록 하자. 

 

그 전에 먼저 식 (2)에서 눈여겨봐야할 것이 있다. 앞에서 S는 A의 고유벡터들로 이루어진 고유벡터행렬(eigenvector matrix) 이라고 배웠다. 그런데 식 (2)의 A앞에 S의 역행렬(Inverse matrix)이 곱해져 있는 것을 볼 수 있다. 이것이 의미하는 것은 무엇일까? 바로 S가 역행렬을 가질 수 있어야 하고, 이는 S가 특이 행렬(singular matrix)이 아니어야 함을 의미하며, 결국 A의 고유벡터들이 n개의 독립(independent)인 벡터를 가져야 한다는 것이다

 

일단 A가 n개의 독립인 고유벡터를 가진다고 가정할 때, 이 고유벡터들을 column vector의 형태로 차례로 붙여서 S를 만들었다고 해보자. 이때 A와 S를 곱하면 어떤 일이 벌어질까? 아래의 수식을 통해 확인해보자. 

 

 

식 (3)은 행렬 A와 그의 고유벡터(eigenvector)들로 만들어진 행렬 S와의 곱을 나타낸다. S에서 x1, x2, ... xn은 각 고유벡터들을 column 형태로 삽입한 것이다. A와 S를 곱할 때 지난 강의(행렬 곱셈) Lecture 3에서와 같이 column-wise로 생각할 수 있다. 즉 A와 S의 첫 번째 column vector x1과 곱해져서 Ax1이라는 하나의 column vector가 만들어지고, 차례로 Ax2, ... Axn이 계산되어 결과적으로 이들 Ax1, Ax2, 등의 column vector들로 이루어진 동일한 크기의 행렬이 만들어진다. 

 

그런데 가만히 보면 Ax1은 원래의 행렬 A와 그의 첫 번째 고유벡터와의 곱이다. 여기서 우리는 식 (1)을 떠올릴 수 있다. Ax1은  λ1x1이다. 따라서 (3.2)와 같이 쓸 수 있다. 결국 AS의 곱을 (3.2)와 같이 각 column vector들을 고유값과 고유벡터들의 곱으로 표현할 수 있으며, 이는 식 (1)의 개념으로부터 나온 것이다. 

 

최초에 AS의 곱을 (3.2)와 같이 표현하였다. 여기서 고유값들을 고유벡터로부터 한 번 더 분리하여 나타낼 수 있다. 이때 중요한 것은 (3.2)를 S와 고유값들과의 곱으로 분리할 때 행렬끼리의 곱으로 나타내고 싶다는 것이다. 어떻게 할 수 있을까? 다시 한 번 column-wise의 행렬곱을 생각해보자. S를 고유벡터행렬, 여기에 곱해질 어떤 행렬을 가령 V라고 생각해 봤을 때, Sv1이 (3.2)의 첫 번째 column vector인 λ1x1이 되어야한다. 이렇게 되기 위해선 v1의 첫 번째 component만 λ1이고 나머지 component들은 모두 0이어야 한다.  λ2x2가 되기 위해선 v2의 두 번째 component만 λ2이고 나머지는 0이어야 한다. 이런식으로 만든 행렬이 바로 (3.3)의 오른쪽 고유값(eigenvalue)들로 이루어진 행렬이고, 대각 행렬(diagonal matrix)의 형태이다. 우린 이 고유값들로 이루어진 행렬을 대문자 람다(capital lambda)를 써서 Λ라고 표현한다. (※ 일반적으로 대문자는 행렬을, 소문자 볼드체는 벡터를, 소문자는 벡터의 원소나 스칼라 값을 나타냄)

 

결과적으로 (3.1)에 표현된 최초의 AS의 행렬곱셈을 (3.3)과 같이 SΛ로 표현할 수 있으며 AS=SΛ이다. 이렇게 표현할 수 있는 근간에는 우리가 지금까지 공부해왔던 고유값/고유벡터에 대한 식 (1)이 있다. 즉 식 (3)은 식 (1)의 확장판이라고 생각하면 된다. 식 (3)에서 얻은 결론을 다시 써보면 아래의 식과 같다. 

 

 

식 (4)가 의미하는 것은 어떤 행렬 A에 고유벡터행렬 S를 곱하면, 고유벡터행렬에 고유값행렬을 곱한 것과 같다, 즉 식 (1)을 모든 고유값/고유벡터에 대해서 한번에 정리한 식이라고 할 수 있다. 결국 식 (1)로부터 (4)를 유도한 셈이다. 식 (4)로부터 우리는 다양한 식을 유도할 수 있다. 양변의 왼쪽에 S의 역행렬(inverse matrix)을 곱해보자. 

 

 

식 (4)의 양변의 왼쪽에 S의 역행렬을 곱했더니 우리가 처음에 핵심적인 식이라고 배웠던 식 (2)가 만들어졌다. 이 과정이 임의의 정방행렬 A를 대각화(diagonalization)하는 과정이다. 여기서 중요한 것은 양변에 S 역행렬을 곱했는데, 이것은 S가 역행렬을 가질 수 있어야 한다는 조건을 만족해야 하며, A가 n개의 독립인 고유벡터를 가져야 함을 의미한다. 지난 강의 Lecture 21-(2)의 마지막에 n개의 독립인 고유벡터(eigenvector)를 가지지 못하는 행렬(triangular matrix)에 대해서 알아봤다. 그러나 이러한 경우는 일부이며, 대부분의 행렬은 n개의 독립인 벡터를 가지기 때문에 여기서는 고유벡터행렬(eigenvector matrix)이 역행렬을 가질 수 있음을 가정하겠다. 

 

 

- Factorization of a matrix

 

우리는 식 (4)로부터 행렬 A를 대각화(diagonalization)하여 고유값들로만 이루어진 식 (2)와 같은 대각 행렬을 만들었다. 그런데 이런 고유값행렬(eigenvalue matrix)말고도 다른 형태의 행렬을 만들 수 있다. 식 (4)에서 양변의 좌측에 S의 역행렬을 곱했다면, 이번에는 양변의 우측에 역행렬을 곱하는 것이다. 아래 식을 보자. 

 

 

식 (5.1)로부터 양변의 우측에 S의 역행렬을 곱했더니 식 (5.2)와 같은 식을 만들어냈다. 즉 A를 고유벡터행렬(eigenvector matrix)인 S와 고유값행렬(eigenvalue matrix)인 Λ, 그리고 고유벡터행렬의 역행렬의 곱으로 정의한 것이다. 이는 결국 A를 이전에 공부했던 LU factorization(가우스 소거로부터 행렬을 분해하는 방법, Lecture 4), QR decomposition(그람 슈미트 정규 직교화 방법으로 행렬을 분해하는 방법, Lecture 17-(2))과 같이 행렬을 분해하는 하나의 방법이며, 고유값과 고유벡터들의 행렬의 조합으로 행렬을 인수 분해(factorization)하는 방법이다. 조합되는 방법이 S와 대각 행렬, 그리고 다시 S의 역행렬이 반복됨을 주목하자. 

 

 

- Useful attribute

 

이제 이 행렬이 얼마나 유용한 특성을 가지는지 알아보도록 하자. 우리가 어떤 문제를 풀때 선형대수를 이용하여 선형연립방정식을 세우고, 이를 반복적으로 곱해서 계산해야 할 때가 있다. 이런 경우 A를 제곱, 3제곱, ... n제곱 과 같은 식으로 반복해서 곱해야할 때가 있는데, 이렇게 반복하여 자기 자신을 곱해야할 때 대각화에 의한 행렬 분해가 굉장히 유용한 특성을 가진다. 먼저 이 분해가 고유값과 고유벡터 식으로부터 유도된 만큼 A를 제곱했을 때 고유값/고유벡터 식 (1)이 어떻게 변하는지 알아보자. 

 

 

식 (6.1)은 고유값/고유벡터 식이다. 여기서 A를 제곱했다는 것은 식 (6.1)의 양변의 좌측에 각각 행렬 A를 곱한 것과 같다. 이렇게 양변에 A를 곱하면 식 (6.2)가 만들어지는데, (6.2)에서 우변의 람다는 상수이기 때문에 앞으로 빼서 정리했다. 이때 (6.2)의 우변에서 Ax는 λx와 같기 때문에 바꿔서 써주면 λλx가 되고, 최종적으로 (6.3)과 같이 정리할 수 있다. 결국 고유값/고유벡터 식에서 A를 제곱하면 우변의 고유값(eigenvalue)인 람다(λ)가 제곱이 된다. 이때 고유벡터는 A의 제곱과는 무관하게 변함없이 그대로이다. 

 

식 (6)에서 단일 고유값/고유벡터 식의 A제곱에 대한 내용을 살펴봤으니 이번에는 고유값행렬과 고유벡터행렬에 대한 식 (5)를 가지고 A의 제곱을 하면 어떤 결과가 나오는지 살펴보자. 식 (5.2)의 A를 제곱한 결과는 아래 식과 같다. 

 

 

식 (7.1)의 A를 제곱하면 식 (7.2)의 밑줄 친 부분이 단위행렬(identity matrix)이 되어 소거(cancel)되고, 결국 (7.3)과 같이 고유값행렬인 Λ의 제곱이 된다. 이는 단일 고유값/고유벡터에 대한 A제곱식 (6)과 같은 꼴이며 다만 그 형태가 n개의 고유값/고유벡터에 대한 행렬의 형식인 것이다. (6)과 마찬가지로 A를 제곱해도 고유벡터행렬(eigenvector matrix)은 그대로 유지되며 고유값행렬(eigenvalue)만 제곱의 형태로 나타난다. 

 

그런데 제곱이 아니라 세제곱, 네제곱, k제곱을 한다면 어떻게 될까? 실제로 계산을 해보면 세제곱을 하는 경우 역시 중간의 고유벡터행렬들은 단위행렬로써 소거되고, 우변의 고유값행렬만 세제곱이 된다. 결과적으로 A가 k번의 거듭제곱(power)를 하는 경우, 우변에서 고유벡터행렬(eigenvector matrix)은 그대로 유지되고 고유값행렬(eigenvalue matrix)만이 k번의 거듭제곱이 일어난다는 일반적인 식을 도출할 수 있다. 아래의 식 (8)은 이러한 일반식을 나타낸다. 

 

 

식 (8)을 잘 곱씹어보면 다음과 같은 통찰력을 얻을 수 있다. 어떤 행렬 A의 고유값(eigenvalue)과 고유벡터(eigenvector)는 A의 k번의 거듭제곱을 이해하는데에 아주 좋은 방법을 제공해준다. 예를 들어 LU분해나 QR분해 등의 방법을 이용하여 행렬을 인수분해 했을 경우, A를 1000제곱하면 LU*LU*...를 1000번 수행한 행렬이나 QR*QR*...를 1000번 수행한 행렬을 가지고 A의 1000제곱이 어떤 결과를 보일지를 예측하거나 A가 어떤 행렬인지를 분석해야 한다. 이들 분해 방법으로는 거의 불가능하다. 그러나 고유값행렬과 고유벡터행렬로 분해한 식 (8)의 방법은 A의 1000제곱에 대해서 단지 고유값행렬(eigenvalue matrix)의 1000제곱만 분석하면 된다. 이마저도 고유값행렬의 1000제곱을 할 필요도 없이 각 고유값들의 제곱을 계산해도 된다. 

 

 

식 (9)는 고유값행렬의 제곱을 나타내며, 그 결과는 대각 원소들인 각 고유값들이 자기자신을 제곱한 것과 같은 것을 볼 수 있다. 따라서 A의 거듭제곱에 대한 계산이 훨씬 쉽고 효율적으로 진행된다. 

 

또한 행렬 A를 고유값행렬과 고유벡터행렬로 대각화(diagonolization)하면 A가 어떤 특성을 가지는지, 혹은 k번의 거듭제곱을 했을 때, 어떤 결과가 나올지를 대략 유추해 볼수도 있다. 가령 아래와 같은 조건을 갖출 경우, 우리는 행렬 A를 안정 행렬(stable matrix)라고 할 수 있다. 

 

 

식 (10)의 조건에 따르면 어떤 행렬 A의 모든 고유값의 절대값이 1보다 작을 때 A의 거듭제곱(power)을 지속해 나갈 수록 A는 0으로 수렴한다. 이때 A는 stable하다 라고 할 수 있다. 그 아래 예를 보면 행렬 A의 고유값은 각각 λ1=0.4172, λ2=0.9828인데 둘 다 절대값이 1보다 작다. 이때 A를 거듭제곱한 결과가 그 아래 나와있는데, A의 10제곱, 50제곱, 100제곱을 거듭 할수록 A의 원소의 값들이 점점 작아지는 것을 볼 수 있다. 결국 어떤 행렬의 고유값(eigenvalues)들의 상태를 보고 해당 행렬의 특성이나 거듭제곱을 무한대로 반복했을 때의 결과를 끝까지 해보지 않아도 예측할 수 있는 것이다. 

 

 

2. 대각화 가능한 행렬(Diagonalizable matrices)

 

- Which matrices are diagonalizable?

 

지금까지 우리는 어떤 행렬 A를 대각화(diagonolization)과정을 통해 고유값행렬(eigenvalue matrix)과 고유벡터행렬(eigenvalue matrix)로 분해한다면 A의 거듭제곱을 계산하는데에 있어 굉장히 유용한 특성이 있음을 배웠다. 다시 한 번 강조하지만 대각화(diagonalization)를 위해 가장 중요한것은 A가 n개의 독립(independent)인 고유값과 고유벡터를 가지고 있어야 이 모든 것이 성립한다는 것이다. 그렇다면 어떤 행렬들이 대각화가 가능할까? 바로 아래의 정의를 만족시키는 행렬들이 대각화 가능한(diagonalizable)행렬들이다. 

 

 



대각화 가능한(diagonalizable) 행렬의 조건:
    • 어떤 행렬 A의 고유값(lambda, λ)들이 전부 서로 다른 값을 가진다면, 즉 반복되는 고유값이 없다면, A는 반드시 n개의 독립인 고유벡터(eigenvectors)를 가지며 대각화가 가능하다(diagonalizable)

 

위의 노란 박스안에 정의된 조건을 만족하는 행렬은 대각화가 가능한 행렬이다. 위의 정의에 대한 증명이 궁금하다면 여기를 참조하기 바란다. 혹시나 위의 정의가 맞는지 의심이 들 수도 있기에 MATLAB을 이용하여 실험을 해보았다. MATLAB의 랜덤 함수 rand()를 이용하여 20x20크기의 랜덤값을 가진 행렬을 만들고, 고유값행렬(eigenvalue matrix)과 고유벡터행렬(eigenvector matrix)을 eig()함수를 이용하여 구한 다음 고유값행렬에서 같은 고유값이 존재하는지 확인한다. 그 다음으로 n개의 독립인 고유벡터를 가지는지 확인하기 위해 고유벡터행렬의 rank를 계산하여 n보다 작은지를 검사하여 그 횟수를 세는 간단한 프로그램이다. for문을 이용하여 1000번 반복하였다. 아래 그림은 MATLAB코드와 그 결과를 캡쳐한 화면이다. 

 

 

 

 

Fig. 1 MATLAB코드와 n개의 서로 다른 고유값 실험

 

실험 결과 1000번의 반복에도 단 한번의 카운트가 되지 않았음을 알 수 있다. 이는 결국 서로 다른 n개의 고유값을 가지면 n개의 독립(independent)인 고유벡터가 존재함을 실험적으로 보인 것이다. 물론 완벽한 증명법은 아니겠지만, 이미 수학적으로 증명된 정의를 실험을 통해 한 번 더 확인하는 과정이라고 생각해도 좋을것이다. 

 

 

- When A has repeated eigenvalues (positive case)

 

A가 만약 반복되는 고유값을 가진다면 무조건 n개의 독립인 벡터를 가질 수 없는 걸까? 반드시 그렇지는 않다. 다만 반복되는 고유값을 가진 경우, 좀 더 면밀히 살펴봐야한다. 즉 아래의 정의로 설명할 수 있다. 

 



    • A가 반복되는 고유값(eigenvalues, lambdas)을 가진 경우, A는 n개의 독립(independent)인 고유벡터(eigenvectors)를 가질 수도, 혹은 가지지 않을 수도 있다.  

 

 

그렇다면 어떤 행렬이 반복되는 고유값을 가져도 n개의 독립인 고유벡터를 가질까? 한 예가 바로 단위 행렬(identity matrix)이다. 아래 단위 행렬의 고유값/고유벡터 예를 보자. 

 

 

 

 

식 (11)에서 2x2크기의 단위 행렬의 2개의 고유값은 1로 반복되었다. 그런데 고유값이 반복되었음에도 불구하고 고유벡터는 2개의 독립인 고유벡터가 나왔다. 이는 단위행렬이 어떤 벡터를 곱하여 변형시켜도 자기 자신이 나오게 만드는 특성을 고려해보면 당연한 것이다. 이 단위 행렬을 식 (2)와 같이 대각화(diagonalization)를 하면 어떻게 되는지 살펴보자. 

 

 

 

식 (12)와 같이 대각화에 대한 식에도 성립하는 것을 알 수 있다. 사실 식 (11)에서 계산한 고유벡터 말고도 단위행렬에 대한 2차원 공간의 무수히 많은 고유벡터가 존재한다. 2x2 이외에도 nxn크기의 단위행렬의 경우에도 마찬가지로 모두 동일한 고유값을 가지지만, n개의 독립인 고유벡터가 존재한다. 결과적으로 단위 행렬의 경우 동일한 고유값을 가졌음에도 n개의 독립인 고유벡터가 존재하는 case이다. 

 

또 한 가지 예를 살펴보자. 두 번째로 살펴볼 예는 지난 강의 Lecture 21-(2)에서 살펴봤던 180도에 대한 회전행렬(rotation matrix)이다. 자세한 관련 내용은 전 강의를 참고하도록 하고, 식을 다시 써보면 다음과 같다. 

 

 

단위 행렬과 마찬가지로 고유값은 -1로 동일하게 두 번 반복됐지만, 고유벡터는 2개의 독립인 벡터가 존재함을 볼 수 있다. 지난 강의에서 봤겠지만 180도를 회전시키는 행렬의 경우 변환 전과 후의 벡터가 비록 방향은 완전히 반대로 바뀌지만 평행(parallel)하기 때문에 역시 무수히 많은 고유벡터들이 존재하게 된다. 

 

 

- When A has repeated eigenvalues (negative case)

 

이번엔 고유값이 반복되었을 때 n개의 독립인 고유벡터가 존재하지 않는 경우를 살펴보자. 사실 이 역시 지난 강의 Lecture 21-(2)에서 이미 본 적이 있는 행렬이다. 바로 삼각행렬(triangular matrix)이다. 아래 식을 보자. 

 

 

 

식 (14)의 행렬 A는 삼각행렬의 형태를 띄고 있으며, 고유값은 전부 2로 같다. 지난 강의에서 배웠듯이 삼각행렬은 대각 원소들이 곧 고유값이 됨을 기억하자. det(A-λI)를 계산할 때 아래쪽 원소들 값이 모두 0이기 때문에 반대편(cross) 대각 원소들은 방정식에 포함되지 않는다. 따라서 대각 원소들만이 방정식 계산에 포함되기 때문에 대각 원소들 값이 곧 고유값이 된다. 

 

고유벡터를 구해보면 식 (14)의 아래와 같이 되는데, 보다시피 한 개의 고유벡터만이 존재한다. (A-λI)의 null space인 고유벡터를 구할 때, 식을 만족시키기 위해서는 x2에는 어떤 값도 들어가서는 안된다. 따라서 무조건 0이 되어야 하고 x1에만 임의의 값을 넣을 수 있다. 그런데 이렇게 되면 x는 1차원 공간에 존재하게 되고, 결국 두 고유벡터가 같은 부분 공간에 존재하게 된다. 따라서 2x2행렬에서 단 1개의 고유벡터만 존재하게 된다. 이렇게 되면 n개의 독립인 고유벡터가 존재하지 않기 때문에 삼각행렬의 경우 대각화(diagonolization)가 불가능한 경우다. 

 

 

정리해보면 어떤 행렬 A가 n개의 서로 다른 고유값을 가지는 경우엔 A는 반드시 서로 다른 독립인 고유 벡터를 가지며, A는 대각화가 가능하다. 

반면 A가 어떤 반복되는 고유값을 가지는 경우엔 독립인 고유벡터를 가질 수도 있지만(단위 행렬, 회전 행렬), 그렇지 않을 경우도 존재한다(삼각 행렬)

 

 

 

3. 대각화와 차분방정식(Diagonalization and Difference Equation)

 

- Difference Equation

 

앞서 배운 대각화를 이용하면 방정식(equation)을 손쉽게 풀 수 있다. 지금껏 공부한 선형대수(Linear Algebra)가 선형연립방정식을 손쉽게 풀기 위함인데 갑자기 방정식이라니? 그냥 방정식이 아니라 우리나라말로 차분 방정식, 혹은 계차방정식이라 불리는 Difference equation이다. 계차방정식(difference equation)은 시간이 지남에 따라 상태가 변화하는 문제를 방정식으로 만들어놓은 것이다. 이를테면 바이러스가 1초마다 자기 자신을 둘로 분열시킨다고 했을 때, 처음 1마리가 1000초 후엔 몇 마리가 되어 있는가? 와 같은 문제들 말이다. 즉 방정식(equation)시간(time)과 그에 따른 미분(derivative)의 개념이 들어가 있는 것이다. 

 

여기서 어떤 사람은 "그렇다면 계차방정식이 결국 미분방정식(differential equation) 아닌가?"라고 생각할지도 모르겠다. 이 둘은 비슷해보이지만 약간 다르다. 둘 다 미분(derivative)이라는 개념이 들어가 있지만, 시간을 어떻게 보느냐에 따라 달라진다계차방정식(difference equation)은 시간을 정수단위로 끊어서 생각하는, 즉 이산적인(discrete)개념이고, 미분방정식(differential equation)은 시간을 끊어지지 않고 쭈욱 이어지는 개념, 즉 연속적인(continuous) 개념으로 생각하는 것이다. 아래 식은 똑같은 개념을 각각 계차방정식과 미분방정식의 방법으로 표현한 것이다. 

 

 

식 (15)에서 계차방정식(Difference equation)의 경우 a의 시간에 따른 변화를 n으로 표현하였다. n에 들어갈 수 있는 숫자는 오직 정수뿐이며 소수 등의 다른 숫자는 들어갈 수 없다. 계차방정식이 말하고자 하는 것은 a가 n일때를 기준으로 a의 이전 상태(n-1)는 a의 바로 앞의 상태(n+1)에서 현재 상태(n)를 뺀 값이 되며, 이것이 계속 반복된다는 것이다. n이 +1씩 변화할 때 그에 따라 a가 어떻게 변화는지를 보는 것, 즉 미분(derivative)을 이산적(discrete)으로 나타낸 것이다. n는 보통 시간이나 시퀀스(sequence)를 나타내는데 결국에는 시간(time)의 개념이 들어갈 수밖에 없다. 

 

반면 식 (15)의 우측의 미분방정식(differential equation)을 보면, 여기서 dx는 delta x를 의미하고 x의 변화를 의미한다. dy도 마찬가지로 delta y를 의미하는데, 이때 변화량을 의미하는 delta가 나타내는 그 "변화량"은 무한대로 작은 값을 의미한다. 즉 상상하기 힘들 정도로 아주 찰나의 순간을 의미하며, 결국 이 변화량은 끊어지지 않고 연속적인(continuous) 개념이 된다. dx는 시간일수도 있고 혹은 다른 물리량을 의미할 수도 있다. 여기서는 일단 시간으로 생각해보자. dy는 dx, 즉 x가 아주 찰나의 순간의 변화가 발생했을 때 y가 얼마만큼 변하는지를 나타내며, dy/dx의 나눗셈을 했기 때문에 결국 x가 변화했을 때 y가 얼만큼 변하는지에 대한 비율(ratio)을 의미하게 된다. 계차방정식(difference equation)과의 관계를 살펴보면 x는 n과 관련이 있고, y는 a와 관련이 있다. 식 (15)는 미분에 대한 똑같은 내용을 계차방정식과 미분방정식으로 각각 다르게 표현한 것이다. 

 

사실 현실세계의 문제는 미분방정식이지만, 이를 인간이 보다 이해하기 쉽고 무엇보다도 컴퓨터가 계산하기 좋게 만든 것이 계차방정식이다. 계차방정식도 n과 n+1사이의 간격(or 주기 등)이 짧으면 짧을수록 미분방정식에 가깝게 된다. 

 

 

다시 선형대수 문제로 돌아와서, 우리가 어떤 순서나 시간의 개념이 들어가있는 계차방정식(difference equation)을 선형대수를 이용하여 푼다고 가정해보자. 시간의 개념이 있기때문에 분명 초기값(initial value or initial condition)이라는 것이 존재할 것이다. 이 방정식을 u에 대한 계차방정식이라고 했을 때, 식은 아래와 같다. 

 

 

식 (16)은 u에 대한 계차방정식이며 k번째 u를 시스템 A를 통해 계산했을 때 k+1번째 u의 값을 계산하는 방정식이다. 여기서 u가 순차적으로 변화한다고 했을 때 어느 타이밍 혹은 어느 순서에서 어떤 값이 나올지를 계산하기 위함이므로 u는 초기값 u0상태에서 시작한다. 이를 실제 문제에 빗대어 설명하자면 어느 도시의 인구 증가율을 A라는 방정식으로 만들고, u0가 도시의 초기 인구, k를 초기 년도로부터 몇년 이후의 년도인지를 나타내는 인덱스라고 하자. uk는 도시의 초기 인구 u0로 부터 k년도가 지났을 시점의 인구의 값이다. 이와 같은 문제를 계차방정식(difference equation)으로 표현하면 아래의 식과 같다. 

 

 

식 (17.1)을 보면 초기값 u0에서 A라는 방정식을 통해 u의 다음 시점의 변화된 값 u1을 계산할 수 있다. u1은 다시 A를 통해 그 다음 시점의 값 u2가 되고, k번째 u의 값 uk는 A를 통해 그 다음 차례의 u값인 uk+1이 된다. 그런데 u2를 계산할 때를 보면 u1을 A에 곱하여 계산하는데, u1은 Au0이다. 따라서 식 (17.1)의 u1을 Au0로 치환시켜주면 u2=AAu0가 되고, 결국 A가 2번 거듭제곱 된 형태이다. 이 식을 일반적으로 쓰면 u의 k번째 값 uk를 계산하기 위해선 u0를 A의 k번째 거듭제곱식에 곱해주면 된다. 결국 식 (17.2)의 상자속 식과 같은 일반적인 식이 도출된다. 이 식이 바로 계차방정식(difference equation)을 나타내며, 1차 시스템(first order system)이다. 위의 식이 1차(first order)인 이유는 식 (17.1)과 같이 k에서 k+1로 딱 한 단계만을 연결시키기 때문이고, 시스템(system)이라고 부를 수 있는 것은 우리가 구하고자 하는 미지수(unknown) 단일 숫자가 아닌 벡터(vector)이기 때문이다. 

 

 

- Real solution of difference equation

 

결국 우리는 식 (17.2)의 상자속 식을 통해 u의 100번째, 혹은 1000번째 값을 u의 초기값 u0에 A의 거듭제곱을 곱해서 쉽게 구할 수 있다. 사실 A행렬을 직접 100번 곱해서 u100을 구할 수도 있지만, 앞서 배운 행렬의 대각화(diagonolization)를 이용하면 이 계차방정식을 진짜로 풀 수 있다. 여기서 진짜로 풀 수 있다는 의미는 이 계차방정식에서 k가 커질수록 미지수의 값이 얼마만큼 증가하고 감소하는지 그 증가폭을 알 수 있다는 것이다. 즉 이 계차방정식의 Dynamics를 아는 것이 우리가 구하고자 하는 진정한 해답이고 이를 대각화를 통해 알 수 있다. 단순히 A만 거듭해서 곱해서는 이 시스템에 대한 자세한 정보를 알 수 없다. 이제 계차방정식에 대한 진정한 해를 어떻게 구하는지 알아보자. 

 

우선 주어진 방정식은 초기값 u0가 주어진다. 계차방정식을 진짜로 푸는 과정은 이 초기값인 u0 벡터를 행렬 A의 고유벡터들의 선형 결합(Linear combination)으로 표현하는 것으로부터 시작한다. 아래 식을 보자. 

 

 

식 (18)은 초기값 벡터 u0를 행렬 A의 고유벡터(eigenvectors)들의 선형 결합으로 표현한 것이다(x는 고유벡터, c는 상수). 이를 행렬의 곱 형태로 나타내면 고유벡터행렬(eigenvector matrix)인 S와 상수값 벡터인 c와의 곱인 u0=Sc로 나타낼 수 있다. 그런데 u0는 A의 고유벡터들의 선형 결합으로 표현이 가능한가? 정답은 Yes이다. 단 A가 n개의 독립(independent)인 고유벡터를 가지고 있다는 전제가 있어야 한다. n개의 독립인 고유벡터는 n차원 공간인 Rn의 기저(basis)를 형성하기 때문이다. 따라서 u0는 어떤 값이던 Rn공간내에 존재하기 때문에 A의 고유벡터들의 선형결합으로 표현이 가능한다. 

 

이제 식 (18)의 u0에 행렬 A를 곱하면 어떻게 정리가 되는지 살펴보자. 

 

 

식 (18)의 u0에 행렬 A를 곱하면 (19)와 같이 각각의 분리된 파트에 A가 곱해지는 것과 같다. c는 상수이므로 앞으로 빼서 정리하면 (19.1)처럼 정리할 수 있다. 여기서 각 파트는 cAx의 형태가 되는데, Ax는 고유값/고유벡터 식 (1)에 의해 (19.2)와 같이 λx로 바꿔서 정리할 수 있다. 결국 초기값 u0를 A를 통해 변환시킨 결과를 식 (19)와 같이 고유값과 고유벡터의 선형결합으로 나타냈다. 그러나 우리가 알고자하는 것은 A를 지속적으로 곱했을 때의 결과, 즉 예를 들면 A의 100제곱을 하면 초기값 u0가 어떻게 변화하는지, 그 변화의 정도는 얼마만큼인지 등이다. 식 (19)에서 A의 100제곱을 했을 때 식이 어떻게 되는지 살펴보자. 

 

 

우선 식 (19)에서 A를 한 번 더 곱하면 상수인 c와 λ를 앞으로 빼서 정리하여 (20.1)과 같이 만들 수 있다. 다시 고유값/고유벡터 식을 통해 치환하여 정리하면 식 (20.2)와 같이 되고, 이는 A를 제곱한 수 만큼 각 파트의 람다값이 제곱되는 꼴이 된다. A의 100제곱은 식 (20.3)과 같이 각 파트의 고유값인 람다(lambda)가 100제곱이 되고 이들의 조합으로 정리할 수 있다. 

 

다음으로 식 (20.3)을 앞서 배웠던 행렬의 대각화(diagonalization)방법을 통해 정리해보자. 행렬 A를 대각화하고 u0를 Sc로 나타내면 가운데 S행렬이 단위행렬이 되어 소거되고 식 (20.4)와 같이 정리가 된다. 이를 행렬(matrix)의 형태로 나타낸 것이 식 (20.5)이며, 이 식을 정리하면 (20.3)과 같은 결과가 나오는 것을 알 수 있다. 이를 통해 우리는 초기값 u0가 어떤 방정식 시스템 A에 의해 100번 변환된 결과인 u100을 고유값과 고유벡터로 풀 수 있다. 결과적으로 초기값 u0를 A의 k거듭제곱번 변화시킨 계차방정식(difference equation)은 고유벡터행렬(eigenvector matrix)과 고유값 행렬(eigenvalue matrix)의 k거듭제곱, 그리고 상수벡터 c의 곱으로 식 (20.6)과 같이 정리할 수 있다. 

 

정리해보면 어떤 계차방정식을 제대로 푼다는 것은 이를 고유값과 고유벡터로 풀어내는 것을 의미하며, 여기서 중요한 것은 고유값을 통해 우리는 이 계차방정식의 변화의 추이를 가늠해볼 수 있다는 것이다. 이는 단순히 A를 k번 거듭제곱하여 결과값만을 도출하는 것과는 달리 해당 시스템의 특성을 정확하게 파악하는데에 그 의의가 있다고 볼 수 있다. 다음 section에서 실제 예를 통해 이에 대한 이해를 높여보자. 

 

 

4. 대각화의 응용(Application of the Diagonalization)

 

- Fibonacci number

 

대각화(diagonalization)를 피보나치 수열(Fibonacci sequence)에 응용해보도록 하자. 피보나치 수열은 맨 처음 0과 1로 시작해서 다음 숫자는 앞의 숫자 두 개의 합이 되는 규칙을 가지고 있다. 

 

 

식 (21)은 피보나치 수열을 나타내며 F1, F2는 피보나치 수열에서 각 원소의 인덱스를 나타낸다. 여기서 우리가 알고자하는 것은 이런식으로 수열이 지속적으로 증가할 때 F100번째 값은 무엇인지, 그리고 얼마나 빠르게 값이 증가하는지 이다. 피보나치 수열은 보다시피 F1, F2, ... 와 같이 순서가 더해질 수록 값이 증가하는 체제이다. 이와 같이 시간이나 순서에 따라 특정 규칙으로 값이 변화하는 체제를 우리는 앞서 배웠던 계차방정식(Difference equation)으로 만들 수 있고, 대각화를 통해 고유값과 고유벡터들의 조합으로 표현할 수 있다. 피보나치 수열을 계차방정식으로 만들면 특정 인덱스에서의 값이 무엇인지 알 수 있고, 고유값을 통해 이 계차방정식의 증가/감소 폭이 얼마나 되는지 알 수 있다. 이제 피보나치 수열의 계차방정식을 만들어보자. 

 

피보나치 수열의 규칙은 다음과 같이 정리할 수 있다. 

 

 

식 (22)와 같이 Fk+2는 이전의 두 개의 값 Fk+1과 Fk의 합으로 나타낼 수 있다. 이제 이 수식을 식 (17.1)과 같이 선형계차방정식(Linear Difference Equation)으로 만들어보자. 그런데 두 가지 문제가 있다. 일단 현재로썬 식이 (22) 하나뿐이다. 어떤 시스템이 되기 위해선 식이 두 개 이상 존재해야 하고, 해(solution)도 벡터로써 존재해야 한다. 또 하나의 문제는 식 (22)가 2차미분방정식(second-order differential equation)과 같다는 것이다(여기서 식 자체는 계차방정식으로 표현함). 식을 보면 Fk가 두 단계 이후의 Fk+2와 연결되어 있고 영향을 미치게 된다. 따라서 k가 두 번에 걸쳐 변화할 때 그 값에 대한 변화가 어떻게 이루어지는지 보기 때문에 이차미분과 같다. 식 (17.1)과 같이 1차식의 시스템으로 만들기 위해선 약간의 트릭이 필요하다. 먼저 시스템의 입력값인 uk가 필요한데, 벡터형태여야 한다. 이 문제에서 uk벡터는 어떤식으로 만들어야 할까? 

 

피보나치 수열을 정의한 식 (22)를 보면 Fk+2라는 결과값은 Fk+1 + Fk의 이전 두 개의 입력값으로 정의되어 있다. 즉 입력값은 Fk+1과 Fk가 될 것이고 이들을 uk벡터로 정의하면 될 것이다. 또한 식 (17.1)과 같이 1차 시스템이 되기 위해선 어떤 선형시스템 A에 uk를 곱했을 때 uk+1이 나와야한다. 즉 uk+1은 uk의 원소들인 Fk+1과 Fk가 각각 한 단계씩 더 나아간 상태, 즉 Fk+2와 Fk+1이 될 것이다. 이를 식으로 정리하면 아래와 같다. 

 

 

uk와 uk+1를 만들었으니 다음 단계는 시스템 행렬 A를 만드는 것이다. 우리가 현재 하고 있는 작업은 단일 방정식으로 구성된 2차 미분방정식 (22)를 1차 선형계차방정식으로 만드는 것이다. 따라서 식 (22)의 내용이 그대로 반영이 된 1차 시스템식이 나와야 한다. 그렇다면 식 (23)의 uk를 곱했을 때 uk+1이 되면서 식 (22)의 내용이 반영되기 위해선 시스템 A가 어떻게 구성되어야 할까? 아래의 식을 보자. 

 

 

식 (24.1)이 피보나치 수열의 시스템 방정식(system equation)이다. 첫 번째 줄은 식 (22)와 동일하고 두 번째 줄은 1차식으로 만들기 위한 트릭이다. (24.1)의 좌변이 결국 uk+1이 되는 것을 볼 수 있다. 우변의 식들은 미지수(unknown) uk가 어떤 시스템 행렬 A에 곱해져서 만들어지는 행렬인데, 이와 같은 식이 되기 위해서는 식 (24.2)의 A와 같은 식이 만들어지면 된다. 

 

이렇게 하여 우리는 단일 식으로 구성된 2차 미분방정식의 꼴인 피보나치 수열 문제를 1차 시스템으로 바꾸었다. 이제 다음으로 할 일은 이 1차 선형방정식을 풀기 위해 식 (20.6)과 같이 고유값과 고유벡터로 표현하는 것이다. 먼저 행렬 A의 고유값과 고유벡터를 구해보자. 

 

 

우선 식 (25.1)의 행렬 A를 보면 대각 행렬(diagonal matrix)형태인 것을 알 수 있다. Lecture 21-(2)에서 배웠듯이 대각 행렬의 고유값은 허수(imaginary number)가 아닌 실수(real number)가 나온다. 또한 trace A가 고유값들의 합과 같은 규칙을 통해 고유값들의 합이 1이 된다는 것을 알 수 있고, det A가 고유값들의 곱과 같다는 규칙을 통해 고유값들의 곱이 -1이 됨을 알 수 있다. 실제로 식 (25.2)와 같이 고유값을 계산하여 더하고 곱해보면 trace A=1, det A=-1와 각각 같음을 알 수 있다. 

 

여기서 한 가지 주목할 점은 (25.1)의 고유값에 대한 2차식이다. 이 고유값의 방정식은 피보나치 수열의 계차방정식 행렬 A를 통해 만든 것이고, 행렬 A는 피보나치 수열의 규칙을 나타내는 식 (22)에 약간의 트릭을 써서 1차식으로 만든 것이다. 결국 최초의 2차 미분 방정식 (22)로부터 만들어온 것인데, 실제로 고유값에 대한 식을 구해보니 이 최초의 식과 같은 양상을 보인다. 

 

 

결국 행렬 A의 고유값에 대한 det(A-λI)는 A의 특성방정식(characteristic equation)을 만들어내고, 이 특성방정식은 해당 행렬이 수행하는 어떤 작업에 대한 특성을 나타내는 식이 된다. 최초의 피보나치 수열에 대한 식 (22)의 형태가 행렬 A의 특성방정식으로 고스란히 드러남을 통해 이러한 사실을 알 수 있다

 

이렇게 하여 식 (25.2)와 같이 2x2행렬 A에 대한 2개의 고유값을 구했다. 첫 번재 고유값 λ1은 1보다 크고, λ2는 1보다 작다. 이와 같이 2개의 고유값이 서로 다르기 때문에 A는 2개의 독립인 고유벡터가 존재하며, 대각화(diagonalization)가 가능하다

 

 

이제 처음에 가졌던 질문을 다시 생각해보자. 피보나치 수열은 계속 증가하는 함수이다. 그렇다면 얼마나 빠르게 증가하는가? 그리고 임의의 순서의 수열의 값, 예를 들어 F100의 값은 얼마가 되는가? 첫 번째 질문에 대한 답은 고유값에 있다. 얼마나 빠르게 증가하는지, 즉 피보나치 수열의 Dynamics는 고유값(eigenvalue)에 있다. 두 번째 질문에 대한 답은 앞서 정리했던 식 (17.2)를 활용하면 된다. 식 (17.2)를 다시 고유값과 고유벡터에 대한 식 (20.3)으로 분리하면 아래의 식과 같이 정리할 수 있다. 

 

 

F100의 값은 초기값 u0에 A의 100제곱을 곱한 u100을 구하는 것과 같다. 이 식은 (27.2)와 같이 고유값과 고유벡터들의 선형 조합으로 정리할 수 있고, 실제 고유값을 넣어서 (27.3)과 같이 정리할 수 있다. 이때 두 번째 고유값인 λ2는 1보다 작은 수이기 때문에 거듭제곱을 할 수록 0으로 수렴하여 실제로 F100에 미치는 영향은 0으로 봐도 무방하다. 따라서 (27.3)의 첫 번째 term만 고려해도 된다. 결국 위의 식에서 피보나치 수열의 값의 증가를 제어하는 요소는 고유값이고, 그 중에서도 1보다 큰 첫 번째 고유값이다. 이제 식을 완성시키기 위해 고유벡터(eigenvector)를 구해보자. 

 

 

기존에 고유벡터를 구하던 방법과 같이 각 고유값을 대입하고 가우스소거를 한 다음, free variable에 1을 설정하여 고유벡터를 구할 수도 있으나, 고유값을 뺀 행렬이 특이 행렬(singular matrix)이고, 곱한 결과가 영벡터가 되야 함을 염두해 봤을 때 고유벡터는 x=[λ 1]T임을 유추할 수 있다. 이때 식 (28.2)의 row1의 식은 식 (25.1)의 특성방정식이다. 고유벡터의 식에 고유값인 λ1, λ2를 각각 대입하면 (28.3)과 같이 고유벡터를 구할 수 있다. 

 

마지막으로 구할 파라미터는 계수값 c1과 c2이다. 이 둘은 아래의 식으로부터 구할 수 있다. 

 

 

먼저 우리가 이미 알고있는 초기값 u0를 구하는 계차방정식을 세운 다음, 이를 고유값과 고유벡터에 관한 식으로 정리한다. 초기값을 구하는 계차방정식은 행렬 A가 0제곱이기 때문에 식 (29.2)와 같이 고유값도 역시 0제곱이 되어 사라지고 u0=c1x1+c2x2만 남게 된다. 이를 (29.3)과 같이 고유벡터행렬(eigenvector matrix) S와 계수 벡터(coefficient vector) c의 곱으로 나타낼 수 있다. 이제 식 (29.3)을 가우스소거법(Gauss Elimination)으로 풀면 계수벡터 c를 구할 수 있다. S행렬의 소거 과정과 c의 값을 구하는 과정은 아래 식과 같다. 

 

 

식 (30.1)에서 S의 첫 번째 pivot원소가 있는 row1에 역수를 곱해 1을 만들어 주고, row2에서 row1빼주면 (30.2)와 같이 정리가 된다. 이때 식에 루트가 있기 때문에 계산 과정에서 분모의 유리화(Rationalization)를 해준다. 소거된 식으로부터 후방대입법(back-substitution)을 통해 c1과 c2를 각각 계산할 수 있다. 

 

필요한 파라미터들인 c, xλ들을 다 구했기 때문에 식 (27.3)에 이 값들을 대입하여 피보나치 수열의 100번째 값인 F100에 대한 값을 행렬 A를 100번 제곱하지 않아도 고유값의 100제곱을 통해 계산할 수 있다. 또한 고유값을 통해 해당 시스템(피보나치 수열)이 얼마나 빠르게 증가하는지를 파악할 수 있다.  

 

 

5. 마치며

 

이번 강좌에선 행렬의 대각화(diagonalization)에 대해 공부하였다. 대각화의 핵심엔 고유값(eigenvalue)과 고유벡터(eigenvector)가 있으며, 어떤 행렬을 고유값행렬(eigenvalue matrix)과 고유벡터행렬(eigenvalue matrix)로 분해하여 표현하는 방법이다. 대각화를 통해 어떤 반복적인 행렬곱셈(Matrix multiplication)을 해야 하는 문제를 훨씬 적은 계산량으로 효과적으로 풀 수 있으며, 이를 활용해 계차방정식(difference equation)의 형태로 정리한 피보나치 수열 문제를 해결하였다. 중요한것은 대각화를 통해 고유값/고유벡터로 분해하여 문제를 해결한다면 그 시스템 A에 대한 Dynamics를 파악할 수 있다는 것이다. 행렬 A의 거듭제곱(power)이 지속될 수록 얼마만큼 빠르게, 혹은 느리게 값이 증가 혹은 감소하는지에 대해서 분석할 수 있다. 

또한 행렬의 대각화는 다음 포스팅에서 다룰 미분방정식(differential equation)을 푸는 중요한 방법이 되므로 잘 공부하도록 하자. 

 

+ Recent posts