본문 바로가기
Algorithm/취업을 위한 코딩테스트 with Python

DFS - 그래프를 탐색하기 위한 깊이 우선 탐색 알고리즘

by millar 2023. 5. 16.

DFS

 DFS는 Depth-Frist Search, 깊이 우선 탐색이라고도 부르며, 그래프에서 깊은 부분을 우선적으로 탐색하는 알고리즘이다. DFS를 설명하기 전에 먼저 그래프의 기본 구조를 알아야 한다. 그래프는 노드와 간선으로 표현되며 이때 노드를 정점이라고도 말한다. 그래프 탐색이란 하나의 노드를 시작으로 다수의 노드를 방문하는 것을 말한다. 또한 두 노드가 간선으로 연결되어 있다면 '두 노드는 인접하다'라고 표현한다.

 

 일반적으로 그래프를 표현할 때 사용하는 단어들이다. 노드를 도시, 간선을 도로라고 생각해보자. A라는 도시(노드)에서 B라는 도시(노드)로 이동하기 위해서, A와 B를 연결하는 도로(간선)를 거친다고 이해하면 쉬울 것이다.

 

 프로그래밍에서 그래프는 크게 2가지 방식으로 표현할 수 있는데 코딩 테스트에서는 이 두 방식 모두 필요하니 두 개념에 대해 바르게 알고 있도록 하자.

 

- Part 02 _ Chapter 05 DFS/BFS 134p


인접 행렬: 2차원 배열로 그래프의 연결 관계를 표현하는 방식

 먼저 인접 행렬 방식은 2차원 배열에 각 노드가 연결된 형태를 기록하는 방식이다. 위와 같이 연결된 그래프를 인접 행렬로 표현할 때 파이썬에서는 2차원 리스트로 구현할 수 있다.

 

 연결이 되어 있지 않은 노드끼리는 무한의 비용이라고 작성한다. 실제 코드에서는 논리적으로 정답이 될 수 없는 큰 값 중에서 999999999 등의 값으로 초기화 하는 경우가 많다. 이렇게 그래프를 인접 행렬 방식으로 처리할 때는 다음과 같이 데이터를 초기화한다.

 

INF = 999999999

graph = [
    [0, 7, 5],	// 0번 노드
    [7, 0, INF],	// 1번 노드
    [5, INF, 0]	// 2번 노드
]

print(graph)

# 출력문
[[0, 7, 5], [7, 0, 999999999], [5, 999999999, 0]]

 0번 노드는 1번과 2번 노드에 방문할 수 있기 때문에 방문 가능한 노드의 유의미한 간선 비용이 존재하고 자기 자신의 비용은 0을 갖는다. 또한, 방문 불가능한 노드의 경우 무의미한 간선 비용을 갖는다.

 


 

인접 리스트: 리스트로 그래프의 연결 관계를 표현하는 방식

 인접 리스트 방식에서는 위의 그림처럼 모든 노드에 연결된 노드에 대한 정보를 차례대로 연결하여 저장한다. 파이썬은 기본 자료형인 리스트 자료형이 append()와 메소드를 제공하므로, 전통적인 프로그래밍 언어에서의 배열과 연결 리스트의 기능을 모두 기본으로 제공한다. 파이썬으로 인접 리스트를 이용해 그래프를 표현하고자 할 때에도 단순히 2차원 리스트를 이용하면 된다는 점만 기억하자.

 

graph = [[] for _ in range(3)]

graph[0].append((1, 7))
graph[0].append((2, 5))

graph[1].append((0, 7))
graph[2].append((0, 5))

print(graph)

# 출력문
[[(1, 7) (2, 5)], [(0, 7)], [(0, 5)]]

 집합의 첫 번째 정보는 노드 번호를 나타내고 두 번째 정보는 거리(비용)을 나타낸다. 0번 노드는 1, 2번 노드에 접근 가능하므로 0번째 리스트는 2개의 집합을 가지고 있는 것이다. 그리고 그 집합의 요소에서 첫 번째 요소가 노드 번호, 두 번째 요소가 거리(비용)을 의미하는 것을 다시 한번 기억하자.


두 방식의 차이점

 이 두 방식은 어떤 차이가 있을까? 코딩 테스트를 위해 학습하는 터라 메모리와 속도 측면에서 살펴보자. 메모리 측면에서 보자면 인접 행렬 방식은 모든 관계를 저장하므로 노드 개수가 많을수록 메모리가 불필요하게 낭비 된다. 반면, 인접 리스트 방식은 연결된 정보만을 저장하기 때문에 메모리를 효율적으로 사용한다. 하지만 이와 같은 속성 때문에 인접 리스트 방식은 인접 행렬 방식에 비해 특정한 두 노드가 연결되어 있는지에 대한 정보를 얻는 속도가 느리다. 아마 인접 행렬은 2차원 리스트의 요소로 연결되어 있는지 아닌지 바로 알 수 있지만, 인접 리스트는 2차원 리스트의 요소가 집합이므로 집합 속으로 한 번 더 들어가서 확인해야 하기 때문에 시간이 좀 더 걸리는 것 같다. 인접 리스트 방식에서는 연결된 데이터를 하나씩 확인해야 하기 때문이다.

 

 또 다른 예시로 한 그래프에서 노드 1과 노드 7이 연결되어 있는 상황을 생각해보자. 인접 행렬 방식에서는  graph[1][7]만 확인하면 된다. 반면에 인접 리스트 방식에서는 노드 1에 대한 인접 리스트를 앞에서부터 차례대로 확인해야 한다. 그러므로 특정한 노드와 연결된 모든 인접 노드를 순회해야 하는 경우, 인접 리스트 방식이 인접 행렬 방식에 비해 메모리 공간의 낭비가 적다.

 

정리...

  • 인접 행렬: 저장할 노드 개수가 많을수록 불필요한 메모리, 특정한 두 노드의 연결 상태를 확인하기 위해서는 효율적.
  • 인접 리스트: 연결된 정보만을 저장하기 때문에 효율적인 메모리, 특정 노드와 연결된 모든 리스트를 순회해야 하는 경우 효율적.

 DFS는 깊이 우선 탐색 알고리즘이라고 했다. 이 알고리즘은 특정한 경로를 탐색하다가 특정한 상황에서 최대한 깊숙이 들어가 노드를 방문한 후, 다시 돌아가 다른 경로로 탐색하는 알고리즘이다. DFS는 스택 자료구조를 이용하며 구체적인 동작과정은 다음과 같다.

  1. 탐색 시작 노드를 스택에 삽입하고 방문 처리를 한다.
  2. 스택의 최상단 노드에 방문하지 않은 인접 노드가 있으면 그 인접 노드를 스택에 넣고 방문 처리를 한다. 방문하지 않은 인접노드가 없으면 스택에서 최상단 노드를 꺼낸다.
  3. 2번의 과정을 더 이상 수행할 수 없을 때까지 반복한다.

'방문 처리'는 스택에 한 번 삽입되어 처리된 노드가 다시 삽입되지 않게 체크하는 것을 의미한다. 방문 처리를 함으로써 각 노드를 한 번씩만 처리할 수 있다.

 

 다음과 같은 그래프를 생각해보자. 노드 1을 시작 노드로 설정하여 DFS를 이용해 탐색을 진행하면 어떻게 될까? 직관적으로 생각하면, 깊이 우선 탐색이라는 이름에서부터 알 수 있듯이 단순하게 가장 깊숙이 위치하는 노드에 닿을 때까지 확인하면 된다.

 

 DFS를 이용하여 탐색하는 과정을 코드로 나타내면 다음과 같다. 또한 일반적으로 인접한 노드 중에서 방문하지 않은 노드가 여러개 있으면 번호가 가장 낮은 순서부터 처리한다.

 

def dfs(graph, v, visited):
    visited[v] = True
    print(v, end=' ')
    for i in graph[v]:
        if not visited[i]:
            dfs(graph, i, visited)

graph = [
    [],		# 0번 리스트를 비워놓는 이유는 노드가 1번부터 시작하기 때문이다
    [2, 3, 8],
    [1, 7],
    [1, 4, 5],
    [3, 5],
    [3, 4],
    [7],
    [2, 6, 8],
    [1, 7]
]

visited = [False] * 9
dfs(graph, 1, visited)

# 출력문
1 2 7 6 8 3 4 5

 

  1. 1번 노드부터 시작을 한다. dfs함수를 실행하면, 1번 노드는 방문 처리가 되고 2, 3, 8번 노드가 연결되어 있으므로 for 반복문을 통해 2번 노드가 재귀함수를 먼저 시작하게 된다. 3, 8번 노드는 대기중, 출력은 '1 '.
  2. 2번 노드에서는 1, 7번 노드가 연결되어 있지만 1번 노드는 이미 방문 했으므로 7번 노드가 재귀를 시작한다. 출력은 '1 2 '.
  3. 7번 노드에서는 2, 6, 8번 노드가 연결되어 있다. 2번은 방문 했으므로 제외하고, 6번 노드가 재귀를 시작한다. 8번은 노드는 대기중, 출력은 '1 2 7 '.
  4. 6번 노드는 7번 노드와만 연결되어 있다. 7번은 방문했으니까 진행 중인 이 탐색은 종료되고 스택의 구조에 따라 최근 대기하고 있던 8번 노드가 시작이 될 것이다. 출력은 '1 2 7 6 '.
  5. 8번 노드가 방문처리되어 출력될 것이고, 연결된 노드는 1, 7번 노드이다. 그런데 이미 방문된 노드들이니까, 다시 최근 대기하고 있던 8번 노드가 재귀를 시작한다. 출력은 '1 2 7 6 8 '.
  6. 8번은 이미 방문처리가 되어있다. 따라서 진행 중인 이 탐색은 종료. 최근 대기중인 3번 노드가 시작될 것이다.
  7. 3번 노드가 방문처리 되었고 3번과 연결된 노드는 1, 4, 5번 노드이다. 이제 4번 노드가 재귀를 시작할 것이고 출력은 '1 2 7 6 8 3 '.
  8. 4번 노드가 방문처리되고 4번과 연결된 노드는 3, 5번 노드이다. 이제 마지막으로 방문되지 않은 5번이 재귀를 시작한다.                출력은 '1 2 7 6 8 3 4 '.
  9. 이제 5번이 방문처리됐고 연결된 노드는 3, 4번 노드. 하지만 전부 방문했으므로 프로그램이 종료된다. 출력은 '1 2 7 6 8 3 4 5 '.

음료수 얼려먹기

 

 N x M 크기의 얼음 틈이 있다. 구멍이 뚫려 있는 부분은 0, 칸막이가 존재하는 부분은 1로 표시된다. 구멍이 뚫려 있는 부분끼리 상, 하 , 좌, 우로 붙어 있는 경우 서로 연결되어 있는 것으로 간주한다. 이때 얼음 틀의 모양이 주어졌을 때 생성되는 총 아이스크림의 개수를 구하는 프로그램을 작성하시오. 다음의 4 x 5 얼음 틀 예시에서는 아이스크림이 총 3개 생성된다.

 

입력 조건

  • 첫 번째 줄에 얼음 틀의 세로 길이 N과 가로 길이 M이 주어진다. (1 ≤ N, M ≤ 1,000)
  • 두 번째 줄부터 N + 1번째 줄까지 얼음 틀의 형태가 주어진다.
  • 이때 구멍이 뚫려있는 부분은 0, 그렇지 않은 부분은 1이다.

입력 예시

15 14
00000111100000
11111101111110
11011101101110
11011101100000
11011111111111
11011111111100
11000000011111
01111111111111
00000000011111
01111111111000
00011111111000
00000001111000
11111111110011
11100011111111
11100011111111

출력 예시

8


접근

 입력된 맵을 2차원 배열로 만든 뒤 (0, 0) 위치부터 시작해서 닿을 수 있는 상하좌우 위치가 0인 경우를 모두 2로 채우며 전부 채웠을 때 만들 수 있는 아이스크림 개수로 판단하고 카운트 변수를 올리도록 구성했다. 그리고 (0, 1)을 확인하고, (0, 2)를 확인하고, ..., 마지막 (n-1, m-1)까지 모든 위치를 확인했다.

 

구현

n, m = map(int, input().split())
data = list(input() for _ in range(n))
dm = [[] for _ in range(n)]

for i in range(n):
    for j in range(m):
        dm[i].append(int(data[i][j]))
cnt = 0

def ice(dm, i, j):
    dm[i][j] = 2
    if j < m - 1 and dm[i][j + 1] == 0:
        ice(dm, i, j + 1)
    if i < n - 1 and dm[i + 1][j] == 0:
        ice(dm, i + 1, j)
    if 1 < j and dm[i][j - 1] == 0:
        ice(dm, i, j - 1)
    if 1 < i and dm[i - 1][j] == 0:
        ice(dm, i - 1, j)  
for i in range(n):
    for j in range(m):
        if dm[i][j] == 0:
            ice(dm, i, j)
            cnt += 1
print(cnt)

 

 내가 익숙하게 푸는 문제들은 2차원 맵을 구성할 때 공백을 기준으로 수를 나누어 입력을 해줬다. 그래서 split 함수로 쉽게 받을 수 있었는데 이번 문제는 입력 맵의 행의 수들이 전부 붙어서 나와서 불필요한 과정을 한 번 거쳤다.

 

 2차원 맵을 구성하고 (0, 0)부터 시작해서 모든 노드를 탐색시킬 생각이었다. 일단 특정노드에서 탐색을 시작하면, ice 함수를 실행한다. ice함수는 해당 노드를 '2'로 바꾼다. 일종의 방문처리를 해준것이다. 그리고 상하좌우 모든 노드를 범위를 넘지 않게 확인하면서 방문 가능한 노드일 경우 해당 노드로 ice함수를 실행시킨다. 그럼 결국 맵에서 '1'로 막혀있지 않은 공간의 '0'은 전부 '2'로 방문처리가 될 것이고, 스택 구조상 마지막 ice 함수가 끝나야 cnt 변수가 1 오르니 적절히 구현했다고 생각한다.

 

 아쉬웠던 점은 입력값을 받을 때 였는데, 분명 파이썬은 위의 코드처럼 번거롭게 긴 수를 하나로 잘라 2차원 맵을 구성할 필요 없이 다른 방법이 있을 거라고 생각했다. 이 점을 해설을 통해서 배워야 하겠고 ice 함수의 역할도 수정할 수 있는 부분을 참고하려고 한다.

 

 


해설

 다음과 같은 로직으로 해결할 수 있다.

  1. 특정한 지점의 주변 상, 하, 좌, 우를 살펴본 뒤에 주변 지점 중에서 값이 '0'이면서 아직 방문하지 않은 지점이 있다면 해당 지점을 방문한다.
  2. 방문한 지점에서 다시 상, 하, 좌, 우를 살펴보면서 방문을 다시 진행하면, 연결된 모든 지점을 방문할 수 있다.
  3. 1 ~ 2번의 과정을 모든 노드에 반복하며 방문하지 않은 지점수를 샌다.

 

n, m = map(int, input().split())
graph = []
for i in range(n):
    graph.append(list(map(int, input())))
    
def dfs(x, y):
    if x <= -1 or x >= n or y <= -1 or y >= m:
        return False
    if graph[x][y] == 0:
        graph[x][y] = 1
        dfs(x - 1, y)
        dfs(x, y - 1)
        dfs(x + 1, y)
        dfs(x, y + 1)
        return True
    return False
    
result = 0
for i in range(n):
    for j in range(m):
        if dfs(i, j) == True:
            result += 1

print(result)

 

dfs 함수를 (0, 0)부터 실행을 시작할 것인데 스택 구조상 가장 먼저 실행된 (0, 0)은 True를 반환할 것이므로 인접 '0'인 지점은 모두 방문처리가 되며 방문이 모두 끝난 후 result 변수가 1 증가한다.

 

 전체적으로 내 풀이보다 깔끔하고 군더더기가 없다. 아직 True, False를 이용한 조건 분기점 확인에 익숙하지 않은데 자주 접해야 하겠다.


마치며

 처음 DFS 개념과 문제를 접했을 때, 기본 노드 설명부터 이해하기 어려웠지만 2번 보니까 이해가 너무 잘 됐던것 같다. 물론 실전문제를 풀 때 dfs로 해결해야 한다고 판단하는 것이 가장 중요할 텐데, 결국 문제를 많이 접해야 실력이 늘 것이다. 

 

댓글