拓扑排序算法

1.定义

给定一个包含 n 个节点的有向图 G，我们给出它的节点编号的一种排列，如果满足：

对于图G中的任意一条有向边（u,v）, u在排列中都出现在v前面。

那么称该排列是图 G 的「拓扑排序」。根据上述的定义，我们可以得出两个结论：

如果图 G 中存在环（即图 G 不是有向无环图），那么图 G 不存在拓扑排序。这是因为假设图中存在环 x1, x2, ..., xn, x1, 那么 x1 在排列中必须出现在 xn 的前面，但 xn 同时必须出现在 x1 的前面，因此不存在一个满足要求的排列，也就不存在拓扑排序。
如果图 G 是有向无环图，那么它的拓扑排序可能不止一种。举一个最极端的例子，如果图 G 中包含 n 个节点却没有任何边，那么任意一种编号的排列都可以作为拓扑排序。

2.例题

课程表II

题目描述：

现在你总共有 numCourses 门课需要选，记为 0 到 numCourses - 1。给你一个数组 prerequisites ，其中 prerequisites[i] = [ai, bi] ，表示在选修课程 ai 前必须先选修 bi 。

例如，想要学习课程 0 ，你需要先完成课程 1 ，我们用一个匹配来表示：[0,1] 。
返回你为了学完所有课程所安排的学习顺序。可能会有多个正确的顺序，你只要返回任意一种就可以了。如果不可能完成所有课程，返回一个空数组。

示例：

输入：numCourses = 2, prerequisites = [[1,0]]
输出：[0,1]
解释：总共有 2 门课程。要学习课程 1，你需要先完成课程 0。因此，正确的课程顺序为 [0,1] 。

输入：numCourses = 4, prerequisites = [[1,0],[2,0],[3,1],[3,2]]
输出：[0,2,1,3]
解释：总共有 4 门课程。要学习课程 3，你应该先完成课程 1 和课程 2。并且课程 1 和课程 2 都应该排在课程 0 之后。
因此，一个正确的课程顺序是 [0,1,2,3] 。另一个正确的排序是 [0,2,1,3] 。

输入：numCourses = 1, prerequisites = []
输出：[0]

思路解析：

本题是一道经典的「拓扑排序」问题:

我们将每一门课看成一个节点；
如果想要学习课程 A 之前必须完成课程 BB，那么我们从 B 到 A 连接一条有向边。这样以来，在拓扑排序中，B 一定出现在 A 的前面。

求出该图的拓扑排序，就可以得到一种符合要求的课程学习顺序。下面介绍两种求解拓扑排序的方法。

方法一：深度优先搜索

我们可以将深度优先搜索的流程与拓扑排序的求解联系起来，用一个栈来存储所有已经搜索完成的节点。

对于一个节点 u，如果它的所有相邻节点都已经搜索完成，那么在搜索回溯到 u 的时候，u 本身也会变成一个已经搜索完成的节点。这里的「相邻节点」指的是从 u 出发通过一条有向边可以到达的所有节点。

假设我们当前搜索到了节点 u，如果它的所有相邻节点都已经搜索完成，那么这些节点都已经在栈中了，此时我们就可以把 u 入栈。可以发现，如果我们从栈顶往栈底的顺序看，由于 u 处于栈顶的位置，那么 u 出现在所有 u 的相邻节点的前面。因此对于 u 这个节点而言，它是满足拓扑排序的要求的。

这样以来，我们对图进行一遍深度优先搜索。当每个节点进行回溯的时候，我们把该节点放入栈中。最终从栈顶到栈底的序列就是一种拓扑排序。

算法：

对于图中的任意一个节点，它在搜索的过程中有三种状态，即：
- 「未搜索」：我们还没有搜索到这个节点；
- 「搜索中」：我们搜索过这个节点，但还没有回溯到该节点，即该节点还没有入栈，还有相邻的节点没有搜索完成）；
- 「已完成」：我们搜索过并且回溯过这个节点，即该节点已经入栈，并且所有该节点的相邻节点都出现在栈的更底部的位置，满足拓扑排序的要求。
通过上述的三种状态，我们就可以给出使用深度优先搜索得到拓扑排序的算法流程，在每一轮的搜索搜索开始时，我们任取一个「未搜索」的节点开始进行深度优先搜索。
- 我们将当前搜索的节点 u 标记为「搜索中」，遍历该节点的每一个相邻节点 v：
  - 如果 v 为「未搜索」，那么我们开始搜索 v，待搜索完成回溯到 u；
  - 如果 v 为「搜索中」，那么我们就找到了图中的一个环，因此是不存在拓扑排序的；
  - 如果 v 为「已完成」，那么说明 v 已经在栈中了，而 u 还不在栈中，因此 u 无论何时入栈都不会影响到 (u, v)(u,v) 之前的拓扑关系，以及不用进行任何操作。
- 当 u 的所有相邻节点都为「已完成」时，我们将 u 放入栈中，并将其标记为「已完成」。
在整个深度优先搜索的过程结束后，如果我们没有找到图中的环，那么栈中存储这所有的 n 个节点，从栈顶到栈底的顺序即为一种拓扑排序。

代码实现思路

如何存储有向图？已知节点为0,1,...,numCourses-1，可以用List<List<Integer>> edge来存储边，edge.get(i)获取i节点能指向的节点，也就形成了有向边。这样，0,...,numCourses-1代表了不同的节点，而它们的边信息则存储在List<List<Integer>> edge中。可变长数组方便根据prerequisites构建有向图。
如何实现栈？因为节点的数量已经是确定的，可以使用int[] result数组来当做栈，n-1代表栈底，0代表栈顶。
节点的三种状态分别用0(未搜索),1(搜索中),2(已完成)来表示，因而每个节点的状态可以用数组int[] visited来存储。

class Solution {
    // 存储有向图
    List<List<Integer>> edges;
    // 标记每个节点的状态：0=未搜索，1=搜索中，2=已完成
    int[] visited;
    // 用数组来模拟栈，下标 n-1 为栈底，0 为栈顶
    int[] result;
    // 判断有向图中是否有环
    boolean valid = true;
    // 栈下标
    int index;
    public int[] findOrder(int numCourses, int[][] prerequisites) {
        visited = new int[numCourses];
        result = new int[numCourses];
        index = numCourses-1;
        edges = new ArrayList<List<Integer>>();
        for (int i=0; i < numCourses; i++){
            edges.add(new ArrayList<Integer>());
        }

        // 将边的信息存储入edge
        for (int[] temp:prerequisites){
            edges.get(temp[1]).add(temp[0]);
        }

        // 遍历每一个节点，构建栈
        // 如果有环，停止遍历 
        for (int i=0; i < numCourses && valid; i++){
            dfs(i);
        }
        
        if (valid){
        		// 输出拓扑排序
            return result;
        } else{
            // 如果有环，则返回空数组
            return new int[0];
        }
        
    }

    public void dfs(int u) {
        // 判断节点是否已完成
        if (visited[u]==2){
            return;
        }

        // 将节点标记为搜索中
        visited[u] = 1;
        // 遍历所有相邻节点
        for (int neighbor:edges.get(u)){
            if (visited[neighbor] == 1){
                // 相邻节点正在搜索中，有环，无法找到拓扑排序
                valid = false;
                return;
            } else {
                // 深度优先搜索
                dfs(neighbor);
            }
        }

        // 遍历完所有相邻节点后，将节点入栈，并标记为已完成
        result[index--] = u;
        visited[u] = 2;
    }
}

课程表

题目描述：

你这个学期必须选修 numCourses 门课程，记为 0 到 numCourses - 1 。

在选修某些课程之前需要一些先修课程。先修课程按数组 prerequisites 给出，其中 prerequisites[i] = [ai, bi] ，表示如果要学习课程 ai 则必须先学习课程 bi 。

例如，先修课程对 [0, 1] 表示：想要学习课程 0 ，你需要先完成课程 1 。
请你判断是否可能完成所有课程的学习？如果可以，返回 true ；否则，返回 false 。

示例：

输入：numCourses = 2, prerequisites = [[1,0]]
输出：true
解释：总共有 2 门课程。学习课程 1 之前，你需要完成课程 0 。这是可能的。

输入：numCourses = 2, prerequisites = [[1,0],[0,1]]
输出：false
解释：总共有 2 门课程。学习课程 1 之前，你需要先完成课程 0 ；并且学习课程 0 之前，你还应先完成课程 1 。这是不可能的。

思路：

我们可以将本题建模成一个求拓扑排序的问题：

我们将每一门课看成一个节点；

如果想要学习课程 A 之前必须完成课程 B，那么我们从 B 到 A 连接一条有向边。这样以来，在拓扑排序中，B 一定出现在 A 的前面。

求出该图是否存在拓扑排序，就可以判断是否有一种符合要求的课程学习顺序。事实上，由于求出一种拓扑排序方法的最优时间复杂度为 O(n+m)，其中 n 和 m 分别是有向图 G 的节点数和边数，方法见 210. 课程表 II 的官方题解。而判断图 G 是否存在拓扑排序，至少也要对其进行一次完整的遍历，时间复杂度也为 O(n+m)。因此不可能存在一种仅判断图是否存在拓扑排序的方法，它的时间复杂度在渐进意义上严格优于 O(n+m)。这样一来，我们使用和 210. 课程表 II 完全相同的方法，但无需使用数据结构记录实际的拓扑排序。为了叙述的完整性，下面的两种方法与 210. 课程表 II 的官方题解完全相同，但在「算法」部分后的「优化」部分说明了如何省去对应的数据结构。