谈无损连接分解判别算法

这个算法本身并不难，就从那个大家都喜欢的例子来开始细说。

说对于关系模式 $R(ABCDE)$ ，有函数依赖

$F=\{A\rightarrow C,B\rightarrow C,C\rightarrow D,DE\rightarrow C,CE\rightarrow A \}$

要判断

$\rho=\{R_1(AD),R_2(AB),R_3(BE),R_4(CDE),R_5(AE)\}$

是不是一个无损连接的分解；换言之，要判断是否

$R_{1}\bowtie R_{2}\bowtie R_{3}\bowtie R_{4}\bowtie R_{5}=R$

成立。这里的 $R_1=\Pi_{AD}(R)$ ，所以也就是判断

$\Pi_{AD}(R)\bowtie\Pi_{AB}(R)\bowtie\Pi_{BE}(R)\bowtie\Pi_{CDE}(R)\bowtie\Pi_{AE}(R)=R$

是否成立。我们把等式左半边写作 $m_{\rho}(R)$ ，代表 $R$ 在分解 $\rho$ 上的投影连接。

能看出来， $R$ 中的元组必定包含在 $m_{\rho}(R)$ 中，所以需要判断的是 $m_{\rho}(R)$ 中的元组必定是 $R$ 中的元组。

怎么判断呢？ $m_{\rho}(R)$ 中的元组都是 $R$ 中元组的一些局部再自然连接得来的。如果我们假设 $m_{\rho}(R)$ 中有一不存在于 $R$ 中的元组 $r=(a,b,c,d,e)$ ，它是由什么得来的？

$r$ 来自 $R_{i}$ 中的各个元组的连接，比如作为 $R_{1}$ 的一个元组的 $r_{1}=(a,d)$ ；显然， $r$ 必定是由 $r_{1}$ 和类似的 $r_{2}$ 、 $r_{3}$ 、 $r_{4}$ 及 $r_{5}$ 进行自然连接的结果。而 $r_{1}$ 来自于 $R$ 中的某个元组的投影，我们不妨称 $R$ 中的这个元组为 $r_{1}^{\prime}$ ；对于这个元组，我们知道它在属性集 $A$ 和 $D$ 上的取值必定是 $a$ 和 $d$ ．类似地，我们可以得到其它的 $r_{i}$ 所来自的元组 $r_{i}^{\prime}$ 在各属性集上的取值：

	$A$	$B$	$C$	$D$	$E$
$AD$	$a$			$d$
$AB$	$a$	$b$
$BE$		$b$			$e$
$CDE$			$c$	$d$	$e$
$AE$	$a$				$e$

上表中第一行代表 $r_{1}^{\prime}$ ，它在 $AD$ 上取值 $(a,d)$ ，以此类推；空下来的格子我们还不确定。如果无损连接分解不成立，那么上面的五个元组所生成的 $r$ 就的确不在 $R$ 中，换言之 $r_{i}^{\prime}\neq r$ ．当然了，这个表是平凡的；如果没有函数依赖关系，对于生成 $r$ 的元组们我们就只能得出这点结论。

$R$ 上的函数依赖 $A\rightarrow C$ 就是说，如果 $R$ 上的任两个元组在 $A$ 上取值相同，则在 $C$ 上必定取值相同，也就是说，对于 $R$ 中的元组 $r_{1}^{\prime}$ ，如果我们已经知道 $r_{1}^{\prime}$ 在 $A$ 上取值 $a$ （记作 $r_{1}^{\prime}[A]=a$ ），那么 $R$ 中就不存在在 $A$ 上取值 $a$ 的元组的 $t$ ，使得 $t[C]\neq r_{1}^{\prime}[C]$ ．换言之， $R$ 中在 $A$ 上取值相同的元组，在 $C$ 上的取值必定相同。 $r_{i}^{\prime}$ 都是 $R$ 中的元组，它们都必须满足函数依赖。 $r_{1}^{\prime}$ ， $r_{2}^{\prime}$ 和 $r_{5}^{\prime}$ 在 $A$ 上都取值 $a$ ，所以我们可以得出结论，它们在 $C$ 上也取相同的值，这个值我们暂时还不知道。我们把它记作 $c_{1}$ ：

	$A$	$B$	$C$	$D$	$E$
$AD$	$a$		$c_{1}$	$d$
$AB$	$a$	$b$	$c_{1}$
$BE$		$b$			$e$
$CDE$			$c$	$d$	$e$
$AE$	$a$		$c_{1}$		$e$

再看下一个函数依赖 $B\rightarrow C$ ，它告诉我们在 $B$ 上取值相等的 $r_{2}^{\prime}$ 和 $r_{3}^{\prime}$ 在 $C$ 上取值也相等。我们已经知道 $r_{2}^{\prime}[C]=c_{1}$ ，所以 $r_{3}^{\prime}[C]=c_{1}$ ．

	$A$	$B$	$C$	$D$	$E$
$AD$	$a$		$c_{1}$	$d$
$AB$	$a$	$b$	$c_{1}$
$BE$		$b$	$c_{1}$		$e$
$CDE$			$c$	$d$	$e$
$AE$	$a$		$c_{1}$		$e$

下一个函数依赖 $C\rightarrow D$ ．我们可以看到有四个元组在 $C$ 上取值 $c_{1}$ ，它们在 $D$ 上取的值也一定相等。但是这次，这个相等的值就不是我们不知道的值了： $r_{1}^{\prime}[D]=d$ ，也就是说其它三个元组在 $D$ 上也必定取 $d$ ．

	$A$	$B$	$C$	$D$	$E$
$AD$	$a$		$c_{1}$	$d$
$AB$	$a$	$b$	$c_{1}$	$d$
$BE$		$b$	$c_{1}$	$d$	$e$
$CDE$			$c$	$d$	$e$
$AE$	$a$		$c_{1}$	$d$	$e$

从 $DE\rightarrow C$ 中得出的结论是 $r_{3}^{\prime}$ ， $r_{5}^{\prime}$ 和 $r_{4}^{\prime}$ 一样，在 $C$ 上取值 $c$ ．我们所不知道的那个值 $c_{1}$ ，其实就是 $c$ 自己！于是我们把表中所有的 $c_{1}$ 都改写成 $c$ ．

	$A$	$B$	$C$	$D$	$E$
$AD$	$a$		$c$	$d$
$AB$	$a$	$b$	$c$	$d$
$BE$		$b$	$c$	$d$	$e$
$CDE$			$c$	$d$	$e$
$AE$	$a$		$c$	$d$	$e$

还有一个函数依赖 $CE\rightarrow A$ ，告诉我们 $r_{3}^{\prime}$ 和 $r_{4}^{\prime}$ 在 $A$ 上取值 $a$ ．

	$A$	$B$	$C$	$D$	$E$
$AD$	$a$		$c$	$d$
$AB$	$a$	$b$	$c$	$d$
$BE$	$a$	$b$	$c$	$d$	$e$
$CDE$	$a$		$c$	$d$	$e$
$AE$	$a$		$c$	$d$	$e$

改写到这里我们就可以停一下，看看表中第三行的 $r_{3}^{\prime}$ ．我们现在知道它的取值是 $(a,b,c,d,e)$ ，和那个不应该存在在 $R$ 中的元组 $r$ 的取值相同。 $r_{3}^{\prime}$ 其实就是 $r$ 本身！但是， $r_{3}^{\prime}$ 是 $R$ 中的一个元组才对。

表中出现这样的一行，代表我们最初的假设是错误的： $m_{\rho}(R)$ 中没有哪个元组不存在于 $R$ 中。换言之， $m_{\rho}(R)$ 中的元组必定是 $R$ 中的元组。这样，我们就通过上面的步骤判断出， $\rho$ 是 $R$ 的一个无损连接分解，这些步骤就是无损连接分解的判别算法，或者称为追踪算法（chase algorithm）。

以上的说明不太严谨，Jan Hidders 在 Quora 上给出了一个使用形式逻辑、更加严谨的解释。