新媒首发 | 马明亮、王士博：论大数据证据的证明力规则 | 强烈推荐

司法兰亭会 2023-10-09

收录于合集

#大数据证据 9 个

#大数据 18 个

#证据 62 个

#算法 4 个

（题字：北京市书法家协会理事，北京市丰台区书法家协会主席团成员、副秘书长，民盟中央教育委员会委员韩国强）

马明亮 | 中国人民公安大学侦查学院教授、博士生导师。主要从事刑事诉讼法、证据法、经济犯罪侦查研究。

王士博 | 中国人民公安大学诉讼法学博士生，研究方向：刑事诉讼法学、证据法学。

本文发表于《证据科学》2021年第6期。

【摘要】进入数字时代，在视听资料、电子数据的证据种类中已然分叉出新的证据类型——大数据证据。基于不同的底层技术支撑，大数据证据与传统意义的电子数据、鉴定意见有着本质区别。但遗憾的是，学界与实务部门并没有充分意识到这一潜在变化及其可能带来的证据制度变革。

实践中，司法人员对大数据证据的审查判断保守地依附于传统证据类型的审查规则或印证结论。这种依附性证明力规则会带来诸多弊端：在事实查明方面，大数据证据真实性的认定科学性与合理性不足；在诉讼结构方面，因缺乏实质意义审查而径直采信大数据证据，导致侦查中心主义再次抬头。

鉴此，立法需要根据大数据证据的本质特征确立独立的证明力规则，作为自由心证的外在界限。根据算法作用方式的不同，大数据证据分为基于海量数据库比对生成的大数据证据和基于算法模型的大数据证据两种类型。

对于前者的证明力审查，考虑到其所具有的概率性，应当建立基于贝叶斯定理的似然率评价规则，并围绕算法是否具有稳健性的判断标准建立补强规则。对于后者则应当建立行为数据规律“前理解”的审查规则，并依据海量数据的来源对证明力强度予以区分。

如此，形成大数据证据证明力的独立审查规则，使大数据证据在数字时代的真实性认定具有了更加科学的基础，进而确保实质意义的审判中心主义。

【关键词】大数据证据证明力规则依附性审查似然率算法模型

一、问题的提出

我们已经进入数字社会时代，数据资源和算法技术重新定义了社会活动。随着现实世界的行为借助电子终端设备虚拟化、数字化，很多传统案件都已经转为触网案件。

大量与案件相关联的电子数据涌入刑事诉讼，依靠侦查人员人工梳理案件数据的传统范式在大数据时代难以为继。在此背景下，应用大数据技术进行电子数据分析助力案件侦破，“大数据证据”这一新的证据材料便成为时代发展的必然产物。

大数据证据这一概念并不陌生，有学者早有界定与讨论。在大数据证据的初期讨论中很多问题并未形成共识，如大数据证据属于何种证据类型？审查判断的内容是什么？随后学界对大数据证据的讨论逐渐深入，围绕大数据证据的技术性特征展开了新一轮探讨与重述。它虽然是前一轮讨论在理论深度上的迭代，但是侧重点发生了变化。

大致包括以下几个方面：

第一，大数据证据分类问题。初期讨论将大数据证据视为单一的证据类型整体讨论。目前有学者将其分为两类，一类是基于数据库比对和检索，例如步态比对、人脸比对、徘徊侦测等；另一类是基于算法模型分析生成的大数据证据，例如有组织犯罪涉案人员组织架构、资金数据、物流数据分析等。

第二，关联性内容判断问题。虽然整体上不少学者均认为大数据的相关关系对大数据证据关联性判断产生了影响，但在具体研究过程中，学界对大数据证据关联性的判断内容，尚未达成一致意见。总体来说，主要存在两种思考路径和主要观点。一是认为大数据证据的关联性是相关关系；二是认为大数据证据的关联性是因果关系。

第三，大数据证明的原理机制。有学者认为，大数据证据证明案件的技术原理是算法模型，这也是大数据证据有别于其他证据的关键。还有学者认为，大数据证据的客观性改变了案件证明体系。在实物证据记载案件事实片段的程度上，存在一种发展脉络，即从物证、书证演进到视听资料，又从电子数据进化到大数据，这是证据信息量发生量变的过程。

不难看出，对大数据证据的讨论正走向深入，这说明学界正在积极地回应新技术给证据带来的挑战。然而，大部分学者依然固守证据论的阵地，对证明论的探讨不够深入。随着大数据证据在实践中广泛应用，法官对其证明力判断呈现出依附性特征。造成这种现象的原因是多方面的，比如法官的怠惰与保守且欠缺审查大数据证据所需专业背景知识。

因此，消弭依附性审查的乱象，应当构建大数据证据的证明力规则体系，使法官对其认定进入法治轨道。本文着力寻求具有可行性的证明力评价标准，旨在解决实践中大数据证据审查评断的痛点。

二、探讨大数据证据证明力规则的价值

大数据证据在证明案件事实方面的重要作用已经达成共识，但由于法官缺乏算法专业知识背景，对其审查缺乏相应的规范，无论是理论层面还是实务需求，亟待建立大数据证据的证明力规则。

（一）理论价值

对于新型证据材料的出现，无论从证据理论还是司法实践出发，都应当讨论其概念和属性，以便于对其进行归类，将其纳入法治化的轨道。学界对算法证据也进行了深入的讨论，但到目前为止，对于大数据证据的种类归属问题仍无共识。我国刑事诉讼法对证据的分类采取了细分的方式，且分类的标准不一致。

一般认为，法律上区分证据种类的标准是“证据的表现形式”。证据的表现形式是人们感知、认识证据信息的方式，即证据载体。这种细分的方式弊端在于各个证据种类的抽象性不足，造成了每个证据种类所能涵摄的范围过小。

这也是每次新的证据材料产生时，学界需要重新讨论是否需要增加证据种类的原因。在2012年修改刑事诉讼法将电子数据作为一种新的证据种类之前，实践中电子数据已经作为认定事实的依据，学界对电子数据的证据种类归属问题也产生了分歧。

同样范畴的讨论在大数据证据中又开始盛行，有似曾相识之感。笔者没有过于纠缠大数据证据的种类归属之争议。从证据能力和证明力角度而言，大数据证据的种类归属属于证据能力探讨的范围。而证据能力指的是证据资格，是证明资料所应具备的一种法律上的资格。可见，证据能力具有法定性。对证据能力的过分关注容易陷入立法论的窠臼。

证明力由真实性与相关性两个要素构成，即证据本身的真实与证据支撑待证事实的程度。对前者的判断，只存在“真实”与“不真实”的问题，不存在程度高低问题。后者则具有定量的特性。证据的真实性审查内容有两个方面，即证据来源的真实性和证据构成要素的真实性。

如电子数据由电子数据载体、电子数据和电子数据内容三个要素构成，其中电子数据载体与电子数据分别是电子数据内容的物理载体和数据载体，因此电子数据构成要素的真实性应从以上三个层面进行审查。

证据的相关性则需要踩着“概括之石”，从证据的“此岸”到达事实认定的“彼岸”。如果事实认定者踩上一块不可靠的“概括之石”，便有丧身波涛的危险。这里的“概括之石”指的是经验法则与逻辑法则。

探讨大数据证据的证明力规则，就必须对其构成进行剔肤见骨式分析，探究其生成过程和构成要素。这不仅有利于学界深入研究这种新型证据形式，还为实践提供了参考。大数据证据指的是海量数据集经过算法分析生成的大数据报告，其本质上是一种“算法结论”。在美国，经过算法分析产生的证据被称为新一代机器证据（Machine Evidence），在欧洲有学者称其为算法证据（Algorithmic Evidence）。

从大数据证据的构成要素角度，其与电子数据的构成并无差别。但从其来源的角度，包含原始的海量数据集和算法两个方面内容，而根据不同的底层算法技术，大数据证据可分为基于海量数据库比对生成的大数据证据和基于算法模型的大数据证据两种类型。

可以说，大数据证据是电子数据的迭代，是电子数据体量剧增背景下的必然产物。总之，对大数据证据证明力规则的探讨，丰富了传统真实性审查内容，有助于理论研究穷理尽微。

（二）实践价值

在讨论证据的证明力时，经常有一个误区：将证明力的判断丢到自由心证或者印证的黑箱内。认为证据的证明力凭借法官自由判断而无需法律规定。实际上，不论在我国还是在推崇自由心证的英美法系国家，实践中都确立了众多证明力规则。自由评价证据的基本前提是日常认知方法，在衡量大数据证据证明力时，依赖传统经验认知方法显然已经无法评价。

因此，面对大数据证据，法官往往进退失据，只能对其证明价值进行模糊处理。所以，实践迫切需要有一个明确、可操作的大数据证据证明力规则来指导事实认定。此外，由于法官对大数据证据的排斥态度，限制了其证明作用，倒逼侦查机关“回归”传统的固定证据方式。

对证明力规则的探讨并非是回归法定证据主义，而是证明科学化所带来的必然结果。20世纪中叶证据学研究的转向，证据学开始关注证明过程，即证据推论。相较于传统的教义性研究对于审判领域可采性问题的关注, 证据科学更为关注相关性、可信性和推断（或者证明）力。从实践来看，事实认定领域出现的事实认定科学化的问题，使证明力规则焕发出新的生机。

大数据证据的生成基于海量数据集和算法，证据分析的手段由小数据时代的人工分析转向大数据时代的算法分析，证明力判断必将呈现新的实践样态，而证明力规则可消解法官知识背景不足所导致的大数据证据审查困境。

三、实践考察：大数据证据的依附性证明力规则

从实践来看，判断大数据证据的证明力尚无约束性规范。因其具备科技属性，同时，大部分法官又缺乏相应的专业知识，造成事实认定过程中法官既有认知与大数据证据“琴瑟不相调”，最终在实践中形成大数据证据的“依附性”证明力规则。

（一）大数据证据 “依附性”证明力规则

所谓依附性证明力，指的是法官对证据本身认定有困难，没有赋予其独立的证明价值，而是根据其证明方向与其他证据的一致性，依附于其他可认定证据对该证据进行审查判断。我国刑事证据审查呈现出二元结构，即从材料到证据，再从证据到定案的根据。第二道门槛即从证据到定案根据，包含对证据证明力的审查要求。实践中，大数据证据从证据到定案的根据有两条路径：

一是依附于传统证据类型。目前，已经有将算法分析的数据报告作为证据使用的案例。但是在大部分案件中，数据报告结论都作为线索以自向证明。对于在庭审过程中的他向证明，不可能将大数据证据的生成过程完整地予以展示，大多数情况下我们展示的是数据分析的结论。如人脸比对认定截图、车辆轨迹图、按金字塔状制成人员组织结构图等以书证以及鉴定意见等其他传统证据类型。

笔者在调研中发现，很多法官和检察官对大数据证据不明所以，认为大数据证据就是电子数据，对其生成过程不了解。对于同一待证事实，法官面对两种证据：大数据证据和传统证据类型，法官无法运用传统的证据评价方法评估大数据证据。在这种情况下，法官只能更倾向采信能凭借自己经验判断的传统证据类型，并抵御大数据证据的入侵，导致对大数据证据证明力评价只能仰传统证据类型的“鼻息”。

在我国这样一个法官地位保障有限的制度下，法官必定会趋利避害，选择一种更少个体主观性，而容易为大家所认同的证据认知方法。在小数据时代，电子数据作为证据出现在刑事诉讼中时，实践中对电子数据的采信规则是：如果电子证据的内容与其他传统证据出现冲突矛盾，认定犯罪事实就必须慎重。不难看出，该采信规则实际上是一种证明力优先规则，即传统种类证据的证明力大于电子数据证明力。从中可以窥见在面对新型证据材料时，法官判断其证明力的思维仍然依附于传统证据，体现法官保守的思维惯性。这也是大数据证据证明力“依附性”判断的原因。

在笔者调研过程中，H市经侦大队侦查人员表示，侦查机关研判数据得出的分析结论不能直接转化为证据，有两方面的原因：一是律师会提出抗辩；二是检察院与法院能否认可该证据存疑，即便认可，其证明力较鉴定意见差。此外，尽管侦查机关能够通过资金查控平台调取银行交易数据，但是在移送审查起诉时，资金数据仍需要银行出具纸质材料并盖章才可作为证据使用。可见，尽管算法技术已经为侦查机关所广泛使用，但是法官、检察官对其不予认可，大数据证据证明的独立价值得不到认可。

二是依附于印证结论。印证证明是利用不同证据之间的同一性来证明事实，同一性包括证据间共有信息的同一与证据证明方向的同一。印证强调的是证据间的相互关系，而非证明的完备状态。因此就终点而言，再多的证据相互印证也不必然得出不可辩驳的结论，相互印证的证据数量越多，印证的可信度就越高。印证体现出论据的无穷性、进阶性特征使其具有更大的包容性，即法官可以证据之间相互印证为由，采信所有具有证明方向同一或证据信息同一的证据。

如在郑某组织领导传销活动罪案中，侦查机关对该传销网站后台数据进行分析，出具了电子数据检验报告，证明传销的层级、金额。对于辩护人提出的对传销网站后台数据“应当由具有相应鉴定资质的机构出具鉴定意见”的辩护理由，法官认为应当“结合其他证据来综合认定本案相关被告人发展的传销人数、层级等事实。”

可见，法官并没有说明电子数据检验报告证明力对心证的影响，而是将其置于证据群中综合认定。换言之，电子数据检验报告本身的证据价值并不明确，利用其与传统证据证明待证事实方向的一致性，对大数据证据进行认证，从而规避对大数据证据的单独审查。

（二）“依附性”证明力规则的司法弊端

证明力“依附性”审查判断，表现出法官固守传统证据采信的经验判断。依附性证明力规避了对大数据证据本身所具有证明力强度的判断，对大数据证据证明力的认知并没有找到“坐标系”，“鸠占鹊巢”式的证明力审查产生诸多司法弊端。

在事实认定方面，诉讼中存在控诉、抗辩证明和裁判者心证三个证明系统。其中，裁判者心证系统受到控诉证明系统影响最大，其往往与控诉证明系统形成重合，偏离抗辩证明系统。

表现在裁判结果上为支持控方的有罪指控，对辩方意见不予采纳。如果控方提出新型证据材料支撑叙事结构，那么在裁判者心证系统中，裁判者无法对新型证据材料的真实性与关联性进行审查，那么证据到相应叙事情节的证明路径出现阻塞，整个叙事结构有坍塌的风险。

当然，裁判者心证系统还可能受到庭外非证明系统的影响。具体到大数据证据而言，裁判者的直觉和理性双重认知机制都无法对其进行评价，该证据就会对裁判者心证的形成造成障碍，法官自然地对其进行依附性判断，或者要求控方补充提交证据。

依附性判断只是一种证据形式上的依附，尽管大数据证据的证明机制可能与部分传统证据种类相同或相似，但是如前文所述，大数据证据是一种“算法结论”，特殊的生成过程决定其有别于传统证据种类的证明力判断，依附性判断难以契合大数据证据的本质特征。将大数据证据依附于鉴定意见，将面临算法的设计者出庭还是鉴定人出庭的挑战；将其依附于印证结论，如果大数据证据真实性存疑，则有使证据链条崩塌的危险。

基于此，裁判者心证系统对控方证明系统也产生了反作用，大数据证据在控方完成他向证明过程中的作用被“贬低”，只能作为自向证明的线索。取代大数据证据证明待证事实的证据，只能是被裁判者心证系统接纳的传统证据类型，这加大了侦查阶段证据的固定的工作量，体现了法官的事实认定的保守“惯性”。

在诉讼结构方面，如上文所述，依附性证明力是一种形式上的依附，对大数据证据证明力并非实质意义上的审查。控方证明系统在大数据证据的运用上占据主导地位，裁判者心证系统只能选择与控方证明系统重合，这有使算法技术加持下侦查中心主义重新抬头的危险。

以审判为中心改革的目标有三个层次：一是总目标，即通过审判确保司法公正的实现；二是直接目标，即保证庭审在审判中的决定权；三是间接目标，即确保侦查、审查起诉的案件事实、证据经得起法律的检验。而侦查中心主义的证据观，是指对审判阶段对侦查、审查起诉阶段查明的证据不加检验，直接用作定案的根据，法官丧失对认定案件证据采信与否的决定权。

与鉴定意见中鉴定机构掌握鉴定技术不同的是，在警企合作深化趋势下，侦查机关掌握了算法技术，且算法处理的数据不仅仅是侦破案件的线索或情报，而是侵入证据本体，作为事实认定的依据。

当事实认定技术为侦查机关所掌握时，诉讼关系就开始出现了失衡现象。公安机关与检察机关、审判机关产生技术壁垒，算法技术使法官在事实认定中“失语”，使得法官对侦查、审查起诉查明的大数据证据无法检验，出现了技术鸿沟下侦查中心主义的证据观“复兴”。技术加成下的侦查中心主义的证据观有以下表现：

一是法院对证据的最后决定权受损。我国刑事诉讼是“线型模式”构造，强调公、检、法三机关“分工负责、互相配合、互相制约”。审判中心主义这一基本格局要得以实现，其中最核心的内容就是发挥法院在互相制约中的作用。

其中证据审查判断决定权是制约的重要内容。案件事实认定和证据审查判断是诉讼的核心内容，审判中心主义要得以落实，最重要的是要实现审判阶段对案件事实认定和证据审查判断的最后判断权。在新技术冲击下，法院从被动中立的裁判者转变为被动接受技术的落后者。

大数据证据带来的技术鸿沟会造成证据理解判断的黑箱，使得侦查机关主导法官对其证据能力和证明力的判断，实现对法官审查判断证据的“技术控制”，法官实际上对大数据证据的最后判断权已经有所亏损。毫不夸张地说，在数据时代，犯罪案件产生的证据材料只有两种：一种是不需要经过算法分析的电子数据；另一种是经过算法分析生成的大数据证据。在这种情况下，不掌握技术领域知识的法官，其对证据证明力判断的自由裁量权越来越小。

二是侦查机关凭借科技证据再次成为诉讼关系的中心。警企合作下，公安机关与企业合作建立大数据实验室，侦查机关运用其所掌握的算法技术进行事实查明，得到大量新型的证据材料，这强化了其技术垄断地位。

尽管算法的使用者（即公安机关）与算法的设计者（即科技企业）相分离，但在笔者调研中，为了便利侦查，进行各种场景的算法构建，大数据实验室直接设置在公安机关办公区。以消除算法使用者与算法设计者在物理场域分离的方式，来达到对算法技术控制的目的，实现算法使用者与算法设计者合二为一，形成算法加侦查的合力。

大数据证据作为一种结论被法官不经实质审查地认可，法院的事实认定权力旁落，这破坏了审判中心主义的诉讼结构，侦查机关成为“技术中心”，悄无声息地完成对检察院、法院的“技术占领”。

四、大数据证据证明力规则的重塑

基于实践惰性所衍生的大数据依附性证明力规则，正不动声色地侵蚀来之不易的审判中心主义诉讼模式，因此，重塑大数据证据证明力势在必行。

基本思路是，认真审视并引入技治主义证据观，以此为立场，再以底层算法技术为标准将大数据证据予以分类，建立不同的证明力规则。对法官的自由心证进行外在界定，弥补法官审查判断科技证据司法能力的不足。

（一）重塑的立场：引入技治主义证据观

传统主义证据观是以自由心证为基础，强调法官个人的经验法则与逻辑法则在证据认定中的作用。随着科技证据在审判中不断涌现，科技证据审查评断的专业性与事实认定者专业知识不足的矛盾日益凸显，传统主义证据观受到了严峻挑战。

技治主义证据观主要强调科技专家及其专业知识在证据认定中的作用，承认技术律令在压缩法官自由心证空间的合理性。技治主义证据观是技治主义理论在证据领域的场景化应用。

技治主义作为一种社会治理方式在20世纪下半叶兴起，其核心理念包括科学管理和专家政治。技治主义理论可分为激进派与温和派，激进派因其主张乌托邦式的技术治理而被摒弃，温和派则将技术治理作为社会治理的手段，这对当代社会治理具有借鉴意义。

技术治理与法治、德治并非并列关系，而是呈现出立体互嵌的形态，技术治理通过技术规范的法律化、技术道德补充法治和德治的内容。而司法治理是社会治理的重要分支，审判通过裁决纠纷的方式参与社会治理。技治主义正在全面地影响司法。

从整体司法运行流程而言，目前正在建设的智慧公安、智慧检察和智慧法院，将人工智能嵌入到司法运行过程，利用技术支撑司法、破解司法难题。从事实认定角度，科技证据的大量涌现是技治主义应用的前提基础。以区块链技术为例，区块链司法存证技术能够实现电子数据上链后的不可篡改，保证电子数据的真实性。

最高法发布的《人民法院在线诉讼规则》承认了区块链技术具有证明电子数据上链后真实性的自证属性。通过区块链技术本身所具有的去信任架构属性，消解了法官在电子数据真实性审查中的困境。

此外，在我国司法改革实践中，对法庭中出现的包括科技证据在内的专门性问题审查，形成了“四维分享模式”。可以说，技治主义证据观通过强化对法官事实认定的管理，与司法改革的目标相契合，也规避了法官事实认定的风险。

技治主义证据观在证据认定中的理想进路是，将技术规范法律化，形成法官认定证据的标准与规则。因此，制定科技证据的证明力规则恰逢其时。在大数据时代，数字痕迹的剧增，基于传统证据观判断证据证明力捉襟见肘。算法分析形成的大数据证据是否可靠，需要调动法官的技术背景知识。

如果法官都无法识别和解读海量数据中的信息，又如何去评估其对案件事实的证明力呢？正如达马斯卡所言，随着科技的迅猛发展，更为可靠的仪器和方案很可能就会开发出来，而这些手段的应用，将会给事实裁判者的自由心证施加更大程度的干涉提供正当性。

因此，大数据证据作为科技证据的一种，其在诉讼中比重不断增大，推动着证据证明力判断机制的法定化，即法定证明力规则越来越多，构建法定证明力规则下的有限的自由心证是科技证据认证的趋势。

（二）基于海量数据库比对的大数据证据证明力规则

基于海量数据库比对的大数据证据是通过算法分析将检材数据化，并与数据库中的样本进行比对，输出相似度结论。支撑此类大数据证据的理论是物证技术学领域的同一认定理论。

在物证技术领域中同一认定就是通过对先后出现的客体留下的特征反映体进行检验，解决先后出现的客体是否同一的一种辨别方法。在同一认定理论中，特征是检材与样本联系的桥梁。在基于海量数据库比对的大数据证据中，算法将检材与样本的特征数据化。

换言之，传统通过鉴定形式进行同一认定的机制已经被算法取代。鉴于传统鉴定意见的证明力在法庭上优于其他证据，直接被法官采信的弊病，有必要对大数据证据证明力进行法律上的限定。

第一，大数据证据证明力优于鉴定意见证明力。传统鉴定意见是对犯罪嫌疑人与犯罪现场发现的痕迹进行1：1同一认定，而算法是将犯罪现场发现的生物痕迹进行1：N数据库比对。在数据库比对中，算法不仅将比对成功的结果输出，而且在这个过程中，算法排除了数据库中其他样本与检材相匹配。

换言之，算法在进行数据库比对中，证明了两个问题：与哪个样本匹配且不与其他样本匹配。而鉴定意见进行1：1鉴定实际上只证明了一个问题：检材与样本相匹配。可见，基于海量数据库比对的大数据证据比鉴定意见的证明力高。

第二，应当建立基于贝叶斯定理的似然率评价规则。基于海量数据库比对的大数据证据包括人脸识别、步态比对、DNA比对、（车辆或人）轨迹信息等。其中，人脸识别、步态比对等证明对象是同一认定，而（车辆或人）轨迹信息等证明对象是犯罪嫌疑人与案发现场的关联。因此，基于海量数据库比对的大数据证据又可以进一步分为同一认定类和轨迹类。传统的证明力判断是经验性的判断，而在基于海量数据库比对的大数据证据中，需要对证据的概率性进行证明力判断。

以人脸识别为例，其相似度概率用文字来表述为“有N%的可能性为同一人”，这里的概率指的是检材中的人脸特征与数据库中人脸特征的相似度，只是对特征匹配的一种统计学描述，受限于数据库的数据样本数量，人脸识别的概率可能并不准确。并且人脸特征对比的概率并不能与证明力大小直接进行对应。在审判中，人脸对比76.88%的相似度和96.32%的相似度，这两份相似度差异较大的人脸识别证据全部被采纳作为定案根据，其中法官对证明力如何判断不得而知。

而通过似然率模型对证据证明力进行测度是学界的共识，目前DNA证据在法庭中以似然率的形式出现，似然率数字与对应关联性大小的文字表示分级，可以防止法官对似然率数字的误读，法官对似然率有了评价的标准，帮助法官形成心证。

在“张金发故意伤害案”中检材与犯罪嫌疑人DNA似然比为5.63×1019，根据似然比与关联性对照表，本案中的DNA证据能够“强的支持”检材与犯罪嫌疑人为同一人。

似然率越大，证据对待证事实的证明力越强。贝叶斯公式是似然率方法的科学依据和理论支持，贝叶斯用公式表述为：

后验概率=先验概率×似然率

后验概率指的是接受证据之后，待证事实为真的概率。由于先验概率在每个案件中不同，因此似然率越大，证据对待证事实的证明强度越大，待证事实为真的概率越大。当似然率等于1时，先验概率等于后验概率，此时该证据对待证事实没有证明力，为没有关联性证据；当似然率大于1时，表明该证据支持待证事实；当似然率小于1时，后验概率小于先验概率，此时该证据对待证事实的指向为否定。

这是利用似然率评价证据证明力方法的原理。似然率用公式表述为：

例如在人脸识别证据中，似然率公式用文字表述“监控录像中人脸与特定人脸同源的可能性是异源可能性的N倍”。其背后的直觉理念是：因为待证事实成立时与某一证据的联系较待证事实不成立时与该证据的联系更紧密（似然率更大），则当该证据出现时，待证事实更可能成立。

从似然率的公式中可以看出，似然率由人们掌握的“现已认知的背景信息”计算得到，这些背景信息指的是搜集到的相关数据、建立的相关数据库。完备的数据库可以为似然率的计算提供数据基础。而大数据时代所带来的存储能力的提升，相关数据库建设完善，使得似然率的计算更为准确，从而为大数据证据的关联性判断提供了工具。

第三，基于算法是否具有稳健性的判断标准建立补强规则。稳健性即可靠性，是指用于生成证据的装置之运行特征，只有当一个装置反复应用后给出了同样的读数或图像，这样的装置才是可靠的。

在基于海量数据库比对的大数据证据中，算法是否稳健决定大数据证据证明力的大小。在人脸识别、步态比对等同一性认定证据中，算法实际上取代了鉴定人，由人的鉴定进化为算法的鉴定。

在鉴定意见证明力判断中，科学技术的“科学性”、检验过程和条件、科学家的知识水平及职业操守等对科学证据的证明力均有重要影响。与鉴定意见相比，在基于海量数据库比对的大数据证据中，算法将检材的特征进行数字化转换，与数据库中的样本进行比对，实现了科学技术理论、检验过程和条件的算法模型化、自动化。因此，算法的可检验性影响大数据证据证明力。

算法是数据分析的核心驱动力。因此，所输出的大数据证据的质量严格依赖于算法的质量。STRmix DNA是美国的一种自动化DNA比对软件，该工具在美国、加拿大和欧洲的几个司法管辖区使用。2015年对其源代码的检查发现了部分技术错误。结果造成陪审员在超过24起案件中依赖该软件输出的错误证据，其中包括强奸和谋杀。

算法的任何缺陷都将影响所得大数据证据的可信度，更重要的是，基于对科技证据的不理解，法官可能对科技证据赋予更强的证明力。算法的种类繁多，如机器学习算法按照其发展的阶段可以分为监督学习、半监督学习和深度学习等类型。

而算法透明度与准确度呈反比关系，深度学习算法是最准确的但同时也是最难理解的算法。不同的算法，其分析数据的准确性和可靠性不同，证明力自然就不同。

此外，算法还有过拟合的问题。如果算法过度拟合训练数据集，那么算法的泛化能力就差，其应用到其他数据输出结论的准确性就差。上述这些问题在纯技术领域可能都不是问题，但是在证据法领域，事实认定的准确性、可解释性要求与算法技术自身属性之间的张力，都是需要进行平衡的矛盾。

因此，算法种类选择影响输出结果假阴性和假阳性的概率，也即大数据证据的可信度。算法输出的结果是否稳定，意味着比对的结果证明力大小。如果大数据分析结果能够得到多种方法的检验则说明该大数据证据的信度更佳，相应地在用于证明待证事实时的证明力也相对更强。

可以预见，随着大数据证据在法庭上的广泛运用，其也必定会落入“科学技术等同于确定”的窠臼，鉴定意见在法庭上的审查判断就是前车之鉴。证明力自由评判规则赋予了法官自由裁量权，但这不可避免地导致法官过高或过低地估计证据的证明力，DNA鉴定意见即是此例。

自由评判规则不能阻止法官惟DNA证据定罪。英国皇家上诉法院刑事审判庭在“英国诉沃特思案”中明确提出：“在没有补强证据的情况下，DNA证据不能充分地证明被告有罪。”因此，需要对法官的自由心证进行限制。

大数据证据看上去如此可疑，人们自然也就产生出要求一定的证据对其予以加强的愿望，也即补强证据规则。补强证据规则是限定证据证明力的规则，是为了防止错误认定案件事实或发生其他危险性，法律规定在运用某些证明力显然薄弱的证据认定案件事实时，必须有其他证据补充说明其证明力的一项证据制度，是法律对被补强证据证明力较弱的拟定。

补强证据是与主证据相对应的具有独立证明价值的证据，是专指为了增强、担保主证据的证明力而提出的诉讼证据。即补强证据应是针对同一待证事实强化主证据的证明力。补强证据规则主要适用于言词证据，在广义上分为口供的补强和其他证据的补强两种情况。我国刑事诉讼法规定了口供补强规则，但是尚未规定其他种类证据的补强规则。

在基于海量数据库比对的大数据证据中，只有同一认定类才有补强的必要。一方面，由于算法的主观性，由不同的设计者基于同一目的编写的算法可能有所差异，可能导致大数据证据失真，这是由知识与经验的差异造成的。另一方面，避免法官将审查判断鉴定意见的“遵从”模式应用到大数据证据证明力判断中。因此，需要从立法上对大数据证据适用补强规则，限制大数据证据的证明力。

对于轨迹类大数据证据，只需要适用普通的证据印证规则就足够了。这主要是考虑到，这类大数据证据只证明犯罪嫌疑人与案发现场有关联的可能性，即便裁判者对其错误地采信，也不足以造成全案的错判。

（三）基于算法模型的大数据证据证明力规则

证明力规则的适用主体是法官，这就决定了对大数据证据的证明力判断必须借助于某种“中介”信息，摆脱专业知识所带来的困扰。以鉴定意见证明力审查为例，实践中普遍存在以鉴定意见出具的鉴定机构层级来间接认定两份冲突的鉴定意见证明力大小。

法官将鉴定意见的证明力判断转移到对鉴定机构权威性这一“中介”信息的判断，尽管受到理论界的批评，但也体现了法官的“实践智慧”。因此，鉴于法官缺乏专业知识背景，基于算法模型的大数据证据证明力规则也应当借助便于操作的“中介”信息。

一是建立对行为数据规律“前理解”的审查规则。在数字化时代，人们通过“指尖行为”和人机交互界面输入指令，触发既定的程序规则，完成虚拟空间的数据交换，实现现实空间与虚拟空间的联结。

在上述过程中，指尖操作行为、数据交换结果形成海量的数据被服务器所记录。通过指尖行为背后的算法操作方式，行为便与数据之间建立起镜像性关系，行为固有的属性被消解。

数据解构了行为所具有可直观的特性，而重构出行为不可直观的数据化实在性。那么随着而来的问题就是如何构建海量数据之间的价值体系。

海量的数据之所以能够呈现出“规律”，是因为在分析数据前人为地选定了分析数据的方法，也就预先设定了输出的数据结构化关系结果。事实上，任何大数据分析的算法模型必须以假设即理论为前提。

以经济犯罪为例，分析金额特征的目的是找到与行为人账户有交易关系的对手账户，各类经济犯罪因行为特征不同在资金交易金额上表现为不同的特征，对手账户的性质可通过金额特征进行鉴别。

这种金额特征具有稳定性，这是由实体法所规定的异质化行为类型性决定的。“类型是建立在一般及特别间的中间高度，它是一种相对具体，一种在事物中的普遍性。”刑法中此罪与彼罪一个外观性区分标准就是行为，不同的行为类型由于具体的犯罪目的差异而具有异质性，这种质的规定性差异在外观上表现为特征的差异。

换言之，特征是探求特定犯罪行为本质之后显露于外的质的区别性。因此，行为特征具有区别此罪与彼罪的标准意义。而在虚拟空间中，行为分解为数据，行为特征相应地转化为数据特征。从这个意义上来说，算法也是另一种描写世界图景的方式。

数据特征具有不可直观性，需要将其聚合并寻找其中的规律，再同现实空间预设的理论进行比对，金额特征是行为特征镜像映射在虚拟空间的重要部分。如非法买卖外汇类案件，行为人账户的交易金额特征可能呈现出汇率的整数倍。组织、领导传销犯罪案件，对手账户可能是下一层级的行为人账户，因上下层级之间存在返利关系，其交易的金额特征可能呈现出固定的比例。

可见，特定犯罪行为的特征是处理海量数据的“前理解”，“前理解”涉及到对犯罪行为本质特征的认识。选取的行为特征越完整，对行为刻画的就越充分，分析生成的大数据证据证明力越高。

二是建立对海量数据来源的审查规则。犯罪的态势不仅仅呈现出网络化，“平台化”的趋势也愈加明显。例如“善心汇”非法传销平台，传销活动通过网络平台从线下聚集转到线上聚集。侦查机关在侦查过程中，一般通过技侦部门控制用于犯罪的平台后台数据。相对于侦查机关从银行调取的资金交易数据，该后台数据具有噪音小、关联性强的特点，是犯罪行为的完整证明。

此外，从银行调取的资金数据需要根据银行账户及其关联交易方进行排查，容易遗漏犯罪嫌疑人。因此，自海量数据来源的角度，从犯罪平台提取的海量数据比从银行调取的数据关联性强。

五、结语

历史的看，证据制度的演进与科技的发展存在同频共振效应。从神示证据到大数据证据，人类对事实的还原能力不断提高，科技乃背后的重要推动力。所以，思考证据法的未来，很大程度上就是要探讨正在演进的事实认定科学化的问题。

而在当下的数字时代，法律规则难以同步跟进技术的飞速发展，事实认定的科学化问题这一旧题不断遭孕育出新的内容。大数据证据的审查判断规则之滞后性就是此背景下的产物。

与传统证据类型相比，大数据证据有影响其证明力的重要因素，即大数据证据生成过程中的算法。根据算法在作用方式的不同，大数据证据分为基于海量数据库比对生成的大数据证据和基于算法模型的大数据证据两种类型，应当分别建立不同的证明力规则。

可以说，随着算法嵌入刑事诉讼越来越深入，未来刑事诉讼中的电子证据可能只分为两类：经过算法分析的电子数据与电子数据。

从电子数据时代到算法统治证据时代，证据的科技化加剧了与传统证据法之间的冲突，给传统证据法学理论带来了新的冲击。如何处理算法统治下的证据与传统证据法之间的关系，将成为证据法学未来的重要议题。

（拍照：南开法学院校友杨磊律师）

以下点击可读：

获奖论文 | 王士博：论法定犯的算法证明方法

获奖论文 | 全媒首发 | 侯芳郁：区块链技术下电子证据的推定真实——以技术核验为视角

大数据赋能法律监督将促使监督模式迭代进阶——专访中国人民大学教授刘品新