大数据预测技术软件(最好用的大数据分析软件)

2年前 (2024-04-23)

胡铭

浙江大学光华法学院常务副院长、教授、博士生导师，法学博士

严敏姬

浙江大学光华法学院博士研究生

要目

一、大数据背景下犯罪预测的本质与创新

二、犯罪预测数据化的新机遇

三、犯罪预测数据化的可能风险

四、犯罪预测数据化的规制路径

结语

犯罪预测是警察部门进行犯罪预警与侦查的重要手段。大数据背景下的犯罪预测兼有传统犯罪预测原理和大数据分析技术的双重特色。犯罪预测大数据化改变了传统警务的执法模式，了犯罪预测的效率与精确度，确保了执法过程证据留痕与可追溯。与此同时，数据化的犯罪预测中存在的“黑数据”现象、数据获取过度侵犯个人隐私、算法不透明导致的歧视偏见以及数据壁垒的存在，给科学的犯罪预测造成一定风险。为应对风险，有必要优化犯罪预测中的数据选择标准，在数据收集时坚持信息“个人自决”原则和比例原则，一定范围内促进算法公开与透明，加强数据之间的交流与共享。

一、大数据背景下犯罪预测的本质与创新

大数据背景下的“犯罪预测”被西方学者喻为“旧把戏，新技术”（old trick，new tech）。“旧”指的是犯罪预测惯用的理论模型与实践样态与传统背景下基本一致；“新”指的是犯罪预测的样本选择与分析方式在大数据背景下具有“数据化”的海量特色。

本质：犯罪预测的理论模型与实践样态

随着政策科学的发展，以量化分析为基础的政策分析得到极大成长并强调现代科学技术和各种研究论证方法的使用。犯罪预测就是依靠可靠性日益提高的数据以及分析技术，作出正确的犯罪预警，达到科学地预防和控制犯罪。然而不论信息技术如何发展，犯罪预测所赖以维系的理论模型和实践样态并没有发生根本性的改变。

近重复理论（Near Repeat Theory）和风险地形建模（Risk Terrain Modeling）是犯罪预测两个主要的理论模型。近重复理论旨在“识别和解释某些犯罪表现出的在同一地点产生重复犯罪活动的现象”。该理论认为，一旦特定地点发生犯罪，统计学上该地点和附近区域发生犯罪的可能性就增大。在发生犯罪后的短时间内，附近环境将可能遭受其他类似的犯罪事件。近重复理论在财产犯罪尤其是入室案件中显示出极强的近乎重复模式。此时，通过大数据的收集与分析，当某地出现近重复犯罪时，警方就可以加强对特定地域的巡逻，借以威慑犯罪。风险地形建模则更多侧重于社会、物理空间和行为因素间的动态交互作用。风险地形建模的创建首先需给各个因素配值，每个因素形成单独的风险地图层，当所有图层在GIS系统中组在一起时会形成一个风险地形图。风险值越高，代表该位置发生犯罪事件的可能性就越大。风险地形建模不仅可以适用于入室等案件，还可以有效应用于预防暴力犯罪。随着数据量的增大以及交互式信息技术的进步，风险地形的预测及预警机制正愈加精确化。

根据预测对象不同，犯罪预测的实践样态可分为以人为预测对象和以犯罪区域为预测对象。其中，对犯罪人再犯罪的风险预测是“预测警务”的主要运用场之一。例如，英国达勒姆郡警察局和剑桥大学作开发的随机森林（a random forest）预测危害风险评估工具HART（Harm Assesent Risk Tool）。该系统使用达勒姆郡警察局2008年2012年共104,000个监禁案例，并提取案例中记载的年龄、性别、邮政编码、犯罪历史以及犯罪类型等信息。通过HART模型，能对犯罪者未来24个月的风险进行预测，当犯罪者被捕后，警察就会利用该系统对其进行评估并作出是否羁押的决定。

区域犯罪预测是对一个场所、社区、城市、省或国家的犯罪现象进行预测，评估其犯罪发生的趋势，为区域犯罪预防提供基础。德国Precobs软件是区域预测的典型，该软件主要利用过往犯罪的数据（如位置、时间、事件和其他细节）等查找“高风险”区域。其预测过程可概括为以下步骤：首先，定义检测重复犯罪的标准；其次，计算在逆向分析中已经检测到近重复数据出现的区域并创建空间预测。通过逆向模拟测试标准和计算的区域，以查看所选假设是否有效。当这些区域记录了新的触发要件时，将创建预测（警报），以安排警察的执法活动。

创新：犯罪预测的样本选择与分析方式

大数据的运用，创新了以下过程。“预测警务”的开展过程是大数据公司与警务部门间不断进行数据交换与预测执行、反馈的过程，大致由以下步骤组成：

可以看出，数据是“预测警务”开展的前提与核心。相较于传统犯罪预测方式，大数据背景下的犯罪预测“颠覆性”的发展当是样本选择和分析方式的变化。

二、犯罪预测数据化的新机遇

犯罪预测是犯罪预防必不可少的前提条件。在大数据背景下，犯罪预测的手段和方式更加智能化，各种可视化技术和机器学习算法被运用到犯罪预测中，从而为犯罪预防带来了非常重要的新机遇。

改变传统警务执法模式

传统“标准警务”往往体现为事后的应对。在有限的警力、经费限制下，警务资源更多地投入到案件侦破、打击现行犯罪中，从而形成热点聚焦和大案主导的反应式警务模式。然而，反应式警务模式正面临边际效能困境，在一定时期、一定区域内更多的警力资源投入对于整体警务效能的作用呈递减态势。在美国，1980年代起警察管理部门开始把警务资源从巡逻转向处理公民的报警电话，因此强化了孤立的应对性警务。然而，实践证明传统的事后应对、反应式警务只能促进打击犯罪，并不能对犯罪预防起到非常大的积极作用，因而也难以达到有效控制犯罪的目标。

在人员不足、经费有限的情况下，如何理配置警务资源，警务效能成为现代警务改革的重要问题。信息科技的进步为此提供了解决之道。通过加强警务系统的信息化、数据化水平，促使警察执法模式从传统“标准警务”“反应式警务”向“智慧警务”“预测警务”过渡。基于大数据的运用，犯罪预测的数据作用凸显。警察部门根据犯罪预测所形成的可视化视图，可以更加理安排日常工作。在2009年美国“预测警务”研讨会上，旧金山警察局局长乔治·加斯科恩曾表示，“有了预测警务，我们可以在适当的时间把警察放到适当的位置或提供其他服务来打击犯罪，并且可以使用更少的预算做到这一点”。也因此，警察巡逻的随机性递减，警务执法模式由传统走向数据化、智能化。在我国，越来越多的公安指挥中心也从单纯的接警、派警，变成集数据、情报、指挥、服务于一体的综平台，从而更好地预知预警、防控风险。

犯罪预测的效率与精确度

在传统警务模式中，犯罪预防往往采用随机预防式巡逻。有观点认为，如果警察开着有巡逻标志的警车定期在小区巡逻，即使他们没有特定目标，也会震慑住潜在的犯罪嫌疑人。20世纪70年代，华盛顿的警察基金会在密苏里州的堪萨斯市做了一个实验，结果显示，随机预防式巡逻对犯罪率没有产生实质影响。与此相反，大数据在犯罪预测中最直接的作用就是犯罪预测的效率与精确度，从而达到更好的犯罪预防效果。

首先，犯罪预测数据化可以提高犯罪预测的效率。在传统的警务模式中，警察巡逻是随机的，此种无目的出警是对警力资源的浪费。在大数据环境中，通过数据预测，警察执法变得更为“智慧”。预测警务理论认为，在统计上更有可能犯罪的地区应该有针对性地增加警力。通过将随机巡逻变为“定点巡逻”，通过数据指导警察巡逻的模式，甚是特定的时间、日期和地点，稀缺的警察资源可以集中在犯罪风险较高的地区，促进警察资源的有效利用。自2017年来，德国黑森州国家刑事调查局通过KLB-operativ内部开发软件，使辖区内每个警察都可通过智能手机的应用程序对入室案件进行预测。该应用程序每天早上更新，以映射过去十天来有价值的入室案并突出显示每日热点地区。

其次，犯罪预测数据化可以提高预测的精确度。犯罪预测某种程度上是犯罪事件是否发生的概率问题。在传统的犯罪预测中，犯罪预测的精确度并不高，因而针对性犯罪预防的效果并不理想。在数据体量及质量不高的情况下，警察所能获取的预测结果相对有限。随着信息技术的发展，预测数据的海量化以及化，犯罪预测的精确度可以得到相当程度的提高。一方面，数据所具有的客观性，可以弥补人类感知的脆弱性，从而增强预测结果的客观性与精确度。美国纽约警察局曾被曝种族歧视严重。该警察局超过95%的情报调查以主体为目标，还曾被爆出监视黑人生活。除种族外，犯罪嫌疑人的性别、阶级、财富等都可能对警察的主观预测产生影响。然而在大数据世界中，此类个性化数据在某些情况下可予以一定限制，避免因警察的主观预测而对犯罪预测结果产生影响；另一方面，预测结果的精确性又可以缓和警察执法过程可能造成的社会恐慌。在预测结果产生后，警察部门需要对预测结果进行反应。它通常表现为警察到一些热点地区巡逻或者定点逮捕犯罪嫌疑人。如果预测不够，很可能会打草惊蛇，甚引起周围群众的恐慌心理。

确保执法过程证据留痕与可追溯

警察部门作为行政执法机关，其执法行为依据的方式、方法、过程都可能面临相对人和社会公众的质疑与监督。在大数据犯罪预测过程中，犯罪预测软件是警察执法的工具，犯罪预测结果是警察部门采取相应手段的前提。若警察部门根据预测结果采取了一定行为，后续就可能面临需要对执法行为进行说明甚产生责任承担问题。此时，数据化的犯罪预测通过数据留痕可以使犯罪预测的过程通过可视化的方式保存下来，进而确保执法过程的证据留痕以及后续的责任承担问题。

通常情况下，警察采取行动前的准备工作很难被完整记录。数据化的犯罪预测通过预测软件则可将这一过程自动记录下来。通过记录，警察可以说明他们访问了哪些数据库，使用哪些步骤、条件进行查询，从而证明他们在调查潜在犯罪嫌疑人时所采取的步骤。例如，在警察采取行动逮捕犯罪嫌疑人后可以说明，他已经访问了相关个人信息数据库并结车牌进行检查，并用这些信息佐证他的怀疑。通过数据留痕、数据库的访问记录等可视化方式进行说明不仅可以体现警察执法行动的依据，甚可以简化法官对警察理怀疑的判定。此外，犯罪预测数据化还可以在警察部门内部形成一种进行数据审核、记录收集标准的良好风气。通过记录，相关部门可以随时检查警察执法的依据，了解哪些因素会对警察逮捕犯罪嫌疑人产生影响，并将此作为一种内部监督策略用于后续的问责机制中。例如，在警察通过犯罪预测当场抓获犯罪嫌疑人并予以逮捕的情况下，如果逮捕错误，在后续的内部追责过程中，可令警察对预测过程进行说明。

促进刑事侦查理性与经验的平衡

三、犯罪预测数据化的可能风险

随着信息化的发展，计算机处理器的加快以及存储数据量的增多，先前离散的数据网络得到新的发展。基于数据质量和数量对“预测警务”的重要性，导致警察部门和相关作公司会积极寻求大量的数据应用于相关预测系统。由于缺乏明确的监督和制约法规，在数据的获取、运用、整阶段都易产生相应的风险。

数据搜集——“黑数据”现象导致歧视

刑事司法制度有其自身固有的偏见。在西方刑事司法系统中，种族和宗教容易引发歧视。经济、社会地位上的弱势群体以及一些少数族裔人群，受到暴力以及其他犯罪侵害的概率明显更高。进而有德国学者指出，“预测警务”可能会放大现有的偏见和歧视。例如，警察在被定义为“热点”的地区更频繁地巡逻，在该地区将记录更多的犯罪报告，同时，在未来预测中该地区的犯罪数量占比将更重。美国Palantir和DAS预测系统的反对者认为，警察依据自己的种族偏见使用数据监控，从而监控甚逮捕更多的人，是“种族主义的循环”。2016年，美国非营利组织人权数据分析小组（Human Rights Data ysis Group）利用Predpol算法，在奥克兰市地图上推演了由警察记录数据所构成的毒品案件逮捕的空间分布。结果显示，逮捕行动主要集中在非白人和低收入人口占主导的社区。如果将这些数据输入机器学习算法，则可能加剧人口逮捕的不平等分布。因而，在数据搜集阶段如何程度避免黑数据，提高搜集数据的质量关重要。

数据获取——过度侵犯个人隐私

数据获取是“预测警务”开展的前提。在数据获取过程中，“个性化数据”的过度整与利用是“预测警务”过度侵犯隐私权的重要体现。美国洛杉矶警察局曾与Palantir公司作整个人数据用于警务监测和预防。Palantir平台可以获取自动车牌读取器（automatic license plate readers）的数据以搜集所有公民的信息，而不限于犯罪嫌疑人。随后，系统可以绘制数据地图以帮助警察追踪城市中的车辆和人员，使执法部门了解驾驶员的典型出行方式并识别差别。据此，警察部门可建立一个庞大的个人信息数据库，即使从未与警察直接接触，个人信息亦可能被存储在数百万个数据点中，包括驾驶汽车的型号、家庭住址等。美国纽约警察局与微软公司曾作开发一项大数据犯罪预防和反恐技术——DAS系统。DAS可以利用摄像机、车牌读取器和射频感应器创建纽约市的实时监测地图。该系统与整个纽约市的私人闭路电视监控（privately-owned CCTV cameras）作，并与多个非纽约警察局的情报数据库进行对比。在DAS运行后，纽约市市民认为其严重侵犯了个人隐私权以及免于无根据监视的权利。2018年，纽约市议员凡妮莎L.吉布森（Vanessa L. Gibson）提出了《监视技术公共监督法》（The Public Oversight of Surveillance Technology）以期对此进行规制。同时，美国各地开始制定协议，确保不会滥用自动车牌阅读器和其他监视技术。

算法黑箱——预测缺乏公正、透明

此外，当以大数据为基础的算法软件具备机器学习能力时，将使预测过程变得更难掌控。机器学习取决于数据，可以访问的数据越多，学习的效果就越好。数据的质量、数据输入系统的方式以及如何“训练”系统以分析数据可能会严重影响由算法生成的信息的有效性、准确性和实用性。机器学习的结果意味着，预测过程可能会超出其初始编码并使用新的数据产生结果。在这种情况下，使用者甚程序员也可能不知道算法运行的过程究竟如何。不透明问题带来的影响可能是致的。有学者认为，在犯罪学语境下，使用增强型机器学习（reinforced machine learning），即机器试图建立为特定问题提供正确答案的规则是一个解决办法。然而，这意味着除非每个犯罪都被举报，警察平等追究所有人犯下的所有类型犯罪，否则不可能有一个能够预测犯罪本身的强化学习系统。事实上，行为会影响结果，导致得到的预测反馈非常有限。因此，算法黑箱实际上可能使社会公众处于“黑暗”之中，我们并不知道什么时候、出于什么原因，我们可能就会出现在犯罪预测系统当中。

数据隔离——信息孤岛的产生

信息孤岛是指相互之间在功能上不关联互动，信息不共享、不互换的现象。每当数据系统不兼容或未与其他数据系统集成时，就会发生信息孤岛。信息的不对等、不对称是警务部门开展工作的一大障碍。在英美德三国，不同辖区的警察部门系统独立，使用的数据库也大不相同。就“预测警务”而言，信息数据缺乏共享、联动将会导致警务部门资源利用低下，造力、物力、财力的浪费。

然而信息孤岛现象的产生、各个辖区警务部门采用不同数据、不同预测软件具有一定现实依据（此处仅针对财产犯罪而言）。美国犯罪学家认为，财产犯罪是可预见的行为且往往只需该地区有警察驻守就可以制止，但暴力犯罪往往更难预测和制止。因而目前“预测警务”较多适用于财产犯罪。财产犯罪如等往往具有很强的地域性特征。不同的警察辖区对此规定不尽相同，因而搜集的数据也大不一样。这种数据收集的先天性缺陷导致某一辖区所采用的预测方式在另一辖区并不能适用。以英国HART预测软件为例，该系统收集的数据主要是达勒姆郡警察局的羁押案件。这意味着该系统的适用范围具有局限性，不能在其他地区警局得到应用。此现象在德国警察部门体现得更为明显。德国联邦各州警察部门针对“预测警务”开发了相应专属的软件系统。这些系统同HART一样，都限于某辖区使用。相较而言，美国PredPol、Palantir等数据平台在一定程度上实现了利用海量数据进行数据整的优势，适用面较广，因而也得到美国很多警察部门的采用。当前，预测警务数据孤岛现象更为严重的问题在于：一些本可以整、共享的数据库彼此之间并没有实现有效的数据共享与流通，从而造成资源的浪费。

四、犯罪预测数据化的规制路径

大数据视野下的犯罪预测机遇与挑战并存。西方国家预测警务面临的风险亦是我国公安机关在实践过程中正在面临的问题。通过一定举措对这些风险予以规制是各国预测警务发展的必然要求，也是值得我国公安机关学习之处。

优化数据选择标准

大数据支持下的预测警务，数据是预测的灵魂所在。数据搜集阶段存在黑数据，容易对犯罪预测产生不良影响。因而需要对所选数据进行一定限制，避免无关因素影响到预测结果。优化数据选择是为了后期算法利用数据处理时程度确保结果的真实性与客观性，因而在数据收集选择阶段就需要把数据的真实性和客观性作为数据选择的标准。

坚持“个人自决”与比例原则

首先，坚持“个人自决”原则。在德国，根据宪法规定“收集和处理个人数据需受到限制”。信息自决权被视为一般人格权的体现并在1983年被德国联邦确认为基本权利。《欧洲人权公约》第8条第1款即“人人享有使自己的私人和家庭生活、家庭和通信得到尊重的权利”也是“个人信息自决”的体现。其次，在坚持信息“个人自决”前提下，遵循比例原则。德国联邦强调，出于客观确定和有效的理由，只有在应对危险行为时，类似“预测警务”系统的使用才基本被允许。这也是《欧洲人权公约》第8条第2款规定所倡导的。在2009年美国国家司法研究所与司法援助局和洛杉矶警察局作举行的会议上，司法部司法援助局高级政策顾问托马斯·奥莱利（Thomas O'Reilly）认为：“预测警务的开展不应秘密进行，我们应该一开始就邀请隐私权倡导者和社区领袖来解释该计划，并征求他们的想法和意见，减轻他们的担忧”。在我国，个人隐私保护的力度也在不断增强。随着《网络安全法》《数据安全法》和《个人信息保》陆续颁布和实施，个人信息保护达到的高度。公安机关作为行政部门，在利用职权搜集数据、实施犯罪预测时也必须要保护个人隐私，规范数据使用。

加强算法预测透明度

算法不透明是社会公众对预测警务产生不信任感的重要原因。预测警务的应用必须尝试解决不透明性问题。解决的方法可以包括加强公众对算法决策的了解，明确警察部门在搜集数据时的责任承担问题以及在相对范围内披露算法预测的过程等。

首先，应让公众了解大数据监管与日常生活中的其他算法决策并无不同。预测警务的开展并不针对特定的个人，而只是通过一系列的数据、算法预测何时何地犯罪可能发生的概率，借以理安排警察部门的日常工作。同时，应对透明性问题并不意味着警方需要提供更多的信息，而是需要明确一定的责任承担问题。公众需要的并不一定是公布算法决策的具体过程，而是使用该算法的原因，其中的衡量因素是否公正、是否包含偏见等。民众对透明性问题的愤怒主要来自政府监视的秘密性质、无限制地进行数据挖掘，而不是实际的技术监视能力。

其次，算法披露只能在一定范围内，要求严格的算法透明是不现实以及不必要的。一方面，在某些情况下，可以允许披露算法，揭示预测过程，以此增强警察执法的可信度。另一方面，商业模式决定了算法的专有技术保密。披露源代码意味着揭示公司在业务上的竞争优势。若是对算法毫无限制地披露，会对相关公司商业利益造成严重的损害。并且，在人工智能中，由于机器具有反馈回路（feedback loops）拥有再学习的能力，机器学习模型每次分析都会有所不同。即使具有技术能力，也可能无法看到基本公式。因而怎么披露算法、向谁披露算法成为亟待解决的问题。有立法者提出：设立一个监管机构或审计部门专门处理算法出现问题时的审计，确保预测过程公平公正。例如，警察根据大数据预测作出相应执法行为后，若产生相应后果，可能对犯罪嫌疑人或普通民众造成不公正的，可以将预测算法披露给中立的监管机构或审计部门，由特定机构进行审查认定算法决策是否公正、理。

完善数据交流互通

首先，警察部门需要加强自身的基础数据平台建设。例如，对于先前犯罪的各项数据，要统一数据采集、存储、整理、传输、保存等各个环节的标准，并在程度上收集犯罪数据，扩大数据范围。同时，由于不同犯罪所体现出的犯罪特征具有不一致性，需要根据不同的犯罪种类创建相应的数据库。其次，警察部门要加强对交通部门、民政部门等其他政府部门的数据采集和共享，推动政府公共部门之间的数据协作。再次，警察部门要联私人主体平台，加强对社会范围内的数据收集与共享，扩展数据的规模。，不同辖区的警察部门之间要加强内部数据共享，打破地域之间的数据壁垒，从而为预测警务的开展提供海量化的数据资源。

结语

随着数据收集、整和挖掘技术的进步，以数据驱动为主的技术方法成为警察部门执法的重要手段。同时，越来越多复杂的社会、经济和政治问题需要通过数据进行评估和解决，“数据治理”正成为信息化时代的重要特征。目前，以数据为基础的犯罪预测在我国的运用日益广泛，预测警务这一新的警务运行模式随着国家“大数据战略”的推进也正在实践中深化运用。与域外国家类似，我国预测警务的开展也面临着算法不透明、数据壁垒以及数据获取与个人隐私保护之间的固有矛盾等问题。抓住机遇并直面问题，以法治的进路规范科学的数据预测，公安部门才能更好地预防犯罪的发生，在信息化时代担负起维护国家安全的重要使。

原文链接

大数据视野下犯罪预测的机遇、风险与规制——以英美德“预测警务”为例

《西南民族大学学报》（人文社会科学版）简介

随机文章