当前位置:首页 > 新闻中心 > 行业动态

"公安大数据" 思维在实战中的实践案例与思考

发布时间:2017-02-23 08:47:10作者:电科华云

大数据

近年来,随着信息技术在全国公安机关的快速发展,数据共享和深化应用前所未有的需求。然而,随着数据的融合和数据量的爆炸性增长,传统的数据库和数据仓库技术有许多瓶颈,特别是对于PB级的非结构化数据处理和多维相关分析,数据挖掘,智能研究和其他需求,传统的数据存储和处理方法面临的是低效,高成本,可靠性差,容量不足等不可逾越的障碍。以构建“大数据”处理与分析平台为突破口,寻求公安信息应用的新效益增长点,成为公安机关应用信息热点问题。在本文中,两种情况下,公安机关在“大数据”中开展了一些新的实际应用和新思维方法,以广大同行参考和参考。

案例1:电子警察疑似套牌自动识别系统

(1)示例目标

这个例子的目的是找出近12亿“电子警察”(卡口视频捕获系统)的套牌车,这可以被称为“怀疑甲板车模型”。与一般的数据挖掘方法一样,处理大数据的原则是“以业务规则为核心,基于数据资源,支持计算能力”。这个例子是在2011年初开始的,经过大约6个月的研究开发和应用讨论,并取得了一些实际成果。

(2)操作流程

第一步,业务规则。这个商业调查规则的例子是:在短时间内,同一牌照不能被不同的路口“电子警察”捕获设备捕获。其中涉及三个变量,一是时间,二是车牌,三是“电子警察”的地理位置。在与交通警察部门商务规则研究后,最后的数字是:在5分钟内,如果距离大于10公里“电子警察”同时捕获相同的牌照,牌照可能是套牌,因为速度一般不能超过120公里/小时。另外,“电子警察”位置的纬度和经度测量其直线距离,短于道路的实际距离。

第二步,数据准备。如果你面临着一百万的数据,常规的SQL查询可以解决这个问题。如果数据量大的话,使用分区表的形式一般可以解决这个问题。然而,在该示例中,遇到的第一数据是车辆捕获数据。数据量是3年“电子警察”捕获的数据总和,目前南通每天约8亿次,最近三年的数据融合到约12亿。因此,本示例的总体技术框架可以使用“HADOOP + ORACLE”来描述超过1亿个数据。这指的是数据的数量,因为结构是为数据,我相信首先大量的结构化数据处理到位,然后开始半结构化,非结构化大数据研究。 100万或以上的数据用分布式HADOOP直接处理,或者称为预处理,可以处理成百万或者数百万的数据,然后依靠传统的ORACLE来处理。第二个数据是“电子警察”的地理位置数据,可以从PGIS获得支持,获取城市的“电子警察”的纬度和经度信息。将所有城市的“电子警察”刺刀坐标建立辅助表,如表1所示。记录每个刺刀的纬度和经度,以计算不同刺刀准备之间的距离。最后,有一个重要的数据时间。城市的“电子警察”捕获设备必须统一定时,否则超过1000亿的数据模型将失去其意义。

大数据

大数据

第三步,利用 HADOOP 计算。这是最关键的一步,将 12 亿“电子警察”抓拍车牌数据,利用分块的模式,分别存储到 10 台普通 PC 服务器集群的 HADOOP 分布式存储环境中。每个块存储 300 万数据,分 380 个块存储在 9 台数据节点中,共占用存储空间 103 G。在数据传输交换上,使用分布式索引创建工具,经过 3 小时 10 分钟将数据从不同的oralce 数据库存储到 HDFS 分布式存储环境中,见图1 所示。

而后,采用 HADOOP 的 MAP -REDUCE 模型,对分块数据分别进行运算,首先使用 MAP 对每个车在卡口的时间进行分组,MAP 执行结束后,使用REDUCE 对各个块的数据按照车牌号进行汇总,再使用 MAP 对每个车在卡口出现的时间与不同卡口之间的距离进行运算,对于在小于 5 分钟内,在距离大于 10 公里的卡口同时出现的车辆,认定为疑似套牌车。最后使用 REDUCE 将统计结果汇总。其具体执行过程见图 2 所示。

第四步,结果。这个运算模型在 10 台 PC 服务器组成的 HADOOP 集群中,以 40 个初始 MAP 进行分布式执行,经过约 50 分钟执行完毕,共排查出394 辆疑似套牌车牌。这个效率已经基本能够满足应用要求

大数据

( 3) 结果应用。

(人工辅助)技术部门和交警部门共同研究分析了上述结果,发现在这 394 辆车里,有约三分之二( 也就是 250 辆左右) 是因为自动识别系统的误判造成的错误信息( 如 B 和 8、D 和 0 容易出现误判) ,这说明公安机关抓拍设备的识别率还要提升。在余下的约 150 辆车中,已经在控的约有 60 辆,其他 90 余辆车通过人工辨别、研判,确认为新发现的套牌车,现已全部纳入了套牌车布控查缉系统开展后续工作。

案例2:非法犯罪者留在酒店法律

示例目标:分析被拘留10年的被拘留者的法律,为安全防范工作提供指导。

通过多方努力,我们聚集了10年的酒店数据约5亿,10年的本地员工数据约为65万。使用计算机集群,我们首先建立了一个比较模型,根据HADOOP组织数据,并将65万人数据放入5亿个住宿数据中,以找到相同的项目。以“10 + 1”模式,即10个服务器为数据节点,1个为控制节点,再次“运行”时间约为50分钟。过去10年在押的人员曾经入住旅馆数据约72. 1 万条。

(1)所有被拘留者占酒店入住率的比例分析,具体情况如图3所示。

这是一种更传统的分析方法。面对70万的小数据,从10年所有被拘留者自己检查情况,可以称为“自我比例”分析。从图中可以看出,如图3所示,“占有率”的第一峰值为约22点,第二峰值为约13点,谷值为约6点钟。这表明,根据过去十年累积的数据,我们关注的是嫌疑人留在酒店的关键时间应该是晚上10点左右和下午1点左右。

大数据

( 2) 针对全部入住旅馆人员各时段占比分析,具体情况见图4

根据 10 年来全部数据量的规模,传统的关系型数据库处理这些数据效率会很低。用 HADOOP 的MAP -REDUCE 计算框架,15 分钟左右全部完成计算工作,得出图 4 中的结果,可与第一项在押人员入住规律作比较。通过对比可以明显看出,在押人员入住“自占比”趋势与全部人员入住占比的趋势基本一致。这说明在 21 时和下午 1 时左右,本身也是正常人员入住旅馆的高峰时间。因此,这项分析虽有意义,但是针对实战的指导性分析还需要进一步研究。

大数据

( 3) 各时段在押入住旅馆人员与该时段全部正常入住人员的占比分析。

如果把上面的比较分析方式称为关注对象的“自占比”,那还有另一种比较方式,即关注对象与全部对象之间的比较,我们可称为“全占比”。各时段在押人员入住旅馆的“全占比”情况见图 所示。

大数据

大数据

进一步思考通过上述两个案例分析,我们不难发现,基于’大数据#统计分析相关规律的业务建模,可能会逐步超越目前的行业经验,发现事物本质的新的联系,颠覆一些传统的行业规则$因此,迎接’大数据#时代的到来最需要的是一种全新的思维方法。

大数据思维是一个不断演进的过程

两个例子表示“大数据#处理和应用”的进化过程。在初始阶段,我们受到“小数据”的惯性控制的思考,增加计算直接目的的能力是提高准确性,总是想直接找到非法犯罪分子。但是由于数据量大,传统技术效率低,不能完成大量数据处理任务,因此想到分布式计算,并取得了一些应用成果。

在第二种情况下,我们进一步发现有一个更为重要的趋势分析和宏观审查更广泛应用于大数据分析。大数据处理更多的体现在一个群体的行为上,通过海量数据找到一个隐藏在数据中的客观事实,公共安全数据通过各种工具和方法得到更多的关注,通过对大量数据的分析发现大数据隐含的知识和关系。这种“大数据”思维决定着我们未来的方式!定期分析是下一阶段公安安全大数据应用的重点从上面的例子可以看出,引用的数据不是很大,分析比较简单的比较方法,显示也是比较直接的和更多的单线图,只有这样才能挖掘出实际战斗服务的结果,这是传统的数据处理无法实现的$这是“大数据#思维的角色思维

在“小数据”时代,由于数据量不够,范围还不够,所以我们的决策更依赖于直觉和经验,掌握事物的规律性往往需要一个非常长的累积过程,但是也容易错过。然而,随着“大数据”时代的到来,丰富的多维数据应用使得公共安全的传统商业思想得到了极大的丰富,打破大数据的关键是通过大数据理解的方式数据。