一种基于弱相关数据的海员身份识别系统
作者: 张盛 侯娇艳
摘要:现有身份识别系统一般利用与目标身份密切关联的数据进行分析和处理,这种方法虽然具有识别准确度高的优点,但其数据获取成本和算力成本普遍较高,不利于实现轻量化部署。文章提出一种基于弱相关数据的海员身份识别系统,通过分析海员生理数据与海洋气象数据的关联,建立弱相关数据与海员身份的映射关系,从而实现身份自动识别。由于系统使用弱相关数据且无须引入人工智能和大数据分析,因而具有低成本和易部署等优点。
关键词:数据分析;身份识别;弱相关数据;用户分析
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2025)09-0005-04 开放科学(资源服务) 标识码(OSID) :
0 引言
在数据分析领域,除了对已知目标进行数据收集和分析之外,对未知目标进行数据收集和处理同样也是数据分析工作的重要组成部分。在某些应用场景中,为了获取既定对象或目标的相关信息,首先需要对目标或对象的身份信息进行识别,即从海量人群中锁定目标或者对象。因此,目标身份识别是整个数据分析和处理周期的首要环节。在实际应用中,目标身份识别是数据分析和处理周期中的重要环节,如商业领域广泛应用的用户数据挖掘、用户消费行为分析等。当前,基于人工智能和大数据分析技术的用户信息分析已被广泛应用于电子商务[1]、电力[2]、网络视频[3]、网络社交[4]等各个行业。特别是在电子商务领域,平台App获取大量的用户消费或者行为数据,并利用大数据分析对用户的职业信息进行预测或判别,进而向用户精准推送符合其职业特点的商品信息。目标身份信息包括职业信息、性别、年龄、身份证号码、手机号码等与目标密切相关的各类信息。目标身份识别已成为当前和未来互联网产业领域的重要研究方向。各类数据实时更新、总量庞大,在处理海量多源异构数据方面,人工智能具有先天优势,其凭借强大的数据分析优势,极大提升了数据收集、分析及生成新数据的能力,从而改变数据分析范式[5-6]。从某种意义上说,智能数据分析已成为各领域的重要发展趋势之一[6-14]。然而,基于人工智能和大数据分析的目标身份识别系统存在着数据获取成本高、存储成本高、算力成本高以及系统研发和更新升级成本高等问题,限制了其广泛应用。
本文以海员为例,提出一种基于弱相关数据的身份识别系统。利用人体健康状态预测技术[15],建立生理数据和气象数据之间的关联,通过阈值判别实现人员身份自动识别。与基于人工智能和大数据分析实现的同类系统相比,该系统所需数据获取难度更低,同时,对存储和算力要求也更低,可实现轻量化部署。
1 弱相关数据
根据数据与目标的关联度大小,可将数据分为强相关数据和弱相关数据。图1所示为根据关联度建立的数据模型,其中,数据分析目标处于中心位置,数据通过属性与目标建立关联。属性与数据之间具有强弱两种关联度,虚线代表弱关联,实线代表强关联。大部分数据分析系统都采用强相关数据进行分析处理,生成信息产品,如股票量化分析系统、消费者行为分析系统等。相对而言,弱相关数据表面上与分析目标并无直接或者显性关联,如气象数据相对于犯罪行为,运动轨迹相对于商品等,都呈现出弱关联特性。但本质上而言,只要建立起弱相关数据与分析目标(或者属性) 之间的映射,便可实现目标分析的功能。
众所周知,互联网中存在着海量的视频、图像、文字等数据,这些数据往往被数据分析系统(App) 采集,并用于用户喜好分析,得到用户的年龄阶层、职业和兴趣爱好等相关信息。随着技术的不断发展和数据获取成本的不断提高,越来越多看似无关的数据也开始被技术爱好者所重视,但这些数据与目标之间一般只存在着弱关联关系,难以被发现且有效利用。
2 基于弱相关数据的海员身份识别系统
系统主要利用两种弱相关数据,即海员的心率数据和海洋天气数据,实现对海员身份自动识别。一般而言,心率数据和天气数据与目标身份之间并无直接关联,因此,这两种数据属于弱相关数据的范畴。但进一步分析,海员工作具有一定的环境特殊性,这种特殊性必然在选定的数据集上显现出一定的规律性。大量调查表明,海员与陆地工作人员在生理指标上具有一定差异。因此,只要建立起海洋天气数据、海员心率数据与海员属性的深层次关联,就能实现对海员的身份识别。
2.1 系统概述
系统主要包含数据采集、识别模块和识别数据管理三个部分,部署在服务器端,其前台客户端主要用于跟用户、服务器端交互,并进行数据显示,这里不作详细描述。如图2所示,系统待处理的数据为心率数据和气象数据。气象数据为气温数据,可从公开的气象服务网站读取。心率数据一般通过运动手环获取。识别模块对上述两类数据进行处理,并通过特定的识别算法生成最终的识别结果。最后,识别结果被存入本地数据库中,如图2所示。系统还提供识别模式和训练模式两种工作模式,当开关设置为ON时,系统将处于识别模式。反之,当开关设置为OFF时,系统将处于训练模式。在识别模式下,系统对监测人员的心率数据和气象数据进行关联分析,实现对监测人员的身份判别。在训练模式下,系统除了运行识别算法以外,还会将识别结果和样本人员真实身份进行比对,并适时进行系统参数修正,以提高系统的识别准确率。
2.2 数据获取
本系统只需采集每日最低气温、最高气温与实时气温等常规数据,因此,可通过气象服务网站提供的API接口获取。心率数据则可通过运动手环进行采集,一般通过手环服务商提供的后台接口进行读取。系统选取心率数据和气象数据作为数据来源,主要考虑以下两个原因:一是海员常年在海上作业,其某些生理指标必然不同于陆地工作人员,而心率数据作为人体最重要的生理指标之一,能够全面反映个体的健康水平及患病风险。同时,心率数据也是众多生理指标中最容易获取的指标,这种采集便利性既降低了数据获取成本,又能节省算力资源。二是海员的生理状态与海洋气象密切相关,海洋气象的变换必然引起海员生理指标的波动,这种波动反映到海员的心率指标上,具有一定的规律性。
系统采集到原始的气象数据和心率数据后,还将对其进行预处理,生成识别模块所需的元数据。图3描述了心率数据采集与预处理的基本流程。运动手环实时采集心率数据,并将其存储在运营商后台数据库中,本系统的前端负责从该数据库中读取心率数据,并传回本地数据库。目前,部分手环运营商为开发者开放了手环数据的读取接口,如华为手环。本地数据库用于存储从手环获取的原始心率数据 fH (x),其中,x代表时间。考虑到不同的应用场景对识别精度的要求不一样,因此,识别模块对元数据的需求也不同。一般而言,为了提高识别精度,识别模块需要不同时间颗粒度的心率数据,如实时心率和日平均心率。在预处理过程中,需要对原始心率数据fH (x) 进行尺度变换,最终得到不同颗粒度的心率元数据fH (t),以满足不同用户群体的差异化需求。本文提供一种预处理的实现方式,当获取到的原始数据fH (x)为监测对象某日某时的实时数据时,预处理模块首先从fH (x) 中提取出当日的最大值和最小值,并存储到数据库。然后,预处理模块根据fH (x) 计算当日的心率平均值,并将此值作为某天的平均心率值赋给以天为单位的元数据 fH (t)。以此类推,系统还可以根据不同应用需求,生成5天、7天、15天和1个月等不同时间颗粒度的心率元数据fH (t)。
图4描述的是气象数据采集与预处理基本流程。系统通过气象服务网站开放的API接口,从气象网站获取公开的每日气温数据,并将其作为原始气象数据存入本地数据库中。然后,与心率数据的预处理类似,系统将对其进行均值化处理和尺度变换,生成不同时间尺度的气象元数据函数fT (t),如实时气温、日平均气温、周平均气温等。