爱收集资源网

基于文本描述生成图像进行行人搜索的方法,全部详细技术资料下载

网络整理 2022-05-07 08:05

本发明专利技术涉及一种利用文本描述生成图像用于行人搜索的方法,属于计算机视觉技术领域。该方法包括以下步骤: S1、构造一个转换生成,用于实现文本描述到行人图像的转换模型; S2、将指向目标行人的文本描述重复输入到变换生成模型中,加入随机噪声,生成目标行人的文本描述对应的K行人图像,记录为查询图像,K查询图像构成一个查询图像组,K≥1; S3、 将查询图像组中的查询图像输入到基于图像的行人搜索模型中,得到K个对应的目标行人搜索结果序列,每个目标行人搜索结果序列包括若干个候选行人; S4、对K个目标行人搜索结果序列中的候选行人进行加权重排,将所有候选行人按照最终排序进行排序,得到文本描述的目标行人搜索结果。此描述的目标行人搜索结果。此描述的目标行人搜索结果。

下载所有详细的技术数据

【技术实现步骤总结】

使用文字描述生成图片供行人搜索

[0001]专利技术属于计算机视觉

,具体涉及一种通过文本描述生成图像的行人搜索方法。

技术介绍

[0002]大数据和人工智能技术的发展,为构建安全便捷的智能社会提供了技术保障。其中,智能视频监控系统是计算机视觉领域提供的最重要的技术之一。目前,各个政府部门、企业单位、交通车站、住宅小区等场所都安装了监控摄像头,可以实时、大范围采集监控图像和视频数据。由于行人、灯光等因素的影响,行人的人脸清晰度不足,传统的人脸识别技术无法有效使用。基于行人服装、体型和姿势的行人相关分析是另一个非常有价值的视觉应用,即行人搜索。 (人物搜索)。

[0003] 具体而言,行人搜索技术包括图片或文字形式的查询输入(目标行人的全身图片或文字描述)和待搜索图片库(图片库包含大摄像头采集的图像数量)图像屏幕包含行人),行人搜索使用查询输入尝试从行人图像库中检测出每个行人,计算与查询输入的相似度,然后根据可能匹配的图片进行排序并返回相似性完成对于特定目标行人的搜索,行人搜索技术的应用场景包括:1)车站、游乐园等拥挤公共场所的人员智能搜索; 2) 在无人超市定位客户并识别; 3)为家用机器人的人体定位识别功能提供支持。

[0004] 在技术层面,行人搜索任务主要包括两个子任务,行人检测和行人重新识别。对于图片库中所有要搜索的图片,行人检测负责从完整图片中确定行人所在的区域(如行人重识别负责寻找与目标行人匹配的行人区域和图片基于大量不同环境(如不同时间、不同位置)的相似度计算,即确定行人检测区域,提取行人视觉特征,与输入数据的对应特征进行匹配(例如输入图像对应的图像特征,比如输入文本对应的文本特征),并根据相似度对结果进行排序,从而实现在图片库中搜索目标行人。广泛研究的行人重新识别任务,行人搜索任务中的图像库中的图像是完整的场景图像s 包含背景,而不是裁剪出来的行人图像,因此更接近实际应用场景。 ,但也有较大的技术难度。

[0005] 在行人搜索任务中,现有的方法大多以行人图像为查询对象,即输入特定的行人图像,在目标图像或视频库中搜索目标行人。尽管现有算法大多在基于图片的行人搜索问题上取得了较好的效果,但在实际应用中,其适用性和便利性非常有限。例如,在某些情况下,不能保证获得使用目标行人的图像作为查询输入,并不能保证目标行人图像能够完全代表行人的特征。相比之下,当无法获得目标行人全面清晰的图像时,人们更倾向于使用自然语言来描述目标行人的视觉特征,例如“行人穿着黄色运动鞋、白色袜子配蓝色条纹、黑色运动裤和黄蓝色T恤,留着黑色短发

……”

因此,有学者提出了一种基于文本描述的行人搜索模型和算法,即查询输入

是文本描述(可以是简单的句子,也可以是对应多个主要特征的词汇)。

[0006]与行人图像相比,文字描述更符合人们的描述习惯,更容易获取,因此基于文字描述的行人搜索更接近实际场景需求。然而,基于文本描述的行人搜索方法通常不如基于图像的行人搜索方法准确。

技术实现思路

[0007] 本专利技术解决的技术问题是:克服现有技术的不足,提出一种利用文本描述生成图像进行行人搜索的方法,从而可以描述行人搜索方法根据更全面的特点。进行更贴近实际需求的搜索,提高搜索准确度。

[0008]该专利技术的技术问题的解决方案是:一种利用文字描述生成图像的行人搜索方法,该方法包括以下步骤:

[0009]S1、构建文本描述到行人图像的转换生成模型;

[0010]S2、将指向目标行人的文字描述重复输入到变换生成模型中,加入随机噪声,生成与目标行人的文字描述对应的K张行人图像,记为query images, K 查询图像构成一个查询图像组,K≥1;

[0011]S3、将查询图像组中的查询图像输入到基于图像的行人搜索模型中,得到K个对应的目标行人搜索结果序列,每个目标行人搜索结果序列包括若干个候选行人;

[0012]S4、对K个目标行人搜索结果序列中的候选行人进行加权重排,并将所有候选行人按照最终排序进行排序,得到文本描述的目标行人搜索结果。

[0013] 优选地,步骤S1中的变换生成模型包括LSTM文本特征提取子模块、标准正态分布随机噪声引入子模块、DCGAN网络模型;

[0014]LSTM文本特征提取子模块,使用预训练的LSTM长短期记忆网络,接受目标查询行人的文本描述作为输入,输出N维文本特征向量;

[0015]子模块引入标准正态分布随机噪声。根据标准正态分布,产生均值为0,方差为1的M维随机噪声,LSTM文本特征提取子模块输出的N维文本特征向量。与生成的M维标准正态分布随机噪声拼接行人检测输入图片,得到N+M维文本特征向量,送入DCGAN网络模型;

[0016]DCGAN网络模型根据N+M维文本特征向量生成目标行人文本描述对应的行人图像。

[0017] 优选地,DCGAN网络模型是通过在带有文字描述的行人图像数据集上训练变换生成模型得到的。

[0018]优选地,带文字描述的行人图像数据集采用CUHK

-

PEDES 数据集。

[0019] 优选地,在步骤S3中,基于图像的行人搜索模型采用基于图像的Faster R。

-

经过训练的 cnn 框架在线实例与 OIM 行人搜索模型相匹配。

[0020] 优选地,步骤S4中的候选行人x

最终排名排名的计算公式如下:

[0021][0022]式中,K为查询图片组包含的图片个数,即排序后的结果列表个数,即查询图片

候选行人x在该组中第i个查询图像对应的目标行人搜索结果序列中的rank为x

权重系数,如果候选行人没有出现在查询图像组中第i个查询图像对应的目标行人搜索结果序列中,则x

取0。

[0023] 优选地,对于给定的目标行人搜索结果序列,目标行人搜索结果序列的候选行人x在搜索结果序列中的排名为x

权重系数

[0024][0025] 其中,ξ为系数超参数,取值范围为0~1,e为自然指数,N

为第i个查询图像对应的目标行人搜索结果序列的长度,τ为平滑系数超参数,大于1,取值范围为1~10,当x时

什么时候

is ,对应的rank权值最小,越往前或越后,rank权值越大,i∈[1,K]。

[0026]本专利技术与现有技术相比的有益效果是:

[0027](1)行人检测输入图片,本专利技术中描述的使用文本描述生成图像用于行人搜索的方法结合了基于图像的方法和基于文本描述的方法,使得行人搜索方法可以基于更全面的特征描述进行搜索,更贴近实际需求,提高搜索准确率。

[0028](2),本专利技术的变换生成模型生成的行人图像包含原线

【技术保护点】

【技术特点总结】

1.使用文本描述生成图像供行人搜索的方法,其特征在于包括以下步骤: S1、构建转换生成模型,实现文本描述到行人图像的转换; S2、 将指向目标行人的文本描述重复输入到变换生成模型中,加入随机噪声,生成目标行人的文本描述对应的K个行人图像,记为查询图像,K个查询图像构成查询图像组,K≥1; S3、将查询图像组中的查询图像分别输入到基于图像的行人搜索模型中,得到K个对应的目标行人搜索结果序列,每个目标行人搜索结果序列包括若干个候选行人; S4、对K个目标行人搜索结果序列中的候选行人进行加权重排,将所有候选行人按照最终排序进行排序,得到文本描述的目标行人搜索结果。 2.根据权利要求1所述的使用文本描述生成用于行人搜索的图像的方法,其特征在于,步骤S1中的变换生成模型包括LSTM文本特征提取子模块、标准正态分布随机噪声引入子模块-module,DCGAN网络模型; LSTM文本特征提取子模块,使用预训练的LSTM长短期记忆网络,接受目标查询行人的文本描述作为输入,输出N维文本特征向量;引入标准正态分布随机噪声子模块,根据标准正态分布,生成均值为0,方差为1的M维随机噪声,拼接LSTM文本输出的N维文本特征向量特征提取子模块与生成的 M 维标准正态分布随机噪声。 ,得到N+M维文本特征向量,送入DCGAN网络模型; DCGAN网络模型根据N+M维文本特征向量生成目标行人文本描述对应的行人图像。 3.根据权利要求1所述的使用文本描述生成用于行人搜索的图像的方法,其特征在于,所述DCGAN网络模型是通过具有文本描述的行人图像数据集训练转换生成模型得到的。 4.根据权利要求 3...

【专利技术属性】

技术研发人员:辛宁、任树波、李九超、曾俊杰、李立南、

申请人(专利权):中国空间技术研究院,

类型:发明

国家省份:

下载所有详细的技术数据我是该专利的所有者

文本分析 图像噪声 正态分布