一种图像大数据相似度比对方法及系统与流程
[0001]
本发明属于图像处理技术领域,具体来说是一种图像大数据相似度比对方法及系统。
背景技术:
[0002]
现有的图像防侵权意识和功能不够完善,无法保护图像创作者的知识产权,难以搜集
[0001] 本发明属于图像处理技术领域,具体来说是一种图像大数据相似度比对方法及系统。 背景技术: [0002] 现有的图像防侵权意识和功能不够完善,无法保护图像创作者的知识产权,难以搜集网站上可能使用侵权图像的使用者,无法搜集到有效证据。这是由于现在的图像相似度比对算法比较多,但无法做到特定类型图像的细致优化,使相似度的比对阈值达到95%上下。没有与大数据结合的图像比对工具,不能实现大数据范围内的图像相似度的比对。导致了图像对比的效率和准确度不高。 [0003] 经过检索,中国发明专利:一种基于感知哈希算法的图像相似度对比方法(申请号为202010177648.1,申请日为20200313),该申请案公开了一种基于感知哈希算法的图像相似度对比方法。它通过离散余弦变换dct算法将图像进行压缩,通过phash进行图像尺寸缩小,获取图像的颜色通道r、g、b,进而算出rgb的平均值后,将图像灰度化,分别采用颜色分布法和内容特征法提取出每张图像中的指纹,再将原图压缩成一张较小固定尺寸的灰度图像,进而确定出一个阈值,再将图像转成黑白图像,进而来对比图像的轮廓,通过图像基础指纹、颜色特征指纹、内容特征指纹多维度对比最终获取到的相似度结果。但是该申请案的不足之处在于需要对图像基础指纹、颜色特征指纹、内容特征指纹多维度进行对比,比较繁琐、效率不高。 技术实现要素: [0004] 1.发明要解决的技术问题 [0005] 本发明的目的在于解决现有的图像对比的效率和准确度不高问题。 [0006] 2.技术方案 [0007] 为达到上述目的,本发明提供的技术方案为: [0008] 本发明的一种图像大数据相似度比对方法,通过爬虫抓取技术和大数据搜索抓取需要进行比对的图像数据,将抓取后的图像数据进行分析治理后进行结构化的存储,并按照图像的属性进行分类比对,对比过程为计算图像所包含的特征并生成一组指纹,比对图像的指纹来判断图像的相似度。 [0009] 优选的,所述方法包括如下步骤: [0010] s100、图像抓取,通过爬虫抓取技术在特定的网站中抓取所需要的图像数据; [0011] s200、分析治理,将抓取的图像数据进行多维度结构化划分; [0012] s300、图像比对,计算图像所包含的特征并生成一组指纹,比对图像的指纹来判断图像的相似度。 [0013] 优选的,所述步骤s100中,爬虫抓取所需要的图像数据优选选择高清图和500像素以内的缩略图。 [0014] 优选的,所述步骤s200中,对图像数据进行多维度结构化划分具体包括如下维度: [0015] 优选的,所述步骤s300中图像比对包括如下步骤: [0016] s310、统一尺寸,将图像缩小到相同的尺寸得到n个像素; [0017] s320、简化色彩,将缩小后的图像转为n级灰度; [0018] s330、计算平均值,计算所有n个像素的灰度平均值; [0019] s340、灰度比较,依次将每个像素的灰度与平均值进行比较,当大于或等于平均值时记为1,当小于平均值时,记为0; [0020] s350、计算哈希值,依次将每个灰度比较的结果进行组合,得到一个n的数字,该数字为图像的指纹; [0021] s360、相似度比对,将不同图像的指纹进行比对,判断重合率。 [0022] 优选的,n为64,所述方法步骤具体为: [0023] s310、统一尺寸,将图像缩小到相同的8x8尺寸得到64个像素; [0024] s320、简化色彩,将缩小后的图像转为64级灰度; [0025] s330、计算平均值,计算所有64个像素的灰度平均值; [0026] s340、灰度比较,依次将每个像素的灰度与平均值进行比较,当大于或等于平均值时记为1,当小于平均值时,记为0; [0027] s350、计算哈希值,依次将每个灰度比较的结果进行组合,得到一个64位的数字,该数字为图像的指纹; [0028] s360、相似度比对,将不同图像的指纹进行比对,判断重合率。 [0029] 优选的,所述步骤s360中,当重合率大于90%时,判断高度近似;当重合率于70-90%之间,判断为近似;当重合率于50-70%之间,判断为一般相似,低于50%判断为不相似。 [0030] 一种图像大数据相似度比对系统,用于执行上述所述的方法,包括依次通信连接的图像收集模块、图像处理模块和图像比对模块,所述图像收集模块用于从特定的网站上抓取所需要的图像数据,所述图像处理模块用于对抓取的图像数据进行分析治理,所述图像比对模块用于对图像进行比对。 [0031] 优选的,还包括依次通信连接的图像数据库、大数据搜索模块和大数据比对模块,所述图像数据库与图像处理模块通信连接,所述图像数据库用于结构化存储图像处理模块处理后的图像数据,所述大数据搜索模块用于从图像数据库中快速搜索和定位图片信息,所述大数据比对模块用于在大数据级别的图像数据进行比对查找工作。 [0032] 3.有益效果 [0033] 采用本发明提供的技术方案,与现有技术相比,具有如下有益效果: [0034] 本发明的一种图像大数据相似度比对方法,通过爬虫抓取技术和大数据搜索抓取需要进行比对的图像数据,将抓取后的图像数据进行分析治理后进行结构化的存储,并按照图像的属性进行分类比对,对比过程为计算图像所包含的特征并生成一组指纹,比对图像的指纹来判断图像的相似度,不仅可以提高图像识别效率,还可以与大数据进行结合,实现大数据范围内的图片相似度的比对。 附图说明 [0035] 图1为本发明的一种图像大数据相似度比对方法的流程图; [0036] 图2为本发明的步骤s300的详细流程图; [0037] 图3为本发明的系统的结构示意图。 [0038] 示意图中的标号说明: [0039] 100、图像收集模块;200、图像处理模块;300、图像比对模块;400、图像数据库;500、大数据搜索模块;600、大数据比对模块。 具体实施方式 [0040] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。 [0041] 需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。 [0042] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。 [0043] 实施例1 [0044] 参照附图1-附图3,本实施例的一种图像大数据相似度比对方法,通过爬虫抓取技术和大数据搜索抓取需要进行比对的图像数据,将抓取后的图像数据进行分析治理后进行结构化的存储,并按照图像的属性进行分类比对,对比过程为计算图像所包含的特征并生成一组指纹,比对图像的指纹来判断图像的相似度。 [0045] 方法包括如下步骤: [0046] s100、图像抓取,通过爬虫抓取技术在特定的网站中抓取所需要的图像数据; [0047] s200、分析治理,将抓取的图像数据进行多维度结构化划分; [0048] s300、图像比对,计算图像所包含的特征并生成一组指纹,比对图像的指纹来判断图像的相似度。 [0049] 步骤s100中,爬虫抓取所需要的图像数据优选选择高清图和500像素以内的缩略图。通过爬虫抓取技术,在指定的互联网网站中抓取重要的图片格式数据,我们规定图片的格式与大小,并不能无限制的将图片保存,做初步的筛选:针对主流的图片格式png,jpg等进行保存,还有就是图片大小,主要针对高清图1080p的分辨率图片,还有500像素以内的缩略图,缩略图能更切合我们的算法来实现图片的比对。然后保存至数据库中,用作数据积累。具体是通过对目标网站的结构进行分析,我们可以获取到目标数据的完整组织结构,从中我们可以找到网站主要表达的图片内容并进行收集。 [0050] 步骤s200中,对图像数据进行多维度结构化划分从多个维度对图片进行结构化划分,先是是否是生命体,再划分动物与植物,这是一个维度,再者从颜色上划分,整体色调偏 红还是偏绿;还有是否是景物,是大自然的景色还是建筑物景色。我们搭建结构化的分类分支大数据比对,分支末端是细化后的标签,如,绿色,植物,草的一种等,每张图片可以拥有多个标签,以此来做到分类存储。这样的分类存储,为后面检索,比对查找提供便利,能更加快速的比对查询出相似的图片,大量减轻检索工作,为检索提供方向。 [0051] 步骤s300中图像比对包括如下步骤: [0052] s310、统一尺寸,将图像缩小到相同的尺寸得到n个像素; [0053] s320、简化色彩,将缩小后的图像转为n级灰度; [0054] s330、计算平均值,计算所有n个像素的灰度平均值; [0055] s340、灰度比较,依次将每个像素的灰度与平均值进行比较,当大于或等于平均值时记为1,当小于平均值时,记为0; [0056] s350、计算哈希值,依次将每个灰度比较的结果进行组合,得到一个n的数字,该数字为图像的指纹; [0057] s360、相似度比对,将不同图像的指纹进行比对,判断重合率。 [0058] 本实施例优选n为64,所述方法步骤具体为: [0059] s310、统一尺寸,将图像缩小到相同的8x8尺寸得到64个像素; [0060] s320、简化色彩,将缩小后的图像转为64级灰度; [0061] s330、计算平均值,计算所有64个像素的灰度平均值; [0062] s340、灰度比较,依次将每个像素的灰度与平均值进行比较,当大于或等于平均值时记为1,当小于平均值时,记为0; [0063] s350、计算哈希值,依次将每个灰度比较的结果进行组合,得到一个64位的数字,该数字为图像的指纹; [0064] s360、相似度比对,将不同图像的指纹进行比对,判断重合率。 [0065] 步骤s200中,对图像数据进行多维度结构化划分具体包括如下维度:实物(生活物品,交通工具,植物),情感基调(悲伤,欢乐,喜庆),颜色(暖色调,冷色调,主体偏红,绿),风景(人文建筑,自然景观),人物(伟人,明星,男,女,人群),卡通动漫(动漫人物,动漫景色),文字(带有文字),艺术视觉(艺术品,画像)等。 [0066] 步骤s360中,当重合率大于90%时,判断高度近似;当重合率于70-90%之间,判断为近似;当重合率于50-70%之间,判断为一般相似,低于50%判断为不相似。 [0067] 本实施例还包括一种图像大数据相似度比对系统,用于执行上述所述的方法,包括依次通信连接的图像收集模块100、图像处理模块200和图像比对模块300,所述图像收集模块100用于从特定的网站上抓取所需要的图像数据,所述图像处理模块200用于对抓取的图像数据进行分析治理,所述图像比对模块300用于对图像进行比对。 [0068] 还包括依次通信连接的图像数据库400、大数据搜索模块500和大数据比对模块600,所述图像数据库400与图像处理模块200通信连接,所述图像数据库400用于结构化存储图像处理模块200处理后的图像数据,所述大数据搜索模块500用于从图像数据库400中快速搜索和定位图片信息,所述大数据比对模块600用于在大数据级别的图像数据进行比对查找工作。 [0069] 以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。 (编辑:92站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |