发布信息

影像数据增强装置与方法与流程

作者:admin      2022-09-02 17:03:47     865



计算;推算;计数设备的制造及其应用技术1.本发明是有关于一种数据增强技术,特别是有关于一种影像数据增强装置与方法。背景技术:2.在现有技术中,当训练一个机器学习(machine learning)的模型时,除了所训练的模型架构会影响辨识与辨识能力外,最关键的是训练数据的完整度。对于相同模型架构而言,在训练数据库越多元且越完整的情况下,模型的辨识能力通常会越高(即,准确率越高)。然而,在实务上常常因为人力与数据有限,无法收集多元性且完整度高的数据库。因此,能够采用自行产生数据的数据增强(data augmentation,da)方法是相当重要的,且选择适当的数据增强方法将能有效地提升藉由模型训练数据的效能。3.在一般情况下,当训练影像辨识模型进行对象辨识时,往往有足够数量的彩色影像当作训练数据。然而,当在夜间拍摄影像时,往往会利用夜视装置拍摄已去除色彩信息的影像。此时,若使用由彩色影像训练的模型对夜视装置所拍摄的影像进行辨识或侦测,往往造成辨识的准确度不佳。值得注意的是,在夜间所拍摄的包含特定对象的影像的数量往往是不足的(例如,在夜间辨识出的人形的影像的数量很少),这也会影响辨识的准确度。或者是,当数据库所储存的包含特定对象的影像的数量不足时,利用由数据库所储存的影像所训练出的辨识模型进行辨识或侦测,同样会造成辨识的准确度不佳。4.综上所述,如何训练出夜间所拍摄的影像的辨识模型以及如何解决数据库所储存的包含特定对象的影像的数量不足的问题,是本领域技术人员急欲解决的问题。技术实现要素:5.本发明实施例提供一种影像数据增强装置,其包括存储器与处理器。存储器用以储存多个指令与多个影像;处理器连接存储器,用以读取多个影像以及加载并执行多个指令以:从多个影像中辨识出包括至少一个对象的至少一个对象相关影像;从至少一个对象相关影像切割出至少一个对象影像;以及将至少一个对象影像叠加至多个影像中的多个任意位置以产生多个训练样本影像,并利用多个训练样本影像进行机器学习。6.本发明实施例提供一种影像数据增强方法,所述方法包括下列步骤:从多个影像中包括至少一个对象的至少一个对象相关影像切割出至少一个对象影像;以及将至少一个对象影像叠加至多个影像中的多个任意位置以产生多个训练样本影像,并利用多个训练样本影像进行机器学习。7.本发明实施例提供一种影像数据增强装置,其包括存储器与处理器。存储器用以储存多个指令与多个影像;处理器连接存储器,用以读取多个影像以及加载并执行多个指令以:从多个影像中辨识出包括至少一个对象的至少一个对象相关影像;判断多个影像中的至少一个对象相关影像的数量是否不大于对象影像数量阈值;当至少一个对象相关影像的数量不大于对象影像数量阈值时,从至少一个对象相关影像切割出至少一个对象影像;以及将至少一个对象影像叠加至多个影像中的多个任意位置以产生多个训练样本影像,并利用多个训练样本影像进行机器学习。8.本发明实施例提供一种影像数据增强方法,所述方法包括下列步骤:判断多个影像中包括至少一个对象的至少一个对象相关影像的数量是否不大于对象影像数量阈值;当多个影像中包括至少一个对象的至少一个对象相关影像的数量不大于对象阈值时,从至少一个对象相关影像切割出至少一个对象影像;以及将至少一个对象影像叠加至多个影像中的多个任意位置以产生多个训练样本影像,并利用多个训练样本影像进行机器学习。9.基于上述,本发明实施例可自动地或半自动地从预先储存的多个影像裁切对象影像,以将对象影像随机地拼贴至夜视装置所获得的影像。如此一来,将可解决以往针对夜视装置所拍摄的影像的辨识能力不佳的问题。此外,更可解决当所储存的包含特定对象的影像的数量不足时辨识模型的辨识能力不佳的问题。附图说明10.为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。11.图1是根据本发明的实施例绘示影像数据增强装置的方块图。12.图2是根据本发明一些示范性实施例的影像数据增强方法的流程图。13.图3a至图3b是根据本发明一些示范性实施例的红外线影像的示意图。14.图4a至图4b是根据本发明一些示范性实施例的对象相关影像的示意图。15.图4c是根据本发明一些示范性实施例的背景影像的示意图。16.图4d至图4e是根据本发明一些示范性实施例的训练样本影像的示意图。17.图5a至图5c是根据本发明另一些示范性实施例的错误影像的示意图。18.图6是根据本发明另一些示范性实施例的影像数据增强方法的流程图。具体实施方式19.图1是根据本发明的实施例绘示影像数据增强装置的方块图。参照图1,影像数据增强装置100可包括存储器110与处理器120。在一些实施例中,影像数据增强装置100例如是智能型手机、平板计算机、笔记本电脑、桌面计算机等可连上因特网的电子装置,并没有特别的限制。此外,存储器110可用以储存多个指令与多个影像。再者,处理器120连接存储器110,并用以读取上述多个影像,进而加载并执行上述多个指令。20.在一些实施例中,存储器110例如是任何型态的随机存取存储器(random access memory,ram)、只读存储器(read-only memory,rom)、快闪存储器(flash memory)、硬盘或类似元件或上述元件的组合。21.在一些实施例中,上述存储器110所储存的指令可包括影像辨识模块1101、影像处理模块1103以及训练模块1105。在一些实施例中,上述存储器110所储存的影像可以是由夜视装置(night-vision device,nvd)所拍摄的影像或由一般摄影装置所拍摄的影像。夜视装置所拍摄的影像例如是数字夜视(digital night vision)影像、主动式红外夜视(active infrared vision)影像或热成像(thermographic)影像等。由一般摄影装置所拍摄的影像例如是灰阶(gray scale)影像、彩色(colorful)影像或多光谱(hyperspectral)影像等。22.在一些实施例中,处理器120例如是中央处理单元(central processing unit,cpu),或是其他可程序化的一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(digital signal processor,dsp)、可程序化控制器、特殊应用集成电路(application specific integrated circuits,asic)或其他类似装置或这些装置的组合。23.此外,处理器120可通信连接存储器110。针对上述通信连接的方法,处理器120可以有线或无线的方式连接存储器110,在此并没有特别的限制。24.对于有线方式而言,处理器120可以是利用通用串行总线(universal serial bus,usb)、rs232、通用异步接收器/传送器(universal asynchronous receiver/transmitter,uart)、内部集成电路(i2c)、串行外围接口(serial peripheral interface,spi)、显示端口(display port)、雷电接口(thunderbolt)或局域网络(local area network,lan)接口进行有线通信连接,并没有特别的限制。对于无线方式而言,处理器120可以是利用无线保真(wireless fidelity,wi-fi)模块、无线射频识别(radio frequency identification,rfid)模块、蓝芽模块、红外线模块、近场通信(near-field communication,nfc)模块或装置对装置(device-to-device,d2d)模块进行无线通信连接,亦没有特别的限制。在本实施例中,处理器120可从存储器120加载上述多个指令以执行下述本发明实施例的影像数据增强方法。25.以下说明本发明实施例的影像数据增强装置100的各种使用情境。以夜视装置所拍摄的影像进行训练的实施例为例,在夜视装置拍摄多个影像后,存储器110储存所拍摄的影像,影像数据增强装置100会利用所拍摄的影像进行数据扩充,藉此增加数据以供辨识模型进行训练。26.图2是根据本发明一些示范性实施例的影像数据增强方法的流程图。图2所示实施例的方法适用于图1的影像数据增强装置100,但不以此为限。为方便及清楚说明起见,下述同时参照图1及图2,以影像数据增强装置100中各元件之间的作动关系来说明图2所示影像数据增强方法的详细步骤。27.首先,于步骤s201中,处理器110可透过影像辨识模块1101从多个影像中辨识出包括至少一个对象的至少一个对象相关影像。28.换言之,处理器110可从存储器110读取影像辨识模块1101与多个影像,以透过影像辨识模块1101从多个影像中辨识出至少一个对象相关影像,其中至少一个对象相关影像可包括至少一个对象。29.在一些实施例中,处理器110可周期或非周期地执行上述步骤s201。30.值得注意的是,上述至少一个对象可以是用户欲从影像辨识出的一种或多种特定对象,且此特定对象例如是人形、车子或房子等各种类型的对象,并没有针对对象有特别的限制。31.此外,存储器110所储存的多个影像除了可以包括至少一个对象相关影像,还可以包括多个背景影像,其中这些背景影像皆不包括至少一个对象。再者,针对夜视装置所拍摄的影像,对象相关影像的数量通常远小于背景影像的数量(例如,背景影像的数量为对象相关影像的数量的十倍)。32.举例而言,图3a至图3b是根据本发明一些示范性实施例的红外线影像的示意图。参照图3a,图3a的影像为不包含人形的对象的红外线影像(即,上述的背景影像)。参照图3b,图3b的影像为包含对象obj(即,人形的对象)的红外线影像(即,上述的对象相关影像)。33.参照回图1与图2,在一些实施例中,处理器110可透过影像辨识模块1101对多个影像进行对象辨识(object recognition)。藉此,处理器110可透过影像辨识模块1101从多个影像中辨识出包括至少一个对象的至少一个对象相关影像。34.在进一步的实施例中,处理器110可透过影像辨识模块1101执行任意类型的计算机视觉(computer vision)算法以进行对象辨识。举例而言,上述计算机视觉算法可以是基于区域的卷积神经网络(region-based convolutional neural networks,r-cnn)算法、单次侦测(single shot detection,ssd)算法或yolo(you only look once)算法等或其他类似的算法或这些算法的组合。35.接着,于步骤s203中,处理器110可透过影像处理模块1103从至少一个对象相关影像切割出至少一个对象影像。36.换言之,处理器110可进一步从存储器110读取影像处理模块1102,以透过影像处理模块1103从至少一个对象相关影像进行对象切割,进而切割出至少一个对象影像。37.在一些实施例中,处理器110可透过影像辨识模块1101辨识出至少一个对象相关影像中的多个对象的至少一个对象位置。藉此,处理器110可透过影像处理模块1103依据至少一个对象位置从至少一个对象相关影像切割出至少一个对象影像。38.在进一步的实施例中,处理器110可透过影像辨识模块1101对至少一个对象相关影像进行对象定位(object localization)(例如,辨识在对象相关影像中的对象对应的像素坐标(pixel coordinate))。藉此,处理器110可透过影像处理模块1103从至少一个对象相关影像辨识出多个对象的至少一个对象位置,以从至少一个对象相关影像中的至少一个对象位置切割出至少一个对象影像。39.在进一步的实施例中,处理器110也可透过影像辨识模块1101执行上述任意类型的计算机视觉算法以进行对象定位。40.举例而言,图4a至图4b是根据本发明一些示范性实施例的对象相关影像的示意图。同时参照图4a与图4b,当使用者欲进行人形的对象的辨识时,可辨识对象相关影像img1中对象obj1的对象位置,并辨识对象相关影像img2中对象obj2的对象位置。如此一来,可在对象相关影像img1中对象obj1的对象位置切割出对象obj1,并在对象相关影像img2中对象obj2的对象位置切割出对象obj2。藉此,可将对象obj1与对象obj2作为对象影像。41.最后,参照回图1与图2,于步骤s205中,处理器110可透过影像处理模块1103将至少一个对象影像叠加至多个影像中的多个任意位置以产生多个训练样本影像,并透过训练模块1105利用多个训练样本影像进行机器学习。42.换言之,处理器110可进一步透过影像处理模块1103将至少一个对象影像随机地叠加至多个影像,以在多个影像中的多个任意位置叠加至少一个对象影像,进而产生训练用的多个训练样本影像。藉此,处理器110可从存储器110读取训练模块1105,以透过训练模块1105利用多个训练样本影像进行机器学习,进而训练出夜视装置所拍摄的影像对应的辨识模型。43.值得注意的是,处理器110可透过训练模块1105利用任意的机器学习算法以进行机器学习,并没有针对机器学习算法有特别的限制。44.在一些实施例中,处理器110可透过影像辨识模块1101从多个影像辨识多个背景影像,其中多个背景影像不包括多个对象。藉此,处理器110可透过影像处理模块1103将至少一个对象影像叠加至多个背景影像中的多个任意位置以产生多个训练样本影像。45.在进一步的实施例中,处理器110也可透过影像辨识模块1101执行上述任意类型的计算机视觉算法以从多个影像辨识多个背景影像。46.举例而言,图4c是根据本发明一些示范性实施例的背景影像的示意图。参照第4图,背景影像img3不包括任何人形的对象。47.参照回图1与图2,在一些实施例中,处理器110可透过影像处理模块1103从至少一个对象影像随机地选择至少一个叠加影像,进而将至少一个叠加影像叠加至多个影像中的多个任意位置以产生多个训练样本影像。换言之,处理器110可透过影像处理模块1103从至少一个对象影像随机地选择至少一者以将所选择的至少一者作为至少一个叠加影像。在另一些的实施例中,处理器110可透过影像处理模块1103将至少一个叠加影像叠加至上述多个背景影像中的多个任意位置以产生多个训练样本影像。48.在一些实施例中,处理器110可透过影像处理模块1103将至少一个叠加影像进行多个几何变换处理以产生多个变化影像,进而将至少一个叠加影像与多个变化影像叠加至多个影像中的多个任意位置以产生多个训练样本影像。在另一些的实施例中,处理器110可透过影像处理模块1103将至少一个叠加影像与多个变化影像叠加至上述多个背景影像中的多个任意位置以产生多个训练样本影像。49.值得注意的是,上述几何变换处理可以是旋转处理、镜射处理或缩放处理等,并没有特别的限制。50.举例而言,图4d至图4e是根据本发明一些示范性实施例的训练样本影像的示意图。同时参照图4a、图4b以及图4d,当使用者欲进行人形的对象的辨识且从对象相关影像img1与对象相关影像img2分别切割出对象obj1与对象obj2时,对象obj1与对象obj2可作为对象影像。藉此,可从对象obj1与对象obj2中随机挑选至少一者作为叠加影像。51.以同时挑选对象obj1与对象obj2作为叠加影像为例,可将对象obj2进行缩放处理以产生对象obj21,并将对象obj1进行旋转处理、镜射处理以及缩放处理以产生对象obj11,进而将对象obj21与对象obj11叠加至对象相关影像img1中的两个任意位置以产生训练样本影像img11。52.此外,同时参照图4a、图4b以及图4e,也可将对象obj2进行缩放处理以产生对象obj22,并将对象obj1进行镜射处理以产生对象obj12,进而将对象obj22与对象obj12叠加至背景影像img3中的两个任意位置以产生训练样本影像img31。53.参照回图1与图2,在一些实施例中,处理器110可透过影像辨识模块1101判断多个训练样本影像中是否存在至少一错误影像。当处理器110透过影像辨识模块1101判断多个训练样本影像中存在至少一个错误影像时,处理器110可透过影像处理模块1103删除至少一个错误影像。54.在进一步的实施例中,此错误影像可以是包括未叠加于地面的至少一个对象的影像、包括上下颠倒的至少一个对象的影像或包括互相叠加的至少二个对象的影像等各种不合理的影像。55.举例而言,图5a至图5c是根据本发明另一些示范性实施例的错误影像的示意图。参照图5a,训练样本影像img32包括未叠加于地面的对象obj23。参照图5b,训练样本影像img33包括上下颠倒的对象obj24。参照图5c,训练样本影像img34包括互相叠加的对象obj13与对象obj25。56.藉由上述步骤,本发明实施例的影像数据增强装置可针对夜视装置所获得的影像进行数据增强以产生夜视装置所获得的影像对应的辨识模型。如此一来,将可避免在使用由彩色影像训练的模型对夜视装置所拍摄的影像进行对象辨识时造成的辨识的准确度不佳。57.参照回图1,以针对一般摄影装置所拍摄的影像进行训练的实施例为例,相似地,在一般摄影装置拍摄多个影像后,存储器110储存所拍摄的影像,影像数据增强装置100会利用所拍摄的影像进行数据扩充,藉此增加数据以供辨识模型进行训练。58.图6是根据本发明另一些示范性实施例的影像数据增强方法的流程图。图6所示实施例的方法也适用于图1的影像数据增强装置100,但不以此为限。为方便及清楚说明起见,下述同时参照图1及图6,以影像数据增强装置100中各元件之间的作动关系来说明图6所示影像数据增强方法的详细步骤。59.首先,图6与图2的差异在于,在处理器110透过影像辨识模块1101从多个影像中辨识出包括至少一个对象的至少一个对象相关影像(即,步骤s601)之后,处理器110可透过影像辨识模块1101进行步骤s603的判断以决定是否使用一般数据增强方法。若不使用一般数据增强方法,便进行步骤s607的判断以决定是否继续采用图2的影像数据增强方法。60.详细而言,于步骤s603中,处理器120可透过影像辨识模块1101判断多个影像中的至少一个对象相关影像的数量是否不大于对象影像数量阈值。若为是,进入步骤s605中。反之,若为否,进入步骤s607中。61.接着,于步骤s605中,处理器120可透过影像处理模块1103执行一般数据增强方法以产生多个训练样本影像,并透过训练模块1105利用多个训练样本影像进行机器学习。62.接着,于步骤s607中,处理器120可透过影像辨识模块1101从多个影像辨识多个背景影像,以判断多个影像中的多个背景影像的数量是否不小于背景影像数量阈值,其中多个背景影像不包括多个对象。若为是,进入步骤s611中。反之,若为否,进入步骤s609中。63.在一些实施例中,上述对象影像数量阈值与背景影像数量阈值可以预先储存于存储器110中或者是由处理器120实时地从数据服务器(未绘示)接收。64.接着,于步骤s609中,处理器120可收集多个额外影像。在处理器120收集多个额外影像之后,可重新回到步骤s601中。65.在一些实施例中,处理器120可向数据服务器传送影像请求信息,以从数据服务器接收多个额外影像,其中这些额外影像不同于储存于存储器110中的多个影像。66.除此之外,图6的影像数据增强方法的其余步骤皆与图2的影像数据增强方法雷同,故在此不再加以赘述。67.藉由上述步骤,当所储存的包含特定对象的影像的数量不足时,本发明实施例的影像数据增强装置可更有效率地进行数据增强以产生一般摄影装置所获得的影像对应的辨识模型。如此一来,将可避免在利用所储存的影像所训练出的辨识模型进行辨识时造成的辨识的准确度不佳。68.综上所述,本发明提供的影像数据增强装置将从多个影像中切割出的对象影像随机地叠加至多个影像或多个影像中的背景影像以产生多个训练样本影像。如此一来,将解决在使用由彩色影像训练的模型对夜视装置所拍摄的影像进行对象辨识时造成的辨识的准确度不佳的问题,并解决在利用所储存的影像所训练出的辨识模型进行辨识时造成的辨识的准确度不佳的问题。69.虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视后附的申请专利范围所界定者为准。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部