发布信息

数据调度分发方法、装置、设备及计算机可读存储介质与流程

作者:admin      2022-08-30 21:07:42     471



计算;推算;计数设备的制造及其应用技术1.本技术涉及互联网技术,尤其涉及一种数据调度分发方法、装置、设备及计算机可读存储介质。背景技术:2.在互联网快速发展的时代,随着内容生产的门槛降低,视频上传量以指数级的速度增长。这些视频包括各种内容创作机构,比如自媒体和机构的pgc,ugc内容。视频的上传量大幅增长,为了保证分发内容的安全性,需要在短时间内完成视频内容的审核,目前主要途径是通过大量的人力同时辅助以机器算法能力进行内容审核。随着相关部门对互联网社会化内容平台监管越来越重视,再加上不良内容对互联网平台的伤害力惊人,现在各大社会化媒体平台都投入了很多人力做审核内容安全审核成为以短视频、新闻资讯,直播等平台优先级最高的运营需求,不管是通过人工审核还是以系统性的机器审核,都是以最安全与最适合产品调性的审核结果维度为主。3.由于内容都需要经过人工审核,人工审核一方面需要增加很多成本,另外一方面效率也不够,无法保证热门和优质创作者的内容快速审核通过。随着内容量的快速增加,成本和效率都非常高,很容易造成内容的积压。尤其是对于ugc内容,如果无法快速审核和处理,也就没有办法快速分发,从而降低分发效率,对用户的体验也会造成很大的影响。技术实现要素:4.本技术实施例提供一种方法、装置及计算机可读存储介质,能够提高优质多媒体数据的调度和分发速度。5.本技术实施例的技术方案是这样实现的:6.本技术实施例提供一种数据调度分发方法,包括:7.获取待分发的多媒体数据,并获取从网络上爬取得到的多个多媒体参考数据;8.将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果;9.当基于匹配结果确定所述多媒体数据满足加速分发条件时,获取所述多媒体数据的当前处理状态;10.基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发。11.本技术实施例提供一种数据调度分发装置,包括:12.第一获取模块,用于获取待分发的多媒体数据,并获取从网络上爬取得到的多个多媒体参考数据;13.相似度匹配模块,用于将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果;14.第二获取模块,用于当基于匹配结果确定所述多媒体数据满足加速分发条件时,获取所述多媒体数据的当前处理状态;15.策略调整模块,用于基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发。16.在一些实施例中,该相似度匹配模块,还用于:17.获取所述多媒体数据的属性信息,并获取所述多个多媒体参考数据的属性信息,所述属性信息包括标题信息;18.对所述多媒体数据的属性信息和所述多媒体数据进行向量化处理,得到多媒体数据的第一标题向量和第一多媒体向量;19.对所述多个多媒体参考数据的属性信息和所述多媒体参考数据进行向量化处理,得到所述多个多媒体参考数据的第二标题向量和第二多媒体向量;20.分别确定所述第一标题向量和各个第二标题向量之间的各个标题相似度、所述第一多媒体向量和各个第二多媒体向量之间的各个多媒体相似度;21.基于所述各个标题相似度和所述各个多媒体相似度确定匹配结果。22.在一些实施例中,该相似度匹配模块,还用于:23.基于所述各个标题相似度和所述各个多媒体相似度,确定所述多个多媒体参考数据中是否存在目标多媒体参考数据;24.所述目标多媒体参考数据与所述多媒体数据的标题相似度小于第一相似度阈值,和/或所述目标多媒体参考数据与所述多媒体数据的多媒体相似度小于第二相似度阈值;25.当所述多个多媒体参考数据中存在目标多媒体参考数据时,确定所述匹配结果为匹配成功。26.在一些实施例中,该装置还包括:27.第一确定模块,用于当所述匹配结果为匹配成功时,将所述多媒体数据的第一标题向量和第一多媒体向量和所述目标多媒体参考数据的第二标题向量和第二多媒体向量输入至训练好的神经网络模型,确定所述多媒体数据和所述目标多媒体参考数据的目标相似度;28.第三获取模块,用于当所述目标相似度大于第三相似度阈值时,获取所述多媒体数据的第一音频数据和所述目标多媒体参考数据的第二音频数据;29.第二确定模块,用于确定所述第一音频数据和所述第二音频数据的音频相似度;30.第三确定模块,用于当所述音频相似度大于第四相似度阈值时,确定所述多媒体数据满足预设的加速分发条件。31.在一些实施例中,该相似度匹配模块,还用于:32.获取所述多媒体数据的第一发布账号标识和所述多个多媒体参考数据的第二发布账号标识;33.确定是否存在与所述第一发布账号标识相同的第二发布账号标识;34.当存在与所述第一发布账号标识相同的第二发布账号标识时,确定匹配结果为匹配成功;35.对应地,该装置还包括:36.第四确定模块,用于当所述匹配结果为匹配成功时,确定确定所述多媒体数据满足预设的加速分发条件。37.在一些实施例中,所述当前处理状态包括人工审核状态、机器审核状态和禁用状态,对应地,该策略调整模块,还用于:38.当所述当前处理状态为人工审核状态时,将所述多媒体数据的分发策略调整为先发后审策略;39.当所述当前处理状态为机器审核状态时,提高所述多媒体数据的处理优先级;40.当所述当前处理状态为禁用状态时,将所述多媒体数据的处理状态调整为启动状态。41.在一些实施例中,该装置还包括:42.标记模块,用于当所述多媒体数据满足加速分发条件时,为所述多媒体数据增加第一标记信息;43.第四获取模块,用于获取具有所述第一标记信息的多媒体数据在内容分发阶段的初始分发权值;44.权值提升模块,用于按照预设的权值调整规则提升所述初始分发权值,得到目标分发权值;45.内容分发模块,用于基于所述目标分发权值,对所述具有所述第一标记信息的多媒体数据进行内容分发。46.在一些实施例中,该装置还包括:47.第五获取模块,用于获取预设的目标网站和爬取策略;48.数据爬取模块,用于利用所述爬取策略从所述目标网站爬取预设时长的多个候选多媒体数据;49.第六获取模块,用于获取所述多个候选多媒体数据的多个互动信息和多个发布账号标识,所述互动信息包括:浏览次数,点赞数,分享数;50.第五确定模块,用于基于所述多个互动信息和所述多个发布账号标识,从所述多个候选多媒体数据中确定出多媒体参考数据。51.在一些实施例中,该装置还包括:52.第七获取模块,用于获取具有所述第一标记信息的多媒体数据的负反馈信息,所述负反馈信息包括举报次数;53.审核模块,用于当所述具有所述第一标记信息的多媒体数据的举报次数达到预设的次数阈值时,确定需要对所述多媒体数据进行再次审核。54.在一些实施例中,该装置还包括:55.第六确定模块,用于确定预设时长内爬取到的多媒体参考数据的第一总数;56.第七确定模块,用于确定所述预设时长内满足加速分发条件的多媒体数据的第二总数;57.第八确定模块,用于基于所述第一总数和所述第二总数确定所述多媒体参考数据的覆盖率;58.第九确定模块,用于当所述覆盖率低于预设的覆盖率阈值时,基于所述多媒体参考数据确定目标发布账号标识;59.发送模块,用于向所述目标发布账号标识对应的终端发送邀请信息,以邀请所述终端发布多媒体数据。60.在一些实施例中,该装置还包括:61.第八获取模块,用于获取内容生成终端上传的待发布多媒体数据,并获取所述待发布多媒体数据的发布账号标识;62.第十确定模块,用于当能够获取到所述发布账号标识对应的历史多媒体数据时,基于所述历史多媒体数据确定所述发布账号标识的审核等级;63.数据更新模块,用于当所述审核等级大于预设的等级阈值时,将所述发布账号标识增加至多媒体参考数据。64.在一些实施例中,该第十确定模块还用于:65.获取所述历史多媒体数据的互动信息,所述互动信息包括浏览次数,点赞数,分享数;66.基于所述浏览次数、所述点赞数和分享数确定所述发布账号标识的审核等级。67.本技术实施例提供一种数据调度分发设备,包括:68.存储器,用于存储可执行指令;69.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的方法。70.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的方法。71.本技术实施例提供一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据调度分发方法。72.本技术实施例具有以下有益效果:73.在获取待分发的多媒体数据之后,获取从网络上爬取得到的多个多媒体参考数据,该多个多媒体参考数据可以是最新的热门多媒体数据,还可以包括优质发布账号标识,之后将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果,当基于匹配结果确定所述多媒体数据满足加速分发条件时,获取所述多媒体数据的当前处理状态,基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发,如此当待发布的多媒体数据与多媒体参考数据的内容匹配或者是优质发布账号发布的多媒体数据时,会调整该多媒体数据的调度策略,以使得该多媒体数据能够被优先分发,不仅能够实现优质内容的快速定位,还能够使得优质内容或者优质创作者创作的内容能够在更短的时延迟内被启用和加速分发,有效降低内容处理耗时。附图说明74.图1为相关技术中内容审核和处理系统的结构示意图;75.图2为本技术实施例提供的数据调度分发系统的网络架构示意图;76.图3为本技术实施例提供的服务器的结构示意图;77.图4为本技术实施例提供的数据调度分发方法的一种实现流程示意图;78.图5为本技术实施例提供的数据调度分发方法的再一种实现流程示意图;79.图6为本技术实施例提供的数据调度分发的另一种实现流程示意图;80.图7为本技术实施例提供的基于内容向量匹配的数据调度分发系统的结构示意图;81.图8为本技术实施例提供的网络爬虫及解析服务的能力构成示意图;82.图9为本技术实施例提供的相似匹配服务的实现功能示意图;83.图10为本技术实施例提供的利用孪生网络生成向量的示意图。具体实施方式84.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。85.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。86.在以下的描述中,所涉及的术语“第一第二第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一第二第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。87.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。88.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。89.1)文章,可以是指自媒体开一个公众号后主动编辑发布的、推荐给用户阅读的文章,可能会包含视频或图片;90.2)专业生产内容(pgc,professional generated content),互联网术语,用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。也称为ppc(professionally-produced content)。91.3)多频道网络(mcn,multi-channel network),将pgc内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。92.4)用户原创内容(ugc,user generated content),是伴随着以提倡个性化为主要特点的web2.0概念而兴起的。它并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重。93.5)专业用户原创内容(pugc,professional user generated content),是以ugc形式,产出的相对接近pgc的专业音频内容。94.6)终端程序,运行在终端上的即时通讯、社交平台等各种可接受消息及feeds流信息的应用。95.7)服务端,部署在多组服务器上、专门为终端程序提供远程网络服务的服务器程序。96.8)消息来源(feeds),又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源,是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,timeline是feed最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为rss阅读器、feed阅读器、新闻阅读器等。97.9)机器学习(ml machine learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。98.10)深度学习,深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。99.11)短视频,即短片视频,是一种互联网内容传播方式,一般是在互联网新媒体上传播的时长在5分钟以内的视频传播内容;随着移动终端普及和网络的提速,短平快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。100.12)感知哈希算法(perceptual hash algorithm),包括ahash、phash、dhash。感知哈希不是以严格的方式计算hash值,而是以更加相对的方式计算哈希值,因为“相似”与否,就是一种相对的判定。ahash:平均值哈希。速度比较快,但是常常不太精确;phash:感知哈希。精确度比较高,但是速度方面较差一些。dhash:差异值哈希。精确度较高,且速度也非常快。因此选择了dhash作为快速一路单张图片判重算法,是和大规模应用。101.为了更好地理解本技术实施例提供的多媒体数据处理方法,首先将相关技术中对多媒体数据进行处理从而实现多媒体数据发布的实现方式以及存在的缺点进行说明。102.社交网络源自网络社交,网络社交的起点是电子邮件。互联网本质上就是计算机之间的联网,早期的电子邮件(e-mail)解决了远程的邮件传输的问题,至今它也是互联网上最普及的应用,同时它也是网络社交的起点。bbs则更进了一步,把“群发”和“转发”常态化,理论上实现了向所有人发布信息并讨论话题的功能(疆界是bbs的访问者数量)。成为早期的互联网内容自发产生的平台。最近由于智能手机的全面普及,wi-fi设施的无处不在,4g资费的普遍降低,5g时代的即将来临,在当下移动互联网时代的强语境下,用户接受信息的需求,正在从图文时代向视频化时代过渡。因此,短视频将逐渐成为移动互联网的主导内容形态之一,在一定程度上替代图文内容消费,并在新闻、社交平台等图文媒体中逐渐取得主导地位。这些内容通常以feeds流形式展示出来供用户快速刷新,facebook首页的news feed可以看做一个新型聚合器,订阅源的是你的好友或follow的公众人物,内容是他们公开发布的动态。当好友数量较多且活跃时,就可以收到不断更新的内容,这是们最常见的feed形式。微博、知乎也类似。时间是feed所遵循的终极维度,因为内容的更新是不断向服务器发出请求的结果。timeline是feed最原始最直觉也最基本的展示形式,如果说有更好的,那也是在timeline的基础上做设计。103.短视频是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容,几秒到几分钟不等。内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题。由于内容较短,可以单独成片,也可以成为系列栏目。不同于微电影和直播,短视频制作并没有像微电影一样具有特定的表达形式和团队配置要求,具有生产流程简单、制作门槛低、参与性强等特点,又比直播更具有传播价值,超短的制作周期和趣味化的内容对短视频制作团队的文案以及策划功底有着一定的挑战,优秀的短视频制作团队通常依托于成熟运营的自媒体或ip,除了高频稳定的内容输出外,也有强大的粉丝渠道;短视频的出现丰富了新媒体原生广告的形式。目前短视频从一开始的ugc、pgc、用户上传,到专门制造短视频的机构,到mcn,再到专业的短视频app等众多头部流量平台不断崛起,短视频已经成为内容创业和社交媒体平台的重要传播方式之一。短视频在引发了内容创业者的狂欢,冲击着视频媒体平台的同时,其影响力进一步升级,各大资讯平台也展开了一场围绕短视频的争夺战。所以各种各样的短视频内容原来越多也越来越丰富。无论是短视频内容的生产者还是消费者都成为一个巨大的群体。104.传统数据库由包含符号信息的结构表组成。比方说,一个图像集,会用每行放一张索引照片的列表来表示。每一行都包含诸如图像标识和描述语句等信息。每一行也可与其他表格的条目关联,比如照片与人名列表相关联。很多ai工具都会产生高维矢量,比如像词到向量(word2vec)这样的文本嵌入工具,以及用深度学习训练的cnn描述符(descriptors)。这些表示比固定的符号表示更加强大灵活。但是,用sql来检索的传统数据库并没有适配这些新型向量表示,是的效率非常低。首先,海量的新多媒体流创造了数十亿的矢量。其次,而且更重要的是,找到相似的条目意味着找到相近的高维矢量。而对于当下的标准检索语言莱索,这是极度低效、甚至无法实现的。对于相似性搜索和分类,需要以下操作:给定检索矢量,return在欧几里得距离上最接近这个矢量的数据库对象列表,给定检索矢量,return有最高向量点积的数据库对象列表。传统的sql数据库系统可用性不高,因为它们是为hash-based searches或1d interval searches而优化。105.faiss是facebook ai团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法,以及用于算法评估和参数调整的支持代码。faiss库包含相似性搜索的多种方法,核心模块包括高性能聚类、主成分分析pca、乘积量化pq。它假设实例被表示为向量,并用整数标识,同时向量可以与l2距离或点积进行比较。与查询向量类似的向量是那些与查询向量具有最低l2距离或具有最高点积的向量。它还支持余弦相似性,因为这是归一化向量上的点积。也就是说faiss中采用的相似度计算方法主要是两种:欧式距离和点积。在此对点积进行说明下,当向量归一化之后,两个向量的余弦相似度与其点积保持一致。faiss采用的关键技术包括:openmp、堆排序、pq算法、倒排索引、kmeans聚类算法、主成分分析(pca)。106.faiss专门为内存的使用和速度而优化,为相关索引方法提供了最前沿的gpu执行方案。一旦这些矢量被学习机提取出来(从图像、视频、文本文件或其他渠道),它们就已经可以被输入进相似性搜索库。如果牺牲一部分精确度,相似性搜索的速度可以有数个数量级的提升。例如,对图像相似性搜索的第一和第二个结果进行交换,或许不会有什么区别,因为它们很可能都是某个给定检索的正确答案。加速搜索意味着要对数据集进行一些预处理,facebook把这成为索引。通常faiss用作底层向量检索的基础组件、107.从内容生产到内容分发过程,需要经过一个必要的内容审核系统。由于视频内容的安全和质量直接关系到平台的生死和用户的体验及相关的社会责任,所以相关企业都非常重视。目前主流的技术审核流程当中,内容审核常分为两个系统,一个是政治内容审核系统,一个其他内容系统审核。在内容产生之后,在内容分发之前,需要利用如图1所示的内容审核和处理系统111进行内容审核和处理。108.企业对于其他的审核条件会根据企业的运营需求调整宽松程度,甚至打擦边球。但对于政治审核来讲,没有企业甘愿冒此风险。内容审核系统基本上就是根据不同国家法律法规,外加地方网监法律法规等监管部门的政策规定,进行审核的。对于其他审核内容,目前在视频领域如果纯粹依靠人工,一个审核效率,另外一个就是巨大的审核成本,所以目前主流的技术是通过相关机器学习算法对审核内容做预处理和提示,前置阶段机器处理先过滤掉明显违反法律的内容,然后结合和人工结合起来在做二次过滤审核。对于视频内容,根据内容不同,如直播、短视频、个人上传的视频,视频是画面与音频组成的以帧为单位的画面,对于音频常存在音画不同步等问题。在视频处理上面,通常采用截帧上传服务器数据对比来识别。其审核模式与图片审核相同,会判断场景(外室外还是室内)、会判断人脸(画面中出现的人是否是明星或者政治)、会判断是否色情(根据画面图片的裸露状态,可为正常、性感、色情等不同维度)。以视频流为主的app,对视频内容的审核往往通过机器的方式进大量的审核筛检,画面中存在的严重血腥、暴恐、色情、政治新闻等危害画面内容会优先被过滤掉,而那些不以直接性的画面展示的内容机器难以审查出来。目前主流审核流程可以理解算法+人工辅助,辅助的主要方法就是算法给人工以提示,比如视频清晰度情况,是不是热点视频,视频标题标题党程度,是否含有擦边球内容;还有就是对原始视频当中的音频内容进行抽取,识别音频当中的是否含有非法信息,对于无营养,标题党,内容描述不客观,内容逻辑错误主要依靠人工自己经验和实现确定的标准,实际效果很难保证。109.相关技术中多媒体审核方案的缺点包括以下几种:110.第一、人工审核一方面需要增加很多成本,另外一方面效率也不够,无法保证投网络头部热门和优质创作者的内容快速审核通过,整个链路的处理时间过长,尤其对于热点内容;111.第二、无法及时掌握全网优质自媒体作者生产的优质内容,在信息流内容生态当中的覆盖与针对性的扶植,比如审核加权提速和加权分发;112.第三、内容推荐阶段,迫切希望以优质内容来建设用户口碑,提升用户粘性和使用时长等关键指标,由于推荐分发的不均匀,优质内容部分所起到的作用会更加突入,没法量化和监控平台优质内容和全网优质内容的占比和覆盖情况,无法针对已经引入的优质的内容进行加速处理。113.基于以上问题,本技术实施例提供一种多媒体数据处理方法、装置、设备和计算机可读存储介质,能够针对网络平台的优质头部内容,在内容引入阶段,内容处理和内容分发阶段进行针对性的挖掘,处理和加速。114.下面说明本技术实施例提供的多媒体数据处理设备的示例性应用,本技术实施例提供的设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。115.参见图2,图2为本技术实施例提供的数据调度分发系统100的网络架构示意图,如图2所示,该网络架构包括内容生产终端200、网络300、服务器400和内容消费终端500,其中,内容生产终端200和内容消费终端500分别通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。116.用户通过内容生成终端200确定待发布的多媒体数据,该多媒体数据可以是通过内容生成终端200录制短视频或者小视频,也可以通过内容生成终端编辑的文章等,还可以是获取本地存储的图文内容或者视频,然后内容生成终端200响应于数据发布指令,将待发布的多媒体数据发送至服务器400,服务器400在接收到待发布的多媒体数据之后,存储至多媒体数据库,并获取预先从网络上爬取出的优质多媒体参考数据,然后将待发布的多媒体数据和优质的多媒体参考数据进行匹配,并在待发布的多媒体数据满足加速分发条件的情况下,对多媒体数据进行优先调度分发,并下发到内容消费终端500。117.服务器400可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。内容生产终端200、内容消费终端500可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、可穿戴设备、车载计算机等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例中不做限制。118.参见图3,图3为本技术实施例提供的服务器400的结构示意图,图3所示的服务器400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。119.处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。120.用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。121.存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。122.存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only memory),易失性存储器可以是随机存取存储器(ram,random access memory)。本技术实施例描述的存储器450旨在包括任意适合类型的存储器。123.在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。124.操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;125.网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等;126.呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);127.输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。128.在一些实施例中,本技术实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的数据调度分发装置455,其可以是程序和插件等形式的软件,包括以下软件模块:第一获取模块4551、相似度匹配模块4552、第二获取模块4553和策略调整模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。129.将在下文中说明各个模块的功能。130.在另一些实施例中,本技术实施例提供的装置可以采用硬件方式实现,作为示例,本技术实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本技术实施例提供的数据调度分发方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field-programmable gate array)或其他电子元件。131.为了更好地理解本技术实施例提供的方法,首先对人工智能、人工智能的各个分支,以及本技术实施例提供的方法所涉及的应用领域进行说明。132.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。133.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本技术实施例提供的方案主要涉及人工智能的机器学习技术,以下对该项技术进行说明。134.机器学习(ml,machine learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。135.人工智能云服务,一般也被称作是ai即服务(aiaas,ai as a service)。这是目前主流的一种人工智能平台的服务方式,具体来说aiaas平台会把几类常见的ai服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个ai主题商城:所有的开发者都可以通过api接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的ai框架和ai基础设施来部署和运维自己专属的云人工智能服务,在本发明实施例提供的信息推荐方法中,可以通过人工智能云服务提供的ai框架和ai基础设施来部署和运维数据调度分发系统。136.将结合本技术实施例提供的服务器的示例性应用和实施,说明本技术实施例提供的数据调度分发方法。137.参见图3,图3为本技术实施例提供的数据调度分发方法的一种实现流程示意图,该数据调度分发方法应用于服务器,以下将结合图3示出的步骤进行说明。138.步骤s101,获取待分发的多媒体数据,并获取从网络上爬取得到的多个多媒体参考数据。139.这里,待分发的多媒体数据可以是视频数据,还可以是图文数据,当然也可以是仅包括文字的数据。在一些实施例中,当用户通过自身的终端(也即其他实施例中的内容生成终端)录制视频或者编辑文章,从而得到待发布的多媒体数据,并将该多媒体数据上传至服务器以请求发布,服务器在接收到该多媒体数据后,将该多媒体数据存储至内容数据库,并加入待分发多媒体数据队列,服务器的调度中心服务根据预设的调度规则从待分发多媒体数据队列中调度出待分发的多媒体数据。140.多媒体参考数据可以是从网络上爬取得到的热度高或者优质的多媒体数据,在一些实施例中,多媒体参考数据还可以保证优质发布者的账号信息。141.步骤s102,将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果。142.这里,步骤s102在实现时,可以是获取多媒体数据的属性信息和多媒体数据本身的向量,并且获取多媒体参考数据的属性信息和多媒体参考数据本身的向量,然后将两者的向量进行相似度计算,以确定是否存在与该多媒体数据满足匹配条件的多媒体参考数据,从而得到匹配结果。多媒体数据的属性信息可以至少包括标题信息,在一些实施例中,该属性信息还可以包括封面图。143.在一些实施例中,步骤s102在实现时,可以是将多媒体数据的发布账号标识和多媒体参考数据中的发布账号标识进行比对,当多媒体数据的发布账号标识与多媒体参考数据中的某一发布账号标识相同时,得到匹配成功的匹配结果。144.步骤s103,当基于匹配结果确定所述多媒体数据满足加速分发条件时,获取所述多媒体数据的当前处理状态。145.当是对多媒体数据和多媒体参考数据进行向量匹配,得到匹配成功的匹配结果时,说明多媒体数据与一个或者多个多媒体参考数据相似,此时需要进行进一步地精确匹配,当多媒体数据为视频数据时,还需要对该多媒体数据和与之匹配的一个或多个多媒体参考数据的音频进行校验,以保证该多媒体数据满足加速分发条件;当是通过匹配多媒体数据的发布账号标识得到的匹配结果时,当匹配结果为匹配成功时即认为该多媒体数据满足加速分发条件。146.多媒体数据的当前处理状态可以包括人工审核状态、机器审核状态和禁用状态。147.步骤s104,基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发。148.这里,当当前处理状态为人工审核状态时,说明该多媒体数据处于人工审核队列,由于人工审核速度较慢,需要等待的时间长,此时可以将多媒体数据的调度策略调整为先发后审,从而加速调度分发;如果当前处理装置为机器审核状态,说明该多媒体数据处于机器审核队列,此时可以提高多媒体数据的处理优先级,对该多媒体数据进行优先审核,以缩短机器审核时间,同样能够加速调度分发;如果多媒体数据的当前处理状态为禁用状态,将该多媒体数据更新为启用状态,以进行后续的审核、分发过程。149.在本技术实施例提供的数据调度分发方法中,在获取待分发的多媒体数据之后,获取从网络上爬取得到的多个多媒体参考数据,该多个多媒体参考数据可以是最新的热门多媒体数据,还可以包括优质发布账号标识,之后将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果,当基于匹配结果确定所述多媒体数据满足加速分发条件时,获取所述多媒体数据的当前处理状态,基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发,如此当待发布的多媒体数据与多媒体参考数据的内容匹配或者是优质发布账号发布的多媒体数据时,会调整该多媒体数据的调度策略,以使得该多媒体数据能够被优先分发,不仅能够实现优质内容的快速定位,还能够使得优质内容或者优质创作者创作的内容能够在更短的时延迟内被启用和加速分发,有效降低内容处理耗时。150.在一些实施例中,图3所示的步骤s102可以有两种实现方式,一是将多媒体数据的属性信息和多媒体数据本身和多媒体参考数据的属性信息及多媒体参考数据进行相似度匹配;二是将多媒体数据的发布账号标识和多媒体参考数据中的发布账号标识进行匹配,以下对这两种方式分别进行说明。151.当以第一种方式实现时,步骤s102“将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果”可以通过以下步骤实现:152.步骤s1021a,获取所述多媒体数据的属性信息,并获取所述多个多媒体参考数据的属性信息。153.这里,属性信息包括标题信息,在一些实施例中,该属性信息还包括封面图,当多媒体数据具有描述信息时,该属性信息还包括描述信息,这里的描述信息可以是视频内容或者文章内容的简介,描述信息和标题信息一般为为文本信息,封面图为图像信息。154.步骤s1022a,对所述多媒体数据的属性信息和所述多媒体数据进行向量化处理,得到多媒体数据的第一标题向量和第一多媒体向量。155.步骤s1022a在实现时,可以是基于属性信息和多媒体数据的类型对多媒体数据的属性信息和多媒体数据本身进行向量化处理,例如当多媒体数据为包括图像和文字的文章时,属性信息包括标题信息、描述信息和封面图,多媒体数据包括图像和正文文字,对于标题、描述信息可以利用simhash算法生成对应的标题向量和描述向量,对于图像和正文可以利用双塔神经网络模型进行向量生成,通过该双塔神经网络模型可以将图像和正文映射到同一个向量空间,并且能够在该向量空间的图像向量和正文向量,如果多媒体数据为包括图像和正文的文章,此时图像向量和正文向量构成该多媒体数据的第一多媒体向量;当多媒体数据为视频时,可以首先对视频文件抽帧,然后通过视频帧来构建视频的语义指纹向量,从而得到第一多媒体向量。156.步骤s1023a,对所述多个多媒体参考数据的属性信息和所述多媒体参考数据进行向量化处理,得到所述多个多媒体参考数据的第二标题向量和第二多媒体向量。157.步骤s1023a在实现时,与步骤s1022a的实现过程是类似的,通过对多媒体参考数据的属性信息和多媒体参考数据本身进行向量化处理,得到对应的第二标题向量和第二多媒体向量。如果多媒体参考数据的属性信息包括封面图、描述信息,同样会得到第二封面图向量和第二描述向量。158.步骤s1024a,分别确定所述第一标题向量和各个第二标题向量之间的各个标题相似度、所述第一多媒体向量和各个第二多媒体向量之间的各个多媒体相似度。159.由于已经得到多媒体数据的第一标题向量和第一多媒体向量以及各个多媒体参考数据的第二标题向量和第二多媒体向量之后,可以通过计算第一标题向量和各个第二标题向量之间的距离,从而确定各个标题相似度,通过计算第一多媒体向量和各个第二多媒体向量之间的距离,来确定各个多媒体相似度。160.其中两个向量之间的距离越近,说明相似度越高。161.步骤s1025a,基于所述各个标题相似度和所述各个多媒体相似度确定匹配结果。162.该步骤s1025a可以通过以下步骤实现:163.步骤sa1,基于所述各个标题相似度和所述各个多媒体相似度,确定所述多个多媒体参考数据中是否存在目标多媒体参考数据;164.这里,目标多媒体参考数据与所述多媒体数据的标题相似度小于第一相似度阈值,和/或所述目标多媒体参考数据与所述多媒体数据的多媒体相似度小于第二相似度阈值,也就是说,目标多媒体参考数据的标题或者多媒体数据本身与待分发的多媒体数据是相似的。165.步骤sa2,当所述多个多媒体参考数据中存在目标多媒体参考数据时,确定所述匹配结果为匹配成功。166.在一些实施例中,当多个多媒体参考数据中不存在目标多媒体参考数据时,说明在多媒体参考数据中没有与该待分发的多媒体数据相似的多媒体参考数据,此时,按照正常的调度策略对该多媒体数据进行机器审核、人工审核,再进行推荐分发。167.在上述的步骤s1021a至步骤s1025a中,通过对多媒体数据和多媒体参考数据进行向量化匹配,能够确定出待分发的多媒体数据是否与从网络上爬取出的热门、优质多媒体参考数据相似,从而进一步确定是否进行加速分发。168.在一些实施例中,在通过上述的步骤s1021a至步骤s1025a完成对多媒体数据和多媒体参考数据的内容相似度匹配之后,还需要通过以下步骤确定多媒体数据是否满足加速调度条件:169.步骤s201a,当所述匹配结果为匹配成功时,将所述多媒体数据的第一标题向量和第一多媒体向量和所述目标多媒体参考数据的第二标题向量和第二多媒体向量输入至训练好的神经网络模型,确定所述多媒体数据和所述目标多媒体参考数据的目标相似度。170.这里,通过上述的步骤s1021a至步骤s1025a,能够确定出待分发的多媒体数据是否与多媒体参考数据相似,可以认为是完成了召回过程,为了进行更加精确的匹配,需要将多媒体数据和目标多媒体参考数据输入至训练的好的神经网络模型,以确定多媒体数据和目标多媒体参考数据的目标相似度。171.在实际实现时,该训练好的神经网络模型可以是双塔卷积神经网络模型,172.步骤s202a,当所述目标相似度大于第三相似度阈值时,获取所述多媒体数据的第一音频数据和所述目标多媒体参考数据的第二音频数据。173.第三相似度阈值高于前述的第一相似度阈值和第二相似度阈值,以实现更精确的匹配。当多媒体数据为视频数据时,由于在上述过程中均是对标题、图像、视频帧的相似度比对,为了得到更加准确的结果,在步骤s202a中,还可以利用多媒体数据的第一音频数据和目标多媒体参考数据的第二音频数据进行进一步的验证过程。174.步骤s203a,确定所述第一音频数据和所述第二音频数据的音频相似度。175.步骤s203a在实现时,首先分别确定第一音频数据的第一音频指纹和第二音频数据的第二音频指纹,音频指纹可以是对音频数据进行快速傅立叶变换(fft,fast fourier transform)构建该音频数据对应的时间频谱图,将时间频谱图的振幅峰值作为该音频数据的音频指纹。音频指纹为一维向量,一般来说,不同时长的音频数据对应的音频指纹的长度也是不同的。之后再利用第一音频指纹和第二音频指纹确定第一音频数据和第二音频数据的音频相似度。176.步骤s204a,当所述音频相似度大于第四相似度阈值时,确定所述多媒体数据满足预设的加速分发条件。177.当音频相似度大于第四相似度阈值时,认为多媒体数据和该目标多媒体参考数据的音频也是匹配的,此时就完成了召回后的验证过程,确定该多媒体数据与目标多媒体参考数据不仅在标题、数据本身以及音频都是精确匹配的,从而确定该多媒体数据满足预设的加速分发条件,之后进入步骤s103。在一些实施例中,如果对于培训、讲座视频由于标题以及画面内容都是高度相似的,从而能够得到目标相似度是大于第三相似度阈值的,但是不同的讲师进行讲解的音频数据是相差甚远的,此时可以通过确定音频数据是否相似,从而确保最终结果的准确性。178.当以第二种方式实现时,步骤s102“将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果”可以通过以下步骤实现:179.步骤s1021b,获取所述多媒体数据的第一发布账号标识和所述多个多媒体参考数据中的第二发布账号标识。180.在用户通过内容生成终端发布多媒体数据时,会在发布请求中携带有用户的发布账号标识,该发布账号标识不同于昵称等标识,具有唯一性。多个多媒体参考数据中包括多个发布账号标识,这些发布账号标识可以是优质多媒体内容对应的发布账号。181.步骤s1022b,确定是否存在与所述第一发布账号标识相同的第二发布账号标识。182.这里,当存在与第一发布账号标识相同的第二发布账号标识时,说明该待分发的多媒体数据是由预先筛选出的优质发布者发布的,此时进入步骤s1023b;当确定不存在与第一发布账号标识相同的第二发布账号标识时,说明该待分发的多媒体数据不是由预先筛选出的优质发布者发布的,在一些实施例中,可以将该待分发多媒体数据按照正常流程进行调度分发,在一些实施例中,可以继续通过步骤s1021a至步骤s1025a确定多媒体数据的内容是否为优质内容,从而确定是否进行加速调度分发。183.步骤s1023b,当存在与所述第一发布账号标识相同的第二发布账号标识时,确定匹配结果为匹配成功。184.在一些实施例中,在通过上述的步骤s1021b至步骤s1023b完成对多媒体数据和多媒体参考数据的内容相似度匹配之后,当所述匹配结果为匹配成功时,说明该多媒体数据是由优质发布者发布的,此时直接确定所述多媒体数据满足预设的加速分发条件,之后执行步骤s103,如此能够进一步提升调度分发速率。185.在一些实施例中,所述当前处理状态包括人工审核状态、机器审核状态和禁用状态,对应地,图3所示的步骤s104“基于所述当前处理状态,调整所述多媒体数据的分发策略”可以通过以下步骤实现:186.步骤s1041,当所述当前处理状态为人工审核状态时,将所述多媒体数据的分发策略调整为先发后审策略。187.如果当前处理状态为人工审核状态时,说明该多媒体数据处于人工审核队列,由于人工审核速度较慢,需要等待的时间长,此时可以将多媒体数据的调度策略调整为先发后审。将多媒体数据的调度策略调整为先发后审也即不对该多媒体数据进行人工审核,而是直接加入到内容分发队列,并且优先进行分发,如此能够减少人工审核及人工审核等待时间,从而加速调度分发。188.步骤s1042,当所述当前处理状态为机器审核状态时,提高所述多媒体数据的处理优先级。189.如果当前处理装置为机器审核状态,说明该多媒体数据处于机器审核队列,此时可以提高多媒体数据的处理优先级,对该多媒体数据进行优先审核,以缩短机器审核时间,同样能够加速调度分发。190.步骤s1043,当所述当前处理状态为禁用状态时,将所述多媒体数据的处理状态调整为启动状态。191.如果多媒体数据的当前处理状态为禁用状态,将该多媒体数据更新为启用状态,以进行后续的审核、分发过程,从而使得优质内容不会阻塞或者过滤掉。192.在一些实施例中,对于禁用状态的多媒体数据,需要获取禁用原因,当基于禁用原因确定可以调整为启用状态时,将该多媒体数据的当前处理状态调整为启用状态,并进行后续的审核、分发过程;当基于该禁用原因确定不能调整为启用状态时,则保持该多媒体数据的当前处理状态为禁用状态。193.在一些实施例中,除了通过上述步骤s1041至步骤s1043来调整调度策略来加速调度之外,如图5所示,在步骤s104之后,还可以通过以下步骤在内容分发阶段加速内容分发速度:194.步骤s301,当所述多媒体数据满足加速分发条件时,为所述多媒体数据增加第一标记信息。195.这里,第一标记信息用于表征该多媒体数据为优质多媒体数据,该第一标记信息用于在内容分发阶段提升分发权值。196.步骤s302,获取具有所述第一标记信息的多媒体数据在内容分发阶段的初始分发权值。197.步骤s303,按照预设的权值调整规则提升所述初始分发权值,得到目标分发权值。198.这里,该权值调整规则可以是将权值乘以一个大于1的预设实数,从而得到目标分发权值,还可以是将初始分发权值加上一个预设正数,得到目标分发权值。199.步骤s304,基于所述目标分发权值,对所述具有所述第一标记信息的多媒体数据进行内容分发。200.步骤s304在实现时,201.在一些实施例中,可以通过以下步骤从网络中爬取多媒体参考数据:202.步骤s401,获取预设的目标网站和爬取策略。203.这里,预设的目标网站可以是根据内容消费端的行为数据确定的,在一些实施例中还可以获取预设的应用程序(app,application),爬取策略可以包括广度优先遍历策略、深度优先遍历策略、部分的pagerank的策略、在线页面重要性计算(opic)、大站优先策略等。204.步骤s402,利用所述爬取策略从所述目标网站爬取预设时长的多个候选多媒体数据。205.步骤s401至步骤s404可以每间隔预设时长执行一次,该预设时长可以是一天、一周等,步骤s402在实现时获取预设时长的多个候选多媒体数据是获取从当前时刻到间隔预设时长的历史时刻这一段时间内容生成终端上传的多个候选多媒体数据。206.步骤s403,获取所述多个候选多媒体数据的多个互动信息和多个发布账号标识。207.这里,互动信息包括:浏览次数,点赞数,分享数,在一些实施例中,还可以包括评论数。208.步骤s404,基于所述多个互动信息和所述多个发布账号标识,从所述多个候选多媒体数据中确定出多媒体参考数据。209.步骤s404在实现时,可以是将浏览次数是否大于第一次数阈值,和/或点赞数大于第二阈值,和/或分享数大于第三阈值的候选多媒体数据确定为多媒体参考数据,还可以是获取各个发布账号标识发布的历史多媒体数据,统计各个发布账号标识对应的历史平均浏览次数、历史平均点赞数、历史平均分享数,并将历史平均浏览次数是否大于第一次数阈值,和/或历史平均点赞数大于第二阈值,和/或历史平均分享数大于第三阈值的发布账号标识增加至多媒体参考数据。210.在一些实施例中,可以将确定出的多媒体参考数据存储至参考数据库中。211.通过上述的步骤s401至步骤s404,能够从网络中爬取到浏览次数、点赞数、分享数较高的热门、优质多媒体数据,从而为从待分发的多媒体数据中筛选出优质数据提供匹配标准。212.在一些实施例中,可以通过以下步骤确定多媒体参考数据的覆盖率,并在覆盖率较低时,通过商务拓展吸引优质发布账号进行多媒体数据的发布:213.步骤s001,确定预设时长内爬取到的多媒体参考数据的第一总数。214.步骤s002,确定所述预设时长内满足加速分发条件的多媒体数据的第二总数。215.步骤s003,基于所述第一总数和所述第二总数确定所述多媒体参考数据的覆盖率。216.这里,将第二总数与第一总数的比值确定为多媒体参考数据的覆盖率,从而实现对多媒体参考数据的覆盖率的具体量化和监控。217.步骤s004,当所述覆盖率低于预设的覆盖率阈值时,基于所述多媒体参考数据确定目标发布账号标识。218.当覆盖率低于预设的覆盖率阈值时,说明当前多媒体数据库中待分发的多媒体数据中与多媒体参考数据较少,此时为了增加网站或者app的点击率pv量,需要从多媒体参考数据中确定出人气最高的前n个发布账号标识,并将这前n个发布账号标识确定为进行商务拓展的目标发布账号标识。219.步骤s005,向所述目标发布账号标识对应的终端发送邀请信息,以邀请所述终端发布多媒体数据。220.向目标发布账号标识对应的终端发送邀请信息,在实现时,可以是首先获取目标发布账号标识对应的通讯信息,然后向该通讯信息发送邀请信息,该通讯信息可以是邮箱地址,还可以是目标发布账号本身。221.在上述步骤s001至步骤s005中,首先计算多媒体参考数据的覆盖率,以对覆盖率进行监控,并且在覆盖率较低的情况下,从热门或优质的多媒体参考数据中筛选出目标发布账号标识,并向该目标发布账号标识对应的终端发送邀请信息,以吸引优质发布账号标识对应的自媒体作者来开号和发布内容,从而增加平台的点击率和流量。222.在一些实施例中,在内容生成终端上传待发布多媒体数据时,可以通过以下步骤获取该内容生成终端的发布账号标识的历史表现,确定发布账号的审核等级,从而标记一部分优质账号,优质账号的人工审核调度优先级会更高:223.步骤s501,获取内容生成终端上传的待发布多媒体数据,并获取所述待发布多媒体数据的发布账号标识。224.步骤s502,确定能否获取到所述发布账号标识对应的历史多媒体数据。225.这里,当能够获取到所述发布账号标识对应的历史多媒体数据时,进入步骤s503,以基于历史多媒体数据确定该发布账号标识的审核等级;当不能够获取到所述发布账号标识对应的历史多媒体数据时,进入步骤s505。226.步骤s503,基于所述历史多媒体数据确定所述发布账号标识的审核等级。227.这里,步骤s503在实现时,可以是首先获取所述历史多媒体数据的互动信息,所述互动信息包括浏览次数,点赞数,分享数;然后再基于所述浏览次数、所述点赞数和分享数确定所述发布账号标识的审核等级。228.在实际应用过程中,可以预设浏览次数、点赞数和分享数与审核等级的对应关系,因此在获取到所述历史多媒体数据的互动信息之后,确定该发布账号标识对应的历史平均浏览次数、历史平均点赞数和历史平均分享数,进而基于上述的对应关系确定出发布账号标识对应的审核等级。审核等级可以包括一级、二级、三级等等,浏览次数、点赞数和分享数越高,说明该发布账号标识人气越高,此时审核等级越高。229.步骤s504,当所述审核等级大于预设的等级阈值时,将所述发布账号标识增加至多媒体参考数据。230.这里,当审核等级大于该等级阈值时,说明该发布账号标识为优质发布账号,此时将该发布账号标识增加至多媒体参考数据。在一些实施例中,由于将该发布账号标识增加至多媒体参考数据,那么此时可以认为该待发布多媒体数据满足加速分发条件,从而对该待发布多媒体数据的调度策略进行调整,从而实现加速调度分发。231.步骤s505,将初始审核等级确定为所述发布账号标识的审核等级。232.初始审核等级为预先设置好的,初始审核等级可以为一级。在步骤s505之后,按照正常的调度分发流程对该待发布多媒体数据进行调度分发。233.基于前述的实施例,本技术实施例提供一种数据调度分发方法,应用于图2所示网络架构,图6为本技术实施例提供的数据调度分发方法的另一种实现流程示意图,如图6所示,该流程包括:234.步骤s601,内容生成终端获取待发布的多媒体数据。235.这里,待发布的多媒体数据可以是用户通过内容生成终端录制的视频,还可以是编辑的公众号文章,还可以是本地存储的视频等。236.步骤s602,内容生成终端响应于发布数据的操作指令,将所述多媒体数据发送至服务器。237.在实现时,可以是内容生成终端响应于发布数据的操作指令向服务器发送发布请求,该发布请求中携带有多媒体数据,还可以携带有内容生成终端对应的发布账号标识。238.步骤s603,服务器接收到所述多媒体数据后,获取所述多媒体数据的元信息。239.这里,元信息是关于信息的信息,元信息也可以认为是多媒体数据的属性信息,例如可以是多媒体数据的大小、封面图链接、标题、发布时间、账号作者、来源渠道等等。240.步骤s604,服务器将所述元信息和所述多媒体数据存储至内容数据库,并将所述多媒体数据加入调度中心队列。241.步骤s605,服务器从调度中心队列获取待分发的多媒体数据。242.步骤s606,服务器获取获取从网络上爬取得到的多个多媒体参考数据。243.在实现时,服务器可以是从参考数据库中获取多个多媒体参考数据,在一些实施例中,参考数据库中还可以存储有多媒体参考数据的向量化标识,此时服务器可以获取多个多媒体参考数据,并获取多个多媒体参考数据的向量化标识。244.步骤s607,服务器将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果。245.步骤s608,服务器基于所述匹配结果确定所述多媒体数据是否满足加速分发条件。246.这里,当确定该多媒体数据满足加速分发条件时,进入步骤s609;当确定该多媒体数据不满足加速分发条件时,进入步骤s617。247.步骤s609,服务器获取所述多媒体数据的当前处理状态。248.当前处理状态包括但不限于是人工审核状态、机器审核状态和禁用状态。249.步骤s610,服务器基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发。250.当当前处理状态为人工审核状态时,说明该多媒体数据处于人工审核队列,由于人工审核速度较慢,需要等待的时间长,此时可以将多媒体数据的调度策略调整为先发后审,从而加速调度分发;如果当前处理装置为机器审核状态,说明该多媒体数据处于机器审核队列,此时可以提高多媒体数据的处理优先级,对该多媒体数据进行优先审核,以缩短机器审核时间,同样能够加速调度分发;如果多媒体数据的当前处理状态为禁用状态,将该多媒体数据更新为启用状态,以进行后续的审核、分发过程。251.步骤s611,服务器为所述多媒体数据增加第一标记信息。252.这里,第一标记信息用于表征该多媒体数据为优质或者热门多媒体数据。253.步骤s612,服务器获取具有所述第一标记信息的多媒体数据在内容分发阶段的初始分发权值。254.步骤s613,服务器按照预设的权值调整规则提升所述初始分发权值,得到目标分发权值;255.步骤s614,服务器基于所述目标分发权值,对所述具有所述第一标记信息的多媒体数据进行内容分发。256.这里,步骤s614在实现时,是利用目标分发权值确定多媒体数据的分发优先级,并基于该分发优先级对多媒体数据进行优先分发。257.步骤s615,服务器获取具有所述第一标记信息的多媒体数据的负反馈信息。258.这里,负反馈信息包括举报次数。由于在步骤s610中对多媒体的调整策略进行了调整,并且在人工审核状态下,还执行了先发后审的调度策略,因此为了整体控制内容分发的风险,需要对负反馈和举报信息进行监控。259.步骤s616,当所述具有所述第一标记信息的多媒体数据的举报次数达到预设的次数阈值时,服务器确定需要对所述多媒体数据进行再次审核。260.这里,当举报次数达到次数阈值时,确定需要对所述多媒体数据进行再次审核,在实现时可以是直接送人审二次确认处理,从而低和控制先发后审内容的分发风险。261.步骤s617,服务器对所述多媒体数据进行机器审核和人工审核,得到审核结果。262.步骤s618,当审核结果为审核通过时,增加至内容分发队列。263.步骤s619,服务器获取内容分发队列中的待分发多媒体数据,并确定内容消费终端,并将所述内容分发队列中的多媒体数据发送至内容消费终端。264.在本技术实施例提供的数据调度分发方法中,内容生成终端在生成待发布多媒体数据,并将该多媒体数据发送至服务器中后,服务器将该多媒体数据存储至多媒体数据库,并将该多媒体数据与多个多媒体参考数据进行匹配,该多个多媒体参考数据可以是最新的热门多媒体数据,还可以包括优质发布账号标识,当基于匹配结果确定所述多媒体数据满足加速分发条件时,获取所述多媒体数据的当前处理状态,基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发,如此当待发布的多媒体数据与多媒体参考数据的内容匹配或者是优质发布账号发布的多媒体数据时,会调整该多媒体数据的调度策略,以使得该多媒体数据能够被优先分发,不仅能够实现优质内容的快速定位,还能够使得优质内容或者优质创作者创作的内容能够在更短的时延迟内被启用和加速分发,有效降低内容处理耗时;在对多媒体数据进行优先调度分发之后,服务器会监控这些多媒体数据的负反馈信息,在负反馈信息中的举报次数达到次数阈值后,对达到次数阈值的多媒体数据进行二次审核,以降低和控制先发后审内容的分发风险,保证网络数据的合规合法性。265.下面,将说明本技术实施例在一个实际的应用场景中的示例性应用。266.本技术实施例提供一种基于内容向量匹配的数据调度方法,用于实现网络头部优质内容的加速分发,该方法应用于图7所示的系统结构,如图7所示,该系统包括:内容生成端701、上下行内容接口服务器702、内容消费端703、内容数据库704、调度中心服务705、人工审核模块706、机器审核模块707、统计上报接口及分析服务708、向量化匹配服务709、网络头部内容库710、头部内容加速调度服务711、网络爬取及解析服务712、推荐分发与内容分发出口服务713,其中最核心部分是向量化匹配服务709和头部内容加速调度服务711。267.向量化匹配服务709主要负责将信息流分发内容处理链路当中的内容包括内容的标题,封面图,内容正文和视频内容本身进行向量化,然后进行向量化检索和匹配。匹配到以后,依据这些内容在网络上总体表现的情况(例如分发量,评论量,点赞量,收藏量等互动指标),如果内容处理链路当中某个内容匹配到爬取得到的头部内容,对内容处理链路中的这些内容进行加速调度。268.对内容处理链路中的内容进行向量化并进行向量化检索和匹配的处理过程包括:269.步骤s801,网络爬取及解析服务712依据信息分发端消费内容的情况,定义爬取规则。270.该爬取规则可以包括爬取哪些网站,哪些内容来源的app。app比如资讯类的头条,微博,抖音,快手,网站是资讯门户网站比如新浪,搜狐,腾讯网,凤凰网等等。271.步骤s802,网络爬取及解析服务712依据爬取规则从互联网爬取数据。272.图8为本技术实施例提供的网络爬虫及解析服务的能力构成示意图,如图8所示,该网络爬取及解析服务提供的能力包括:可视化配置平台811、调度服务812、爬虫引擎813、智能算法814、组件化815,其中:273.通过可视化配置平台811能够配置爬取规则、爬取类型、爬取策略等,还能够查看任务信息;274.为了提升爬取的效率,通常采用多线程和多服务的方式,建立多个爬取的任务,所以需要利用调度服务812,进行自动任务管理,主要包括分布式管理、任务调度、机器检测、任务保活等。275.爬虫引擎813,能够支持全网任意复杂app抓取,在爬虫系统当中的爬虫引擎的原型可以以puppeteer为实现载体。puppeteer提供的应用程序接口(api,application programming interface)能方便地控制浏览器,实现爬虫应用、网站截屏、生成网站pdf等。主要提供两种方式:headless(无界面)、fullhead(有界面,主要是二者在请求头部和渲染方式上区别(比如被网站检测到头部信息、以及渲染环境)。爬虫引擎需要具备一定的反爬取能力(比如利用带来ip池和控制爬取频率)来模拟实际用户的登录。276.智能算法814,用于自动识别文章标题、内容,主要包括列表识别、文章标题识别、文章内容识别、视频链接抽取。277.组件化815,也即利用模块化的破解单元,支持一键接入。278.在进行内容爬取的时候,对这些内容分发的阅读数据比如阅读次数,点赞数,分享数等后验数据也一并获取,通过这些后验数据和账号信息,可以筛选出(新热、爆款、本地)条件的头部内容。279.步骤s803,头部内容调度服务读取头部内容。280.在本技术实施例中,网络爬取及解析服务712将爬取到的头部内容存储至网络头部内容库,头部内容调度服务从网络头部内容库读取头部内容。281.步骤s804,向量化匹配服务709获取内容处理链路中的各个内容,并进行向量化匹配。282.这里,图9为本技术实施例提供的相似匹配服务的实现功能示意图,如图9所示,相似匹配服务提供的功能包括数据防控901、能力矩阵902、召回检索903、提准决策904,其中:283.数据防控901,主要实现数据校验和鉴权频控;284.能力矩阵902,主要实现对内容处理链路中的内容进行向量化包括对文本内容(标题,文本正文)、封面图、视频内容本身等多种模态进行向量化。在本技术实施例中可以利用以下向量生成方法进行多模态向量化:285.一、文本局部敏感哈希(simhash,locality sensitive hashing)向量生成:用于海量文本去重的需求,利用simhash算法可以计算出一个哈希值(64位整形)。判别两篇文章是相似的方法,就是两个simhash值的距离《=3,这里距离计算采用汉明距离,也就是2个simhash做一下异或运算,数一下比特位=1的有n位,那么距离就是n。用于标题短文本去重,对于正文simhash向量做初步召回,后面通过文章的双向编码器表示(bert,bidirectional encoder representation from transformers)向量做细粒度召回。286.二、图片向量和正文语义向量生成:通过孪生网络(siamese network)又称为连体网络,网络中的连体是通过共享权值来实现,是一种特殊类型的神经网络架构,也是一种监督学习,用于度量学习。与一个学习对其输入进行分类的模型不同,如图10所示,该神经网络有两个输入(输入1001和输入1002),将两个输入feed进入两个神经网络(network1011and network1012),这两个神经网络分别将输入内容映射到新的向量空间,形成输入内容在新的空间中的向量表示。通过损失函数(loss)的计算,评价两个输入内容的相似度。损失函数loss为对比损失函数(contrastive loss),文本通过孪生网络编码为向量。这里以生成正文的语义向量和图片的语义向量进行说明。如果输入是图片,将图10当中的doc替换为图片,文本卷积神经网络(textcnn,text convolutional neural networks)网络替换为图像特征抽取的网络比如inceptionv3网络或者restnet50。但是这样计算速度很慢,工程实现上为了保证效率,通常将得到结果进行向量降维得到01向量和同时计算dhash作为单独的一路召回287.此时通过margin值的大小来设定是否重复或者相似。输入可以是正文也可以是标题,对长短文本都可以支持。288.三、文本bert向量生成:bert本质上是一个两段式的自然语言处理(nlp,natural language processing)模型。第一个阶段叫做:预训练(pre-training),与词向量(wordembedding)类似,利用现有无标记的语料训练一个语言模型。第二个阶段叫做:微调(fine-tunin)g,利用预训练好的语言模型,完成nlp下游任务。在本技术实施例中,主要用于在预处理阶段对标题和正文文本内容进行向量化,为后续的判断消重和相似关系的计算任务提供向量输入。这里主要是为了增加消重的召回量,尤其是对于语义相近的内容。289.四、视频内容向量生成,通过视频文件抽帧,然后通过视频帧来构建视频的语义指纹向量来代表视频本身,每一个视频帧都是一个单独的图片。这样视频本身也可以向量化,用户后续的视频向量消重和计算。帧——就是动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头。在动画软件的时间轴上帧表现为一格或一个标记。关键帧——相当于二维动画中的原画。指角色或者物体运动或变化中的关键动作所处的那一帧。关键帧与关键帧之间的动画可以由软件来创建,叫做过渡帧或者中间帧。图像指纹提取一个是获取通过关键帧图像,拆分为有内容重叠的小片段比如5秒,比如1秒或者2秒为重叠单位,具体和视频时长有关系。重叠越多,计算量越大,但是效果越好。主要包括均匀抽帧和变长抽帧(抽帧以关键帧为主,间隔时长不定)2种方式,每个帧相当于是一张单独的图片,然后按照图片向量处理,一个视频的向量相当于是多张图片向量拼接,拼接最简单方法是直接连接,但是这样数据量会很大,可以将时间序列上相邻近比如5到10帧合并。290.向量生成以后,基于实体框架(ef,entity framework)进行向量化匹配,底层是fasis实现,构建了通用的相似匹配服务。在实现时,向量化匹配服务709对于爬取到的外部内容和信息流平台已经入库的内容进行向量化的内容匹配。如图9所示,在匹配计算召回以后,通过图文和视频的孪生网络进行更高准确性的相似判断,对于视频内容,同时抽取视频的音频指纹作为辅助特征进行二次校验已进行提准决策,从而确保最终结果的准确性。尤其是对于一些讲座类和培训类的视频,视频画面和任务非常接近,但是音频内容有很大的差异,这样就能够很好匹配和区分。291.如果是无法定位到的内容,说明这些内容还没有被引入,此时可以通过内容进行源头引入,也即通过是业务的商务拓展(bd,business development),吸引自媒体作者来开号和发布内容。对于内容库中能够匹配到的内容,利用头部内容加速调度服务进行加速调度,以保证这些内容尽可能不被内容处理链路处理积压或者被过滤掉。292.在一些实施例中,还可以通过日均爬取的头部内容和内容库中匹配到的内容来衡量信息流分发平台头部内容的覆盖率,同时通过监控这批内容的链路处理效率来量化平台内容的覆盖情况。293.步骤s805,头部内容加速调度服务进行加速调度。294.头部内容加速调度服务第一时间依据匹配到内容的当前处理状态(机器处理,人工排队,禁用),调整链路处理的调度策略:如果是处于人工排队状态则人审加速,在实现时可以采用先发后审,直接进入内容分发加速分发;如果是机器处理状态,则加速机器处理,在实现时可以插入机器处理的高优先级队列;如果是禁用状态,可以重新启用。如此,针对向量化匹配到的头部内容进行提权审核,提升启用率和启用量。295.为了整体控制内容分发的风险,对于这部分内容通过数据监控在端分发的情况,尤其是负反馈和举报信息,如果风险达到一定的阀值,直接送人审二次确认处理。296.针对机审过滤和人审过滤的漏斗原因,利用头部内容加速调度服务能够提升头部匹配内容处理的准确率,降低链路误杀,还能够优化相似度去重能力,提高相似度计算准确率,降低头部匹配内容被“链路去重”误差的比例。297.另外,对应网络头部内容,还可以复核先发后审的账号,调度时候采用先发后审能力,降低链路处理耗时;否则通过人审审核提权,分配更高的审核调度优先级,降低链路处理耗时;这些头部内容启用也增加对应的内容标记,推荐侧进行冷启动加权曝光,提升整个头部内容分发的效果和优先级,让头部优质创作者的内容能够在更短的时延迟内被启用和加速分发。298.在本技术实施例中,还可以获取向量化匹配到的头部内容在大盘分发过程中的页面浏览量(pv,page view)和视频播放数(vv,video view)及消费时长占比,以度量头部内容最终加速分发的效果。299.以下结合图7对多媒体处理系统中各个服务模块的功能及多媒体处理过程进行说明。300.pgc或者ugc,mcn或者pugc的内容生产者,通过内容生成端701(移动端或者后端接口api系统),提供本地或者web发布系统提供的图文内容或者上传视频内容包括短视频和小视频,这些都是分发内容的主要内容来源;内容生成端701通过和上下行内容接口服务器702的通讯,先获取上传服务器接口地址,然后再发布内容。301.上下行内容接口服务器702,和内容生成端701直接通讯,在接收到内容生成端701提交的内容后,获取内容的标题、发布者、摘要、封面图、发布时间等,并将内容存储至内容数据库705。上下行内容接口服务器702依据发布者的账号来源,通过运营的配置设定账号的初审账号等级,可以标记一部分优质账号,这个主要是和运营策略密切相关的,优质账号的人工审核调度优先级会更高;同时给统计上报接口及分析服务708上报每个账号的发文流水信息,包括发文时间,内容类型,并把自媒体提供内容标记信息比如分类,标签,选择的封面图,标题作为扩展信息保存在内容数据库当中。302.内容消费端703和上下行内容接口服务器702直接通讯,获取访问内容的索引信息,然后和上下行内容接口服务器702和内容出口服务通讯直接消费内容,消费的前提通过feeds推荐分发获得内容的索引。303.在一些实施例中,feeds及用户点击行为和环境上报模块,收集用户当前网络环境及用户对feeds中间信息的点击操作行为和feeds内容的曝光数据,上报给统计上报接口服务器;如果是视频内容,还会上报视频的实际播放时长,缓存时间及内容的各种互动行为比如评论,转发,分享,收藏,点赞等,负向行为比如举报和负反馈行为。304.内容数据库704,为内容的核心数据库,所有内容生产者发布内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信息,比如大小、封面图链接、标题、发布时间、账号作者、来源渠道、入库时间,还包括人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是华为,mate30)。人工审核过程当中会会读取内容数据库705当中的信息,同时人工审核的结果和状态也会回传进入内容数据库705进行保存。305.在本技术实施例提供的多媒体数据处理流程当中,对内容数据库704中的各个内容的处理主要包括机器处理和人工审核处理,比如图文排重服务器会依据业务需求加载过去一段时间(如一周,视频内容的有效期更长比如3个月)已经入库启用的内容,对于重复入库的内容将加上过滤标记不再提供给内容推荐服务输出到用户。306.调度中心705,负责内容流转的整个调度过程,通过上下行内容接口服务器接收入库的内容,然后从内容数据库中获取内容的元信息;调度机器审核模块,包括黄、赌、毒、政治敏感触犯法律底线的内容打击和过滤及内容重复的处理;对于不满足先发后审筛选条件的内容,比如安全问题需要人工审核的,调用人工审核系统进行人工审核的处理,也就是先审后发机制。307.人工审核模块706,读取内容数据库中视频内容本身的原始信息,通常是一个业务复杂的基于web数据库开发的系统,主要是确保推送的内容符合当地法律和政策允许的访问,比如是否涉及色情,赌博,政治敏感的特性进行一轮初步过滤;接收统计上报接口及分析服务推送的需要人工复核的内容,包括来负反馈和举报统计的需要复核的内容,降低和控制先发后审内容的分发风险;人工审核的结果最后通过调度中心,写入内容数据库当中。308.机器审核模块707,用于自动过滤包括黄,赌,毒,政治敏感触犯法律底线的内容和对重复内容进行处理。309.统计上报接口及分析服务708,和内容消费端702通讯,用于接收内容消费端703的当前网络环境及用户对feeds中间信息的点击操作行为和feeds文章的曝光数据的上报,例如接收上报针对内容进行评论的ugc短文本,点赞,转发,收藏等互动信息,同时也把内容消费端703对这些内的举报和负反馈,然后对负反馈和举报信息按照内容进行实时统计,查过一定阀值和次数的推送给人工审核系统进行复核。310.向量化匹配服务709,用于依据上述的步骤和过程,对内容进行向量化的标识学习,包括文本内容(标题,文本正文),封面图,视频内容本身进行向量化,同时构建向量化索引库;对爬取和解析得到网络头部内容与向量化索引库当中的当前正在处理的内容进行匹配,从而加速匹配到这些头部内容的链路处理,提升效率和启用率。311.网络头部内容库710,用于存储网络爬取及解析服务712爬取到的网络头部内容,并且能够与头部内容加速调度服务通讯,提供原始的网络头部内容库,作为链路头部内容匹配的依据来源,相当于利用网络外部的信息牌度量系统对头部内容的处理和覆盖情况。312.头部内容加速调度服务711,和网络头部内容库710及向量化匹配服务709通讯,并基于上面描述的处理流程和策略独立运行,依据匹配到内容的状态,调整链路处理的调度策略,包括人审加速和分发提权,从而实现加速调度。313.网络爬取及解析服务712,依据上述的网络爬虫及解析服务的能力构成,依据需要爬取内容来源的目标网站,支持不同的端,依据配置的规则将爬取解析得到的内容写入头部内容库711;314.推荐分发与内容分发出口服务713,通常是一组地域上就近部署在用户附近的接入服务,与推荐分发系统通讯,获取推荐分发的结果,并将分发结果下发到内容消费端703,并展示在用户的feeds列表当中;315.本技术实施例提供一种基于内容向量匹配的网络头部优质内容的加速分发方法和系统,在内容引入阶段爬取各种资讯平台的头部内容,然后通过头部内容的向量化与信息流系统当前入库内容的进行向量化匹配,找到系统当中已经入库在处理过程当中的头部内容,同时监控和计算这些头部内容的覆盖率,然后针对头部内容在内容处理过程当中机器、人审的提权加速和机器审核的准确率提升,包括针对机审过滤和人审过滤的不启用过滤原因,提升匹配到内容处理的准确率和加速审核,降低内容处理链路误杀和处理耗时;最后在内容分发阶段,对头部优质内容进行一定加权匹配,加速优质内容的冷启动。通过本技术实施例,能够在降低人力审核的投入,在相同人力投入的情况下,能够大幅度增加推荐池优质网络头部内容的启用量;同时能够网络头部资讯内容在平台的覆盖率和内容处理效率包括覆盖率和处理时效有效监控起来,量化优化;同时也能够让头部优质创作者的内容能够在更短的时延迟内被启用和加速分发,有效降低内容处理耗时,对信息流内容创作和分发的生态起到巨大的推动作用。316.下面继续说明本技术实施例提供的数据调度分发装置455的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器440的数据调度分发装置455中的软件模块可以包括:317.第一获取模块4551,用于获取待分发的多媒体数据,并获取从网络上爬取得到的多个多媒体参考数据;318.相似度匹配模块4552,用于将所述多媒体数据和所述多个多媒体参考数据进行相似度匹配,得到匹配结果;319.第二获取模块4553,用于当基于匹配结果确定所述多媒体数据满足加速分发条件时,获取所述多媒体数据的当前处理状态;320.策略调整模块4554,用于基于所述当前处理状态,调整所述多媒体数据的调度策略,以加速对所述多媒体数据的调度分发。321.在一些实施例中,该相似度匹配模块,还用于:322.获取所述多媒体数据的属性信息,并获取所述多个多媒体参考数据的属性信息,所述属性信息包括标题信息;323.对所述多媒体数据的属性信息和所述多媒体数据进行向量化处理,得到多媒体数据的第一标题向量和第一多媒体向量;324.对所述多个多媒体参考数据的属性信息和所述多媒体参考数据进行向量化处理,得到所述多个多媒体参考数据的第二标题向量和第二多媒体向量;325.分别确定所述第一标题向量和各个第二标题向量之间的各个标题相似度、所述第一多媒体向量和各个第二多媒体向量之间的各个多媒体相似度;326.基于所述各个标题相似度和所述各个多媒体相似度确定匹配结果。327.在一些实施例中,该相似度匹配模块,还用于:328.基于所述各个标题相似度和所述各个多媒体相似度,确定所述多个多媒体参考数据中是否存在目标多媒体参考数据;329.所述目标多媒体参考数据与所述多媒体数据的标题相似度小于第一相似度阈值,和/或所述目标多媒体参考数据与所述多媒体数据的多媒体相似度小于第二相似度阈值;330.当所述多个多媒体参考数据中存在目标多媒体参考数据时,确定所述匹配结果为匹配成功。331.在一些实施例中,该装置还包括:332.第一确定模块,用于当所述匹配结果为匹配成功时,将所述多媒体数据的第一标题向量和第一多媒体向量和所述目标多媒体参考数据的第二标题向量和第二多媒体向量输入至训练好的神经网络模型,确定所述多媒体数据和所述目标多媒体参考数据的目标相似度;333.第三获取模块,用于当所述目标相似度大于第三相似度阈值时,获取所述多媒体数据的第一音频数据和所述目标多媒体参考数据的第二音频数据;334.第二确定模块,用于确定所述第一音频数据和所述第二音频数据的音频相似度;335.第三确定模块,用于当所述音频相似度大于第四相似度阈值时,确定所述多媒体数据满足预设的加速分发条件。336.在一些实施例中,该相似度匹配模块,还用于:337.获取所述多媒体数据的第一发布账号标识和所述多个多媒体参考数据的第二发布账号标识;338.确定是否存在与所述第一发布账号标识相同的第二发布账号标识;339.当存在与所述第一发布账号标识相同的第二发布账号标识时,确定匹配结果为匹配成功;340.对应地,该装置还包括:341.第四确定模块,用于当所述匹配结果为匹配成功时,确定确定所述多媒体数据满足预设的加速分发条件。342.在一些实施例中,所述当前处理状态包括人工审核状态、机器审核状态和禁用状态,对应地,该策略调整模块,还用于:343.当所述当前处理状态为人工审核状态时,将所述多媒体数据的分发策略调整为先发后审策略;344.当所述当前处理状态为机器审核状态时,提高所述多媒体数据的处理优先级;345.当所述当前处理状态为禁用状态时,将所述多媒体数据的处理状态调整为启动状态。346.在一些实施例中,该装置还包括:347.标记模块,用于当所述多媒体数据满足加速分发条件时,为所述多媒体数据增加第一标记信息;348.第四获取模块,用于获取具有所述第一标记信息的多媒体数据在内容分发阶段的初始分发权值;349.权值提升模块,用于按照预设的权值调整规则提升所述初始分发权值,得到目标分发权值;350.内容分发模块,用于基于所述目标分发权值,对所述具有所述第一标记信息的多媒体数据进行内容分发。351.在一些实施例中,该装置还包括:352.第五获取模块,用于获取预设的目标网站和爬取策略;353.数据爬取模块,用于利用所述爬取策略从所述目标网站爬取预设时长的多个候选多媒体数据;354.第六获取模块,用于获取所述多个候选多媒体数据的多个互动信息和多个发布账号标识,所述互动信息包括:浏览次数,点赞数,分享数;355.第五确定模块,用于基于所述多个互动信息和所述多个发布账号标识,从所述多个候选多媒体数据中确定出多媒体参考数据。356.在一些实施例中,该装置还包括:357.第七获取模块,用于获取具有所述第一标记信息的多媒体数据的负反馈信息,所述负反馈信息包括举报次数;358.审核模块,用于当所述具有所述第一标记信息的多媒体数据的举报次数达到预设的次数阈值时,确定需要对所述多媒体数据进行再次审核。359.在一些实施例中,该装置还包括:360.第六确定模块,用于确定预设时长内爬取到的多媒体参考数据的第一总数;361.第七确定模块,用于确定所述预设时长内满足加速分发条件的多媒体数据的第二总数;362.第八确定模块,用于基于所述第一总数和所述第二总数确定所述多媒体参考数据的覆盖率;363.第九确定模块,用于当所述覆盖率低于预设的覆盖率阈值时,基于所述多媒体参考数据确定目标发布账号标识;364.发送模块,用于向所述目标发布账号标识对应的终端发送邀请信息,以邀请所述终端发布多媒体数据。365.在一些实施例中,该装置还包括:366.第八获取模块,用于获取内容生成终端上传的待发布多媒体数据,并获取所述待发布多媒体数据的发布账号标识;367.第十确定模块,用于当能够获取到所述发布账号标识对应的历史多媒体数据时,基于所述历史多媒体数据确定所述发布账号标识的审核等级;368.数据更新模块,用于当所述审核等级大于预设的等级阈值时,将所述发布账号标识增加至多媒体参考数据。369.在一些实施例中,该第十确定模块还用于:370.获取所述历史多媒体数据的互动信息,所述互动信息包括浏览次数,点赞数,分享数;371.基于所述浏览次数、所述点赞数和分享数确定所述发布账号标识的审核等级。372.这里需要指出的是:以上数据调度分发装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果。对于本技术数据调度分发装置实施例中未披露的技术细节,本领域的技术人员请参照本技术方法实施例的描述而理解。373.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的数据调度分发方法。374.本技术实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的方法,例如,如图4、图5和图6示出的方法。375.在一些实施例中,计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。376.在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。377.作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。378.作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。379.以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部