计算;推算;计数设备的制造及其应用技术1.本发明涉及网页版电子文档的本地化存储,尤其涉及基于web技术发布的电子文档的本地化存储方式和系统,属于电子化文档的本地化处理。背景技术:2.由于网页版电子文档受限于其设备是否连入网络,这将极大限制在无网络环境下的文档的获取阅读,这时我们需要本地化网页版电子文档,常用方法有通过摄像机拍摄,或者直接网页快照的方式进行本地化留底。通过摄像机拍照方法需要复杂的人工手动操作,以及其他设备支持,且获取的电子文档质量受到拍摄设备,以及操作者等因素影响,无法得到保障;而网页快照方法可能出现较多的冗余信息,而不能精准获取电子文档。3.因此这种需要联网阅读的电子文档的自动化、精准、高质量的本地化,显得尤为必要,通过该发明的获取方法,将实现对电子文档的高质量、高效率的全自动化本地化。技术实现要素:4.本发明的目的是通过智能判断并自动截取的方式实现网页版电子文档本地化,便于在没有网络环境下的查阅。5.为实现上述目的,本发明提供了如下方案:6.一种用于网页版电子文档本地化的方法,所述方法包括:7.获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取;8.全屏截取所述网页版电子文档的最初状态图像;9.利用边界判断方法截取所述最初状态图像的文档部分;10.截取所述最初状态图像的文档部分并保存。11.可选的,所述方法还包括:识别所述最初状态图像的文档部分的相关信息;所述所述最初状态图像的文档部分的相关信息包括当前页码信息、总页码信息和文档题目信息;12.可选的,所述方法还包括:13.根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否为最后一页;若判断结果为是,则停止处理;若判断结果为否,则14.控制所述网页版电子文档翻页,15.全屏截取下一页网页版电子文档的最初状态图像;16.利用边界判断方法截取的所述下一页网页版电子文档的最初状态图像;17.识别所述下一页网页版电子文档的最初状态图的文档部分的相关信息;18.截取所述下一页网页版电子文档的最初状态图并保存。19.可选的,所述根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否为最后一页,具体包括:20.获取所述当前页码信息和所述总页码信息;21.判断所述当前页码信息与所述总页码信息是否相同;若判断结果为是,则是最后一页;若判断结果为否,则不是最后一页。22.可选的,所述根据识别的所述最初状态图像的文档部分的相关信息判断所述网页版电子文档是否是最后一页,具体包括:23.比较翻页前后全屏截取的网页版电子文档的最初状态图像;若比较结果为相同,则是最后一页;若比较结果为不相同,则不是最后一页。24.可选的,所述方法还包括:25.对多页保存结果进行整合,根据所述文档题目信息对文档命名并保存。26.可选的,利用光学字符识别所述最初状态图像的文档部分的相关信息。27.可选的,所述方法还包括:28.判断获取的网页版电子文档加载是否完整;若判断结果为是,则对整个显示画面进行监控;若判断结果为否,则重新获取网页版电子文档。29.一种用于网页版电子文档本地化的系统,所述系统包括:30.获取模块,用于获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取;31.全屏截取模块,用于全屏截取所述网页版电子文档的最初状态图像;32.文档截取模块,用于利用边界判断方法截取所述最初状态图像的文档部分;33.信息截取和保存模块,用于截取所述最初状态图像的文档部分并保存。34.可选的,所述系统还包括:35.信息识别模块,用于识别所述最初状态图像的文档部分的相关信息;所述所述最初状态图像的文档部分的相关信息包括当前页码信息、总页码信息和文档题目信息。36.根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明可以自动识别网页版电子文档的信息并保存,实现对电子文档的高质量、高效率的全自动化本地化,便于随时随地查询。附图说明37.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。38.图1为本发明网页版电子文档本地化方法流程图;39.图2为本发明网页版电子文档本地化体统示意图;40.图3为具体实施例的方法流程图。具体实施方式41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。42.在本专利文档中,下文论述的附图以及用来描述本发明公开的原理的各实施例仅用于说明,而不应解释为限制本发明公开的范围。所属领域的技术人员将理解,本发明的原理可在任何适当布置的系统中实施。将详细说明示例性实施方式,在附图中示出了这些实施方式的实例。43.本发明说明书中使用的术语仅用来描述特定实施方式,而并不意图显示本发明的概念。除非上下文中有明确不同的意义,否则,以单数形式使用的表达涵盖复数形式的表达。在本发明说明书中,应理解,诸如“包括”、“具有”以及“含有”等术语意图说明存在本发明说明书中揭示的特征、数字、步骤、动作或其组合的可能性,而并不意图排除可存在或可添加一个或多个其他特征、数字、步骤、动作或其组合的可能性。44.本发明的目的是提供一种网页版电子文档本地化方法及系统。45.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。46.图1提供了一种用于网页版电子文档本地化的方法流程图,该方法包括:47.步骤101:获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取。48.步骤102:判断获取的网页版电子文档加载是否完整;若判断结果为是,则对整个显示画面进行监控;若判断结果为否,则重新获取网页版电子文档。49.步骤103:全屏截取所述网页版电子文档的最初状态图像。50.步骤104:利用边界判断方法截取所述最初状态图像的文档部分。51.步骤105:截取所述最初状态图像的文档部分并保存。52.在具体实施过程中,通过文档是否完整加载判断文档是否完全打开,需要对整个显示画面进行监控。对网页版电子文档,可以用监控window.onload和document.readystate的状态来判断,或者帧图像对比判断。53.在具体实施过程中,全屏截取可以是调用系统自带全屏截图工具如:windows端的print screen按键或macos端的cmd+shift+3按键,也可是其他截图工具如:faststone capture、qq、微信或浏览器自带的截图工具。54.在具体实施过程中,利用边界判断方法的目的是准确截取电子文档的文档部分,而将非文档部分剔除在外,由于电子文档的显示是规则的,通常是以页面的方式展示,利用页面边界处两边的差异,结合图像处理技术,可以将其准确计算,可得到上、下、左、右四个边界坐标值(像素坐标)。55.本发明将网页中的电子文档本地化,即使断开网络也可以实现文档信息的查询。56.图2提供了一种用于网页版电子文档本地化的系统示意图,该系统包括:获取模块201、全屏截取模块202、文档截取模块203和信息截取和保存模块204。57.获取模块201用于获取网页版电子文档;所述网页版电子文档通过浏览器输入的网址连接获取。58.全屏截取模块202用于全屏截取所述网页版电子文档的最初状态图像。59.文档截取模块203用于利用边界判断方法截取所述最初状态图像的文档部分。60.信息截取和保存模块204用于截取所述最初状态图像的文档部分并保存。61.在具体实施过程中,该系统还包括:信息识别模块,该模块用于识别所述最初状态图像的文档部分的相关信息;所述所述最初状态图像的文档部分的相关信息包括当前页码信息、总页码信息和文档题目信息。62.本发明的用于网页版电子文档本地化的系统可与用于网页版电子文档本地化的方法实现相同的技术效果。63.图3为多页电子文档本地化方法的具体实施例的流程图:64.通过浏览器输入网址链接,打开网页版电子文档。65.获取网页版电子文档。66.判断获取的网页版电子文档加载是否完整;若判断结果为是,则对整个显示画面进行监控;若判断结果为否,则重新获取网页版电子文档。通过文档是否完整加载判断文档是否完全打开,需要对整个显示画面进行监控。对网页版电子文档,可以用监控window.onload和document.readystate的状态来判断,或者帧图像对比判断。67.调用系统自带全屏截图工具如:windows端的print screen按键或macos端的cmd+shift+3按键,也可是其他截图工具如:faststone capture、qq、微信或浏览器自带的截图工具全屏截取所述网页版电子文档的最初状态图像。68.利用边界判断方法截取所述最初状态图像的文档部分。利用边界判断方法的目的是准确截取电子文档的文档部分,而将非文档部分剔除在外,由于电子文档的显示是规则的,通常是以页面的方式展示,利用页面边界处两边的差异,结合图像处理技术,可以将其准确计算,可得到上、下、左、右四个边界坐标值(像素坐标)。69.利用光学字符识别所述最初状态图像的文档部分的相关信息;所述所述最初状态图像的文档部分的相关信息包括当前页码信息、总页码信息和文档题目信息;70.控制所述网页版电子文档翻页;该操作可以是调用鼠标、键盘等操作,也可以是通过特定指令控制相对应的阅读工具进行。71.全屏截取下一页网页版电子文档的最初状态图像;72.利用边界判断方法截取的所述下一页网页版电子文档的最初状态图像;73.识别所述下一页网页版电子文档的最初状态图的文档部分的相关信息;74.截取所述下一页网页版电子文档的最初状态图并保存,直至当前页码信息与所述总页码信息相同,或者翻页前后全屏截取的网页版电子文档的最初状态图像相同。75.对多页保存结果进行整合,根据所述文档题目信息对文档命名并保存,便于后续查阅。76.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。77.本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种用于网页版电子文档本地化的方法及系统与流程
作者:admin
2022-11-02 08:06:09
797
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术