html转换成word文档(分享文件转换工具类)

2020年第一波更新,再来个重量级的刚需场景,文件互转。有Excel催化剂后,不再需要频繁到处找寻各种网页在线版的转换操作,数据安全很重要,不要轻易将自己文件上传到网上,哪天出事了,没人可怜!

做最有价值的文件转换而非为转换而转换

文件转换的确是一个非常刚需的功能,滋生了大量的网页在线转换应用,当然也有不少是收费性质的,至于免费的也是有功能限制的如文件大小限制或转换页数限制。

因着没有过硬的数据管理能力,大量的本该在Excel上做结构化存储的数据,被分散地存储在pdf、word、甚至ppt上,这些数据的回收再加工,就有了非常刚需的场景。

在一些系统导出的报表文件中,可能就出现有pdf格式的数据,对程序输出来说容易,但输出后,再加工的余地非常少。

Excel催化剂倡导从源头解决问题,如本该使用Excel来整理数据,存储数据源的,最大可能性地培训教导一线人员做好此工作,其他各式各样的用于展现、打印、查看需求的,可灵活应用在pdf、word、ppt、html等不同场景需求的文件上。数据源是根本,务必管理好自己的数据源。

挽救现实中的各种文件转换问题

当然理想很丰满,现实很骨感,企业运作过程中,生产出大量不规范的数据及不规范的数据存储方式,也需要有一些工具功能来亡羊补牢一下。

Excel催化剂也对其做了一些补充,让数据转换过程更流畅,更重要的是转换后,能够再次轻松地从其中重新采集到所需的数据,作二次加工整理。

具体的功能实现有如下几种

html转换成word文档(分享文件转换工具类)

更佳的找寻菜单方式,使用搜索。

二、pdf转jpg,提取文本、图片等

此转换已经在2019年的功能中作了实现,可轻松完成pdf的文本信息、图片信息提取及pdf图片化保护操作。但有可能在数据提取后的再加工上,仍然不是最佳的方式,特别是需要在pdf文件中获取结构化信息时,一些表格类数据获取能力较弱。

传送门:

第88波-批量提取pdf文件信息(图片、表格、文本等)

第89波-批量多图片转PDF

三、Word转Excel的xlsx格式

此功能将是本篇的一大亮点功能,虽然实现起来,很不起眼, 只是很粗爆地将Word文件的数据全选后,再粘贴到Excel中。为何将其抬举到如此重要的环节?

最开始想做这个转换的动机是,因前面pdf提取表格信息有缺陷,识别率有限,若要将pdf的表格信息拿到Excel中使用,想到的迂回方式是将其转换成Word,再通过Word作中间桥梁,Word里有表格的结构化信息,可轻松提取。

Doc2xls工具,也迭代了好多年,但总体看回来,功能还是非常单薄,只能处理一对一关系的数据结构(可能未深入学习了解全面,有不对的地方请指正)。

在Excel催化剂的报表结构数据源转换标准数据源功能中,实现的效果是可以满足一对多的数据源,也是最为常见的订单、发货单、采购单等样式,符合实际的业务场景。

由Word直接转为Excel,数据到了Excel环境,在Excel催化剂过往的大量文本处理、格式处理、数据转换的功能支持下,比起Doc2Xls很机械地作一些简单配置,必然要通用强大得多。

Excel环境下采集指定内容及转换的功能大概会有以下几个大的功能支持,日后有好的示例将通过视频的方式给大家展示其强大及灵活之处。

传送门:

第75波-标签式报表转标准数据源

第33波-报表形式数据结构转标准数据源

同样地配合之前所提到的场景,对Word中的表格数据,进行额外的提取操作,方便数据更合理地被Excel环境所识别和提取到。一个表格占用一个工作表,若是规范性的文档,表格结构一致,位置顺序一致,将非常方便将Word的数据输出到Excel中重新利用。

四、Word转Pdf功能

此功能个人理解,仅仅用于数据保护和数据查阅需要,可能的场景只是手中大量的Word文档,想一次性转换为Pdf格式,Word的原生功能可以轻松对Word文档转Pdf,只是一次只转换一个文档,本功能也只是调用Word的转换接口,进行循环批量操作而已。

 五、PPT转Pdf功能

和第四点完全一致的场景,功能实现也没特别之处,仍然是内部原生功能即可完成。

六、Word转Html

基于前期的网页采集功能的开发,将Word转换为Html,就比较有场景需求了,若在前面第3点上直接转Xlsx文件,不能很好地拿到想要的数据(会丢失一些格式、标题、层级等信息或字段名和内容不分离等问题),将其转换为Html,再使用xPath的提取方式来重新提取,未尝不是一个非常好的方式,类似使用网页采集的原理,采集一些结构化的数据。

同时另一刚需场景为,可以轻松地提取到Word里面的图片,转换成Html后,图片将会在一个文件夹中存放,更多的技能是如何将这些文件夹里的无意义的命名图片,重新快速地进行筛选,拿到自己最终所需的图片子集。

在此给出大概的操作步骤及用到的功能:

使用文件遍历功能,将图片信息汇总到Excel表中

用xPath找出原始图片的清单(转换html后,会出现两套图,一个为缩略图一个为原图)。

使用插入图片的方式,重新将图片插入到Excel中,手动判断图片所属及对其手动在对应行单元格上重命名。

使用批量重命名、批量移动图片等方式,最终将原来无意义名字图片命名后转移到最终所需的文件夹中存放。

传送门:

[功能发布]Excel催化剂2周年巨献-网页数据采集功能发布,满足90%合理场景使用

第11波-快速批量插入图片并保留纵横比

第83波-遍历文件夹内文件信息特别是图像、音视频等特有信息

第41波-文件文件夹相关函数

第17波-批量文件改名、下载、文件夹创建等

七、Excel转Pdf功能

Excel文件结构,类似数据库结构,有多个工作表,所以更科学的转换方式是按指定工作表转换,此功能也在过往的功能中得以实现。

详见文章:

第50波-批量打印、导出PDF、双面打印功能

结语

源头没摆正,最终衍生出大量稀奇古怪的各种神操作,当然文件转换过程,也必然很大原因归咎于没有规范科学的数据管理,没有树立科学的数据管理方法论,最终只能是无穷无尽地各种问题各种低效。

Excel催化剂倡导,从源头中处理,正确地理解好数据源与报表的两者关系,并在实际工作中加以应用,将减少非常多这些文件转换的工作。

还是那句话,你足够优秀,但你不能阻碍你的队友拖你大大的后腿,此篇一系列的转换功能,相信每个人都有不同程度的使用机会。

文字太苍白,后续有机会将以视频的方式给大家演示其威力所在。欢迎提供脱敏的原始示例数据,以便更有针对性地讲解。

——————————————————————————–

Excel催化剂安装方法介绍

Excel催化剂常见使用问题汇总

发表评论

登录后才能评论