位置：首页-资讯-后端开发

node.js中怎么读取docx文本

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

这篇文章将为大家详细讲解有关node.js中怎么读取docx文本，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

其实docx就是一个zip包，然后封装了一些xml文件。可以直接将docx的包改后缀为.zip来打开观看。

node.js中怎么读取docx文本

进入word文件夹

node.js中怎么读取docx文本

里面有几个主要的文件。

document.xml 这个就是文档的主要内容
numbering.xml 这个就是标题号，以及标题号的一些属性
styles.xml 这个就是样式列表

打开document.xml 你就会发现，所有的文本都是用 <w:t>标签包着的。这个就是本文的关键

代码

首先，需要通过npm安装一个能查看zip文件的包：adm-zip；

然后，写下下列代码即可

const fs = require("fs");
const AdmZip = require('adm-zip'); //引入查看zip文件的包
const zip = new AdmZip(filePath); //filePath为文件路径
let contentXml = zip.readAsText("word/document.xml");//将document.xml读取为text内容；
let str = "";
contentXml .match(/<w:t>[\s\S]*?<\/w:t>/ig).forEach((item)=>{
str += item.slice(5,-6)});
fs.writeFile("./2.txt",str,(err)=>{//将./2.txt替换为你要输出的文件路径
if(err)throw err;
});

最近正在用node.js去解析docx的工作。先将最简单的写在上面。回头有空再继续分享

最新更新

之前随手写的代码，今天测试发现用更新后的代码比源代码的效率提升十倍以上。

//原代码
//str += item.replace("<w:t>","").replace("</w:t>","");
//更新代码
str += item.slice(5,-6)

附上测试代码

var str = "<w:t>sdfjpasif aefnmasd;lf asdfsdf</w:t>";
var arr = [];
for(var i=0;i<50000;i++){
 arr.push(str);
}
console.time("replactest");
arr.forEach((item)=>{
 item.replace(/<w:t>/,"").replace(/<\/w:t>/,"");
});
console.timeEnd("replactest");
//replactest: 20.560ms

console.time("replactest2");
arr.forEach((item)=>{
 item.replace(/<\/*w:t>/g,"");
});
console.timeEnd("replactest2");
//replactest2: 14.926ms

console.time("replactest3");
arr.forEach((item)=>{
 item.replace(/(^<w:t>)|(<\/w:t>$)/g,"");
});
console.timeEnd("replactest3");
//replactest3: 14.402ms

console.time("slice");
arr.forEach((item)=>{
 item.slice(5,-6);
});
console.timeEnd("slice");
//slice: 1.718ms

关于node.js中怎么读取docx文本就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

node.js中怎么读取docx文本

下载Word文档到电脑，方便收藏和打印～

下载Word文档

猜你喜欢

node.js中怎么读取docx文本

2024-04-02

教你用十行node.js代码读取docx的文本

前言最近有一个case。需要去解析word文档。有两个需求，一个是将word文档转成PDF，一个是将word文档中的内容按照一定的规范读取到数据库中，去npm仓库找了大概有十几个包，发现主要是通过以下的方式来转换代码。通过调用系统底层程序

2022-06-04

vbs中怎么读取文本文件

vbs中怎么读取文本文件，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。vbs读取文件方法Function readfile(readfilepath) On E

2023-06-08

C#中怎么读取文本文件

C#中怎么读取文本文件，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。C#读文本文件的解答：/* using System.IO; StreamReader sr = n

2023-06-18

Linux系统中如何利用node.js提取Word(doc/docx)及PDF文本

2024-04-02

Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容

前言想要做全文搜索引擎，则需要将word/pdf等文档内容提取出来。对于pdf有xpdf等一些开源方案。但Word文档的情况则会复杂一些。提取PDF文本内容XPDF是一个免费开源的软件，用于显示PDF文件，并可将pdf转换成文字图片等，

2022-06-04

c++怎么读取文本文件

在C++中，可以使用ifstream类来读取文本文件。下面是一个示例代码，展示了如何读取文本文件中的内容：#include #include int main() {std::ifstream fi

2024-02-29

html怎么读取文本文件

2024-04-02

html怎么读取本地文本文件

html自身无法直接读取本地文件，但可以通过以下方法解决：使用filereader api：使用filereader api的readastext()方法读取文本文件内容。使用xmlhttprequest：使用xmlhttprequest

2024-04-05

python怎么读取文本文档

有四种方法可以使用 python 读取文本文档：直接读取整个文件内容按行读取文件内容并存储在列表中逐行迭代文件内容指定文件的编码、读取模式和换行符等可选参数如何使用 Python 读取文本文档直接方法：

2024-04-20

Python中怎么对docx文件进行读写操作这期内容当中小编将会给大家带来有关Python中怎么对docx文件进行读写操作，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。演示文本为了方便理解，我们以 python-docx.docx 文件为例，演示如

2023-06-16

Python中怎么从图像中读取文本本篇文章为大家展示了Python中怎么从图像中读取文本，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。OpenCV现在，这个库将只用于加载图像，实际上你不需要事先对它有太多了解(尽管它可能有帮助，你将

2023-06-16

python读取中文txt文本对于python2.7字符串在Python2.7内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码成unicode，再从unicode编码成另一种编码。先用一些编辑器（如e

2023-01-31

java怎么逐行读取文本在Java中，可以使用BufferedReader类逐行读取文本文件。以下是一个示例代码：import java.io.BufferedReader;import java.io.FileReader;import java.io.I

2024-02-29

JavaScript怎么读取本地文件这篇文章主要介绍了JavaScript怎么读取本地文件，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。文件操作的流程获取文件由于浏览器中的 JS 无法从用户的设备访问本地文件，

2023-06-17

django怎么读取本地文件在 Django 中，你可以使用 `open()` 函数来读取本地文件。首先，你需要确定要读取文件的路径。可以使用 `settings.py` 文件中的 `MEDIA_ROOT` 设置来指定存储媒体文件的根目录。然后，你可以使用 `open

2023-10-09

tkinter怎么读取文本框中的数字你可以使用`get()`方法来获取文本框中的文本内容，然后使用`int()`函数将其转换为整数类型。下面是一个简单的例子：```pythonimport tkinter as tkdef get_number():number = int(

2023-08-12

python怎么读取文本文件内容要读取文本文件内容，可以使用Python中的open()函数来打开文件，并使用read()方法来读取文件内容。下面是一个简单的示例：with open('example.txt', 'r') as

2024-03-05

html怎么读取文本文件内容html 无法读取文本文件，但使用 javascript 可以实现：使用 fetch() 获取文件内容；用 response.text() 方法获取文本；在 then() 方法中处理读取后的响应。如何使用 HTML 读取文本文件内容HTM

2024-04-05

python中读取文本文件txt

2023-10-25

`编程热搜`

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译