首页 -> 数据分析

从Word(docx,doc)文档中提取文本数据的最终解决方案

流星雨 63 天前建立 •  122   

python-docx

跨平台,但只能处理 .docx 格式,不能处理.doc格式,而且对有表格的是不能直接读取里面的文本的。例如下面的代码并不能很好的完成任务。

-- coding: UTF-8 --

读取docx中的文本代码示例

import docx

获取文档对象

filepath = "/Users/lxy/lang/py/read-docx/1.docx"

filepath = "D:\\temp\\word.docx"

file=docx.Document(filepath)

print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

输出每一段的内容

for para in file.paragraphs:

print(para.text)

输出段落编号及段落内容

for i in range(len(file.paragraphs)):

print(u"第"+str(i)+u"段的内容是:"+file.paragraphs[i].text)




下面的很好的解决了docx文件的导出文本问题

https://github.com/ankushshah89/python-docx2txt

windows下doc格式Word文档的解决方案:

【Python】读取 .doc、.docx 两种 Word 文件简述及“Word 未能引发事件”错误

https://www.cnblogs.com/gl1573/p/10114839.html

word文档装PDF:

https://www.jianshu.com/p/789f24cf510e

回复

登录发表 or 还没有账号?去注册