首页 -> 数据分析

从Word(docx,doc)文档中提取文本数据的最终解决方案

流星雨 7 天前建立 •  11   
python-docx
跨平台,但只能处理 .docx 格式,不能处理.doc格式,而且对有表格的是不能直接读取里面的文本的。例如下面的代码并不能很好的完成任务。
# -*- coding: UTF-8 -*-
#读取docx中的文本代码示例
import docx
#获取文档对象
filepath = "/Users/lxy/lang/py/read-docx/1.docx"
#filepath = "D:\\temp\\word.docx"
file=docx.Document(filepath)
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
    print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
    print(u"第"+str(i)+u"段的内容是:"+file.paragraphs[i].text)



下面的很好的解决了docx文件的导出文本问题
https://github.com/ankushshah89/python-docx2txt

windows下doc格式Word文档的解决方案:
【Python】读取 .doc、.docx 两种 Word 文件简述及“Word 未能引发事件”错误
https://www.cnblogs.com/gl1573/p/10114839.html

word文档装PDF:
https://www.jianshu.com/p/789f24cf510e

回复

登录发表 or 还没有账号?去注册