Python学习笔记(28)-Python读取word⽂本
本⽂⽬录
1. 简介
Python可以利⽤python-docx模块处理word⽂档,处理⽅式是⾯向对象的。也就是说python-docx模块会把word⽂档,⽂档中的段落、⽂本、字体等都看做对象,对对象进⾏处理就是对word⽂档的内容处理。
2. 相关概念
如果需要读取word⽂档中的⽂字(⼀般来说,程序也只需要认识word⽂档中的⽂字信息),需要先了解python-docx模块的⼏个概念。
1,Document对象,表⽰⼀个word⽂档。
2,Paragraph对象,表⽰word⽂档中的⼀个段落
3,Paragraph对象的text属性,表⽰段落中的⽂本内容。
3. 模块的安装和导⼊
需要注意,python-docx模块安装需要在cmd命令⾏中输⼊pip install python-docx,如下图表⽰安装成功(最后那句英⽂Successfully installed,成功地安装完成,⼗分考验英⽂⽔平。)
注意在导⼊模块时,⽤的是import docx。
也真是奇了怪了,怎么安装和导⼊模块时,很多都不⽤⼀个名字,看来是很有必要出⼀个python版本的模块管理程序python-maven了,本段纯属PS。
4. 读取word⽂本
在了解了上⾯的信息之后,就很简单了,下⾯先创建⼀个D:\temp\word.docx⽂件,并在其中输⼊如下内容。
然后写⼀段程序,代码及输出结果如下:
#读取docx中的⽂本代码⽰例
import docx
#获取⽂档对象
file=docx.Document("D:\\temp\\word.docx")
python怎么读取桌面上的文件
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离⼀段#输出每⼀段的内容
for para in file.paragraphs:
)
#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)
运⾏结果:
================ RESTART: F:/360data/重要数据/桌⾯/学习笔记/readWord.py ================段落数:13
我看见⼀座⼭
雄伟的⼤⼭
真⾼啊
这座⼭是!
真的很⾼!
第0段的内容是:啊
第1段的内容是:
第2段的内容是:我看见⼀座⼭
第3段的内容是:
第4段的内容是:雄伟的⼤⼭
第5段的内容是:
第6段的内容是:真⾼啊
第7段的内容是:
第8段的内容是:啊
第9段的内容是:
第10段的内容是:这座⼭是!
第11段的内容是:
第12段的内容是:真的很⾼!
>>>