java读取word文档,提取标题和内容的实例--688IT编程网

java读取word⽂档，提取标题和内容的实例

使⽤的⼯具为poi，需要导⼊的依赖如下

<groupId>org.apache.poi</groupId>

</dependency>

<groupId>org.apache.poi</groupId>

<artifactId>poi-ooxml</artifactId>

</dependency>

<groupId>org.apache.poi</groupId>

<artifactId>poi-scratchpad</artifactId>

</dependency>

<groupId>org.apache.poi</groupId>

<artifactId>ooxml-schemas</artifactId>

</dependency>

<groupId>org.apache.poi</groupId>

<artifactId>poi-ooxml-schemas</artifactId>

</dependency>

我采⽤的分离⽅式是根据字体⼤⼩判断。寻字体⼤⼩和下⼀段⼤⼩不同的段落，再⼀次判断第⼆段和后边的是否相同，相同则继续，不同则输出标题和内容。

因为有的⽂档中存在多个标题，所以我在开始加了判断，如果连续三个段落的字体⼤⼩递减则该段落跳过。

⽽且⽂章存在⽬录，经过测试发现⽬录的String中都包含了“HYPERLINK” 所以如果段落中包含该字符串则跳过。

代码如下：

package st;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStream;

import java.util.ArrayList;

import java.util.List;

import Matcher;

import Pattern;

import org.apache.poi.POIXMLDocument;

import org.apache.poi.POIXMLTextExtractor;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.actor.WordExtractor;

import org.apache.poi.hwpf.usermodel.CharacterRun;

import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.openxml4j.opc.OPCPackage;

import org.apache.poi.poifs.filesystem.POIFSFileSystem;

import org.apache.actor.XWPFWordExtractor;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

import org.apache.poi.xwpf.usermodel.XWPFParagraph;

import org.apache.poi.xwpf.usermodel.XWPFRun;

del.Policy_content;

public class GetWord {

public static void main(String[] args) {

// TODO Auto-generated method stub

try {

List<Policy_content> list = new ArrayList<>();

InputStream is = new FileInputStream(new File("⽂件路径")); //需要将⽂件路更改为word⽂档所在路径。

POIFSFileSystem fs = new POIFSFileSystem(is);

HWPFDocument document = new HWPFDocument(fs);

Range range = Range();

CharacterRun run1 = null;//⽤来存储第⼀⾏内容的属性

CharacterRun run2 = null;//⽤来存储第⼆⾏内容的属性

int q=1;

for (int i = 0; i < range.numParagraphs()-1; i++) {

Paragraph para1 = Paragraph(i);// 获取第i段

Paragraph para2 = Paragraph(i+1);// 获取第i段

int t=i; //记录当前分析的段落数

String paratext1 = ().trim().replaceAll("\r\n", ""); //当前段落和下⼀段

String paratext2 = ().trim().replaceAll("\r\n", "");

CharacterRun(0);

if (paratext1.length() > 0&¶text2.length() > 0) {

//这个if语句为的是去除⼤标题，连续三个段落字体⼤⼩递减就跳过

FontSize()&FontSize()&&FontSize()&Paragraph(i+2).getCharacterRun(0).getFontSize()) { continue;

}

//连续两段字体格式不同

FontSize()&FontSize()) {

String content=paratext2;

run1=run2; //从新定位run1 run2

Paragraph(t+2).getCharacterRun(0);

t=t+1;

FontSize()==FontSize()) {

//连续的相同

content+=Paragraph(t+1).text().trim().replaceAll("\r\n", "");

run1=run2;

Paragraph(t+2).getCharacterRun(0);

t++;

}

if(paratext1.indexOf("HYPERLINK")==-1&&content.indexOf("HYPERLINK")==-1) {

System.out.println(q+"标题"+paratext1+"\t内容"+content);

i=t;

q++;

}

} catch (Exception e) {

e.printStackTrace();

}

补充知识：Java poi导⼊word⽂件提取内容

⼀、需求描述

java web项⽬从前台上传word格式⽂件，后台接收⽂件并提取word内容保存⾄数据库。

⼆、依赖jar包

这⾥操作的是maven项⽬，所有依赖jar包均可到maven仓库进⾏免费下载。具体如下：

三、后台代码

这⾥的java_web项⽬采⽤SpringMVC的内置⽂件上传⽅式进⾏接收解析，具体如下：

/**

mvc实例* 提取word⽂件内容

* @param file

* @param request

* @return

* @throws IOException

* @throws IllegalStateException

@RequestMapping(value = "/getPapers", method = RequestMethod.POST, produces = { "text/html;charset=utf-8" })

@ResponseBody

private Object getPapers(@RequestParam("file") MultipartFile multfile，HttpServletRequest request) throws IllegalStateException, IOException {

// 获取⽂件名

String fileName = OriginalFilename();

//判断是否为word类型⽂件

if (!dsWith(".doc") && !dsWith(".docx")) {

System.out.println("此⽂件不是word⽂件！");

}

//当前系统的临时⽂件地址

String realPath = Session().getServletContext().getRealPath("/static/app/appkmbgszh/uploadFile");

// ⽤uuid作为⽂件名，防⽌⽣成的临时⽂件重复

String fileAdd = UUID.randomUUID().toString() + ".docx";

// 构建⼀个临时⽂件

File uploadFile = new File(realPath, fileAdd);

//将上传的MultipartFile格式⽂件转换为创建的新⽂件

//获取新⽂件的绝对路径

String filePath = AbsolutePath();

String buffer = "";

JSONObject msg = new JSONObject();

try {

InputStream inIo = new FileInputStream(uploadFile);

//提取⽂本内容

if (dsWith(".doc")) {

WordExtractor ex = new WordExtractor(inIo);

buffer = ex.getText();

ex.close();

} else if (dsWith(".docx")) {

OPCPackage opcPackage = POIXMLDocument.openPackage(filePath);

POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);

buffer = Text();

extractor.close();

}

//删除上传存放的临时⽂件

uploadFile.delete();

msg.put("status", true);

msg.put("msg", buffer);

} catch (Exception e) {

e.printStackTrace();

msg.put("status", false);

msg.put("msg", "⽂件内容提取失败");

}

return retString(msg);

}

/**

* json格式化;

* @param ret

* @return

private String retString(JSONObject ret) {

String jsoStr = "";

try {

jsoStr = JSON.json(ret);

} catch (IOException e) {

e.printStackTrace();

return jsoStr;

}

return jsoStr;

}

以上这篇java读取word⽂档，提取标题和内容的实例就是⼩编分享给⼤家的全部内容了，希望能给⼤家⼀个参考，也希望⼤家多多⽀持。

688IT编程网

java读取word文档,提取标题和内容的实例

发表评论

推荐文章

高中英语绝密押题3

从余光中的译论译品谈文学翻译的创作空间(五)

train造句简单一点

emergency造句简单

feathers造句简单

热门文章

cloudy造句简单

changeinto造句简单

actually造句简单

poem造句简单

nomore造句简单

person造句简单

insteadof造句简单一点

notebook造句简单

用wait造句简单一点

blow造句简单

run out of造句简单

cut造句简单

pickup造句简单

shoot造句简单

reach out造句简单

sorry造句简单

stand out英语造句

stick out造句

bring out造句简单

Out的用法

最新文章

高中英语绝密押题3

从余光中的译论译品谈文学翻译的创作空间(五)

train造句简单一点

emergency造句简单

most of the day 造句

用sothat造句简单

标签列表