Free Spire.Doc组件C# 读取Word文档中的文本内容

C# 读取Word文档中的文本内容

这篇文章将介绍如何使用C#和Free Spire.Doc组件读取Word文档中的文本内容。Free Spire.Doc提供了两种方法来读取Word文档中的内容,一种是直接获取文档中的所有文本内容,另一种是遍历文档中的节和其中的段落,然后获取段落中的文本,下面将逐一介绍这两种方法。

Word文档截图:

在使用以下代码前,需要先在Visual studio中创建一个C#应用程序,然后引用Spire.Doc.dll到程序中。

方法一 直接获取所有文本

//加载Word文档
Document doc = new Document();
doc.LoadFromFile("Input.docx");
 
//使用GetText方法获取文档中的所有文本
string s = doc.GetText();
 
File.WriteAllText("文本1.txt", s.ToString());
效果图:


方法二 遍历段落获取文本

//加载Word文档
Document document = new Document();
document.LoadFromFile(@"测试文档.docx");
 
StringBuilder sb = new StringBuilder();
 
//遍历节和段落,获取段落中的文本
foreach (Section section in document.Sections)
{
    foreach (Paragraph paragraph insection.Paragraphs)
    {
        sb.AppendLine(paragraph.Text);
    }
}
 
File.WriteAllText("文本2.txt",sb.ToString());
效果图:


总结

这两种方法结果都差不多,第一种方法更简便,通过一个方法可以一次性获取文档中的内容,但第二种方法更灵活,可以获取到文档中指定节或指定段落中的文本,可以根据自己的需要选择相应的方法。

原来直接引用了Eiceblue的文章,经过自己测试。这个控件并非免费使用,有很多的限制。比如,转格式超过10页就会报错,功能已经限制死了,只能转10页的内容。因此,需要下载破解版本的dll。在csdn上找了下,有破解版本的dll,亲测可以用。下载地址:https://download.csdn.net/download/tom_8899/10832247

前面内容引用自 https://blog.csdn.net/Eiceblue/article/details/79932491 

你可能感兴趣的