Text Converter

Sheetize Text Converter for .NET 能够将文档转换为纯文本格式及反向转换,特别适合数据提取、归档以及与基于文本的系统的集成。

主要特性

将文档转换为纯文本

从 PDF、DOCX 和 HTML 等文档中提取文本内容,适用于数据处理和归档。

将纯文本转换为文档格式

从纯文本创建格式化文档,为生成报告或结构化文件提供简便的方法。


详细指南

将文档转换为纯文本

要将文档转换为纯文本:

  1. 初始化转换器:创建 TextConverter 的实例。
  2. 设置转换选项:使用 DocumentToTextOptions 配置输出设置。
  3. 定义输入和输出路径:设置输入文档的路径和输出文本文件的路径。
  4. 执行转换:调用 Process 方法以转换文档。

示例:将 PDF 转换为纯文本

// 第一步:初始化文本转换器
var converter = new TextConverter();

// 第二步:配置文档到文本转换的选项
var options = new DocumentToTextOptions();

// 第三步:设置文件路径
options.AddInput(new FileDataSource("input.pdf"));
options.AddOutput(new FileDataSource("output.txt"));

// 第四步:执行转换
converter.Process(options);

文本转换器在需要提取文本的场景中至关重要,例如创建归档或以纯文本处理数据。

 中文