文本转换器

.NET 的 Sheetize Text Converter 可将文档转换为和从平板文本格式,理想用于数据提取、存档和与基于文字的系统进行整合。

主要特点

将文档转换为平板文本

从 PDF、DOCX 和 HTML 等文件中提取文本内容,用于数据处理和存档。

将平板文本转换为文档格式

从平板文本创建格式化文档,提供一个简单的方式来生成报告或结构化文件。

详细指南

将文档转换为平板文本

将文档转换为清晰的文本:

  • 启动转换器 :创建一个例子 TextConverter.
  • 设置转换选项 :使用 DocumentToTextOptions 设置输出设置。
  • 定义输入和输出路径 : 设置进入文档和出口文本文件的路线。
  • 执行转换 :呼叫 Process 转换文档的方法。

例如:将 PDF 转换为平板文本

// Step 1: Initialize the Text Converter
var converter = new TextConverter();

// Step 2: Configure options for document to text conversion
var options = new DocumentToTextOptions();

// Step 3: Set file paths
options.AddInput(new FileDataSource("input.pdf"));
options.AddOutput(new FileDataSource("output.txt"));

// Step 4: Execute the conversion
converter.Process(options);

Text Converter 对于需要文本提取的场景至关重要,例如创建档案或处理直文数据。

 中文