文本转换器
.NET 的 Sheetize Text Converter 可将文档转换为和从平板文本格式,理想用于数据提取、存档和与基于文字的系统进行整合。
主要特点
将文档转换为平板文本
从 PDF、DOCX 和 HTML 等文件中提取文本内容,用于数据处理和存档。
将平板文本转换为文档格式
从平板文本创建格式化文档,提供一个简单的方式来生成报告或结构化文件。
详细指南
将文档转换为平板文本
将文档转换为清晰的文本:
- 启动转换器 :创建一个例子
TextConverter
. - 设置转换选项 :使用
DocumentToTextOptions
设置输出设置。 - 定义输入和输出路径 : 设置进入文档和出口文本文件的路线。
- 执行转换 :呼叫
Process
转换文档的方法。
例如:将 PDF 转换为平板文本
// Step 1: Initialize the Text Converter
var converter = new TextConverter();
// Step 2: Configure options for document to text conversion
var options = new DocumentToTextOptions();
// Step 3: Set file paths
options.AddInput(new FileDataSource("input.pdf"));
options.AddOutput(new FileDataSource("output.txt"));
// Step 4: Execute the conversion
converter.Process(options);
Text Converter 对于需要文本提取的场景至关重要,例如创建档案或处理直文数据。