文本转换器

Sheetize .NET 文本转换器 提供了一种简便的方法,将 PDF、DOCX、HTML 等文件转换为纯文本,或从纯文本生成文件,支持数据挖掘、长期存储以及与仅文本平台的交互等使用场景。

关键特性

从文档中提取文本

从各种文件类型中提取文本数据,可用于处理流水线和归档目的。

从文本生成文档

从原始文本构建结构化文件,简化报告或格式化输出的创建。


详细指南

将文档转换为纯文本

将文件转换为纯文本的步骤:

  1. 准备转换器:准备 TextConverter
  2. 配置选项:使用 SaveOptions 设置转换参数。
  3. 指定输入/输出:提供源文件和目标文件的位置。
  4. 运行处理:调用 Process 并传入已配置的选项。

示例:PDF 转文本转换

var loadOptions = new LoadOptions
{
    InputFile = "D:\\Input.xlsx",

};
var saveOptions = new SaveOptions
{
    OutputFile = "D:\\Output.txt"
};

TextConverter.Process(loadOptions, saveOptions);

该转换器在需要提取原始文本的场景中至关重要,例如构建可搜索的存档或将数据输入以文本为中心的工作流。

 中文