文本转换器
Sheetize .NET 文本转换器 提供了一种简便的方法,将 PDF、DOCX、HTML 等文件转换为纯文本,或从纯文本生成文件,支持数据挖掘、长期存储以及与仅文本平台的交互等使用场景。
关键特性
从文档中提取文本
从各种文件类型中提取文本数据,可用于处理流水线和归档目的。
从文本生成文档
从原始文本构建结构化文件,简化报告或格式化输出的创建。
详细指南
将文档转换为纯文本
将文件转换为纯文本的步骤:
- 准备转换器:准备
TextConverter。 - 配置选项:使用
SaveOptions设置转换参数。 - 指定输入/输出:提供源文件和目标文件的位置。
- 运行处理:调用
Process并传入已配置的选项。
示例:PDF 转文本转换
var loadOptions = new LoadOptions
{
InputFile = "D:\\Input.xlsx",
};
var saveOptions = new SaveOptions
{
OutputFile = "D:\\Output.txt"
};
TextConverter.Process(loadOptions, saveOptions);该转换器在需要提取原始文本的场景中至关重要,例如构建可搜索的存档或将数据输入以文本为中心的工作流。