开源项目介绍:
Java AI 知识库系统开发(RAG)数据处理环节,PPT内容处理解决方案。 PPT内容文本提取、PPT内容Media资源提取、PPT转txt、PPT转PDF、PPT转HTML、按页提取等。
项目地址:
https://gitee.com/jboltai/jboltai_ppt_extract
✨ 核心特性 | Core Features
🔄 多格式支持 | Multi-format Support: 完全支持 PPT 和 PPTX 格式 | Full support for both PPT and PPTX formats
📝 文本提取 | Text Extraction: 智能提取幻灯片中的所有文本内容 | Intelligent extraction of all text content from slides
🖼️ 媒体提取 | Media Extraction: 提取图片、音频、视频等媒体文件 | Extract images, audio, video and other media files
📄 格式转换 | Format Conversion: 支持转换为 PDF、Markdown 格式 | Support conversion to PDF and Markdown formats
🌐 HTML 查看器 | HTML Viewer: 生成响应式 HTML 查看器 | Generate responsive HTML viewers
📄 逐页处理 | Page-by-page Processing: 支持回调机制的逐页内容处理 | Support callback-based slide-by-slide content processing