一款由微软开源的工具,可将常见文件如 Word、Excel、PPT 等转换为 Markdown 格式,支持 OCR 和 AI 模型处理多媒体文件,提供命令行、Python API 和 Docker 三种使用方式。
一款开源且强大的文档OCR工具,专注于文档图像的处理和分析,能够准确进行逐行文本检测和识别,支持90多[…]
一套基于ComfyUI的服装迁移工作流,可将服装照片自然真实地迁移到模特身上,支持虚拟试穿和风格迁移(如动[…]
一款基于Gradio开发的开源工具,能够对图像中的人物进行实时面部表情精确控制,如微笑、眨眼、摇头等,支持[…]
一款集转录、翻译和文字转语音为一体的开源工具,提供简洁直观的可视化操作界面,支持实时转录和翻译,以及批量处理模[…]
一款基于FastAPI的PDF文档提取和解析工具,利用OCR技术和Ollama模型将PDF[…]
一款专门为对话场景设计的语音生成模型,主要用于LLM助手对话任务、对话语音以及视频介绍等,支持中英文混合文[…]
您的邮箱地址不会被公开。 必填项已用 * 标注
评论 *
显示名称 *
邮箱 *
网站
在此浏览器中保存我的显示名称、邮箱地址和网站地址,以便下次评论时使用。
一款开源且强大的文档OCR工具,专注于文档图像的处理和分析,能够准确进行逐行文本检测和识别,支持90多[…]