Reader

分享一个自己开发的开源安卓 GPT 助手软件： GPT Assistant

2025-04-23 14:59:38 +0000 UTC | V2EX - 技术 | Default

这个项目其实已经在我的课余时间一点点开发了很久了，陆续收到过一些关注，不过最近做了一些比较重要的更新，所以想来这里再跟大家分享一下。

目前安卓端的 GPT 客户端很多是主打桌面端的项目用跨平台框架开发的，虽然该有的聊天功能都有，但并没有和系统功能深度融合起来，很难达到“智能助手”的程度。

我这个项目最核心的想法就是希望通过原生开发将 GPT 与安卓的硬软件更紧密地融合起来，实现一个“移动智能助手”的职责，而不仅限于聊天功能。这个项目的主要特性包括：

多场景文件处理：通过拍照 / 相册 / 分享 / 打开 / 拖拽上传，支持图片 / TXT / PDF / DOCX / PPTX / XLSX 文件
支持联网：按需抓取网页内容发送给 GPT
全局快捷入口：音量键唤起 / 状态栏快捷键 / 跨应用划词调起
智能模板：通过模板实现各种用途的专用助手，并为每个模板自由定制界面（自定义下拉选框和输入框）
多接口语音输入输出：华为 / 百度 / Whisper / Google / 系统 TTS
完全开源：通过 OpenAI API （或其兼容接口）提供服务，不收取任何费用

典型使用场景包括：

临时产生了一些问题想问 GPT ，通过音量键直接唤起本软件直接进行语音输入，再按一下音量键就可以发送，然后获得语音回复。全程不需要点屏幕，甚至不需要看屏幕。
想知道面前的东西是什么，直接通过本软件拍照上传问 GPT 。同理还可以实现 OCR 、拍照翻译、拍照解题等。
微信/QQ 收到文档快捷发送给 GPT 进行总结和提问
通过跨应用拖拽，可以接收来自分屏或小窗的其他应用的文档，还可以从华为超级中转站、多屏协同等类似应用中拖入一堆来自不同地方的不同类型文件
支持全局上下文菜单调起，实现全局划词翻译等功能

文档解析目前其实还是有一定的限制，包括：

没有实现 RAG ，文档内容会完整发给 GPT ，Token 消耗较多且受上下文窗口限制
只能抓取文档中的文本，图片会被忽略
只能支持有 x 结尾的新版 Office 格式，旧版的二进制格式（如.doc ）还无法解析

以上就是对我的项目的简要介绍，更详细的说明可以在项目主页找到，GitHub 和 Gitee 同步更新。

这个项目会持续更新，欢迎大家提 Issue ，如果觉得有帮助的话还请给一个 Star 呀~