这个项目其实已经在我的课余时间一点点开发了很久了,陆续收到过一些关注,不过最近做了一些比较重要的更新,所以想来这里再跟大家分享一下。
目前安卓端的 GPT 客户端很多是主打桌面端的项目用跨平台框架开发的,虽然该有的聊天功能都有,但并没有和系统功能深度融合起来,很难达到“智能助手”的程度。
我这个项目最核心的想法就是希望通过原生开发将 GPT 与安卓的硬软件更紧密地融合起来,实现一个“移动智能助手”的职责,而不仅限于聊天功能。这个项目的主要特性包括:
- 多场景文件处理:通过拍照 / 相册 / 分享 / 打开 / 拖拽上传,支持图片 / TXT / PDF / DOCX / PPTX / XLSX 文件
- 支持联网:按需抓取网页内容发送给 GPT
- 全局快捷入口:音量键唤起 / 状态栏快捷键 / 跨应用划词调起
- 智能模板:通过模板实现各种用途的专用助手,并为每个模板自由定制界面(自定义下拉选框和输入框)
- 多接口语音输入输出:华为 / 百度 / Whisper / Google / 系统 TTS
- 完全开源:通过 OpenAI API (或其兼容接口)提供服务,不收取任何费用
典型使用场景包括:
- 临时产生了一些问题想问 GPT ,通过音量键直接唤起本软件直接进行语音输入,再按一下音量键就可以发送,然后获得语音回复。全程不需要点屏幕,甚至不需要看屏幕。
- 想知道面前的东西是什么,直接通过本软件拍照上传问 GPT 。同理还可以实现 OCR 、拍照翻译、拍照解题等。
- 微信/QQ 收到文档快捷发送给 GPT 进行总结和提问
- 通过跨应用拖拽,可以接收来自分屏或小窗的其他应用的文档,还可以从华为超级中转站、多屏协同等类似应用中拖入一堆来自不同地方的不同类型文件
- 支持全局上下文菜单调起,实现全局划词翻译等功能
文档解析目前其实还是有一定的限制,包括:
- 没有实现 RAG ,文档内容会完整发给 GPT ,Token 消耗较多且受上下文窗口限制
- 只能抓取文档中的文本,图片会被忽略
- 只能支持有 x 结尾的新版 Office 格式,旧版的二进制格式(如.doc )还无法解析
以上就是对我的项目的简要介绍,更详细的说明可以在项目主页找到,GitHub 和 Gitee 同步更新。
- GitHub:https://github.com/Skythinker616/gpt-assistant-android
- Gitee: https://gitee.com/skythinker/gpt-assistant-android
这个项目会持续更新,欢迎大家提 Issue ,如果觉得有帮助的话还请给一个 Star 呀~