分享
用魔法强化自己-使用大模型辅助论文学习
输入“/”快速插入内容
用魔法强化自己-使用大模型辅助论文学习
飞书用户8537
2024年1月26日修改
📣
作者:
叶兀
爱丁堡大学 人工智能硕士
原文:
https://zhuanlan.zhihu.com/p/679670110
背景
当LLM出现之后,我认为它最大的能力便是强化人类既有的能力。未来的一种可能分工是,每一个人都是一名全栈,并不单指工程师,是全岗位,而在这个基础上再重新划分岗位,此时考究的是对LLM的理解、自身技能的理解、对业务应用的理解。
Anyway,本次在Kimi Chat的帮助下,利用gitpage、github action、gitee、Yi模型(
零一万物
)和百度千帆完成了一个供我个人使用的在线论文集合,关键是全免费!
github:
https://dukeenglish.github.io/papertutor/
(欢迎star、fork打造自己专属的论文推荐、理解站点)
gitee:
https://gitee.com/dukeenglish/PaperTutor/blob/main/docs/papers.md
技术方案
以静态网页的形式作为呈现,不需要从服务器读取任何数据,所以可以快速响应。同时考虑到有时候网络不太好,所以在gitee同步进行了储存,这里要夸奖一下gitee可以直接将md进行展示,所以暂时就偷懒没有在gitee上进行page 设置。整体结构大致如下,比较简单,示意图:
技术方案选型心路历程
这里做一个简单的流水账式的记录吧,和大家分享一下开发过程。
自从LLM出现,就尝试利用LLM帮助自己进行一些代码的写作,最喜欢的就是新代码理解以及前端这种我不太会的编码工作。由于论文和新的资讯比较多,而有时候各种标题:震惊!xxx超过GPT3.5,xxx比肩GPT-4,GPT-5要来了,世界要毁灭了等这类型的文章过多,实在是看不过来。
所以八月开始就尝试进行一些材料整理和写作,一开始是手工整理paper或者资料,后来感觉确实有点慢,所以就开始尝试用LLM帮忙。
B/S架构
一开始比较想当然,弄个Web服务,后台弄个服务器,搞个简单的对话机器人,网上一把一把的,抄一个。后来LLM很慢,而且我的目标是帮助我快速跟进“有价值的论文”,如果我已经知道要看哪个或者哪些了,才能到对话机器人的地步(夸一波kimi Chat很好用)。
就这么有一搭没一搭的搞,看看前端,看看后端,然后看看接口是不是设计的合理。
等到我本地测试感觉ok的时候,哎!你猜怎么着,我之前买的服务器过期了(确实几年前赶优惠买的),这个时候域名和服务器都成问题了。
这个时候我开始审视这个设计的必要性。
静态网页
我简化了一下我的需求和想法:
1.
第一个需求:本质上需要的是一个网页,里面可以看到我想要的信息就够了
2.
第二个需求:能够直接基于这些信息发起对话问答,协助我将其中的一些要点整明白就更好了
紧接着我就将第二个需求也做了简化,直接前置将这些感兴趣的问题都回答好,来解决速度太慢的问题。
将需求简化后,就将整个问题变成了如何搭建一个免费的静态网页,这样就简单了很多。当了解到github可以免费运行定时任务,加一个Git page即可完成这部分工作。
论文召回
当前论文主要是以主题从arxiv上召回的论文。后续考虑添加更多的论文召回源,然后进行合并。
论文理解和排序
对于每一篇论文,需要做两件事情,第一件是将pdf转为txt,获取其中的信息;第二件事是对txt进行理解。
1.
第一步写了个小脚本处理,获取txt文件
2.
第二步则是借助了百度的千帆平台上的LLM-API进行的理解。
Tips share
1.
Github action是UTC时间
2.
Github action支持密钥设置
这个过程中的一些感受
评测说明不了的问题
评测会有各个维度,即我们希望用一份试卷来对模型进行筛选。可笑的是,模型当前的能力早就已经超出了我们的认知(NN本身的不可解释就已经是这样了),我们正在不断的尝试利用好这个模型从而放大它的能力,这种情况下这份试卷肯定不能全面反映模型的能力。
举个例子,哪一份试卷能够检验出一个人的能力是否适合当网红,所谓的综合素质又如何通过试卷来100%反应。所以,我们换个思路,试卷仅仅是试卷上的维度的能力反应,对于模型实际情况如何,并不能通过这个进行完全的反应。
我觉得核心还是使用。试卷拿100分,和试卷拿80分在能力上可能区别不大。我们不需要让模型进行试卷题海训练从而拟合榜单,我们应该努力让模型能力得到提升,试卷有80分就已经是优秀了。
降维打击
前段时间和一个自动驾驶大佬沟通过程中,有一个insight,OpenAI的做法是倾尽全力往AGI的方向努力,至于它实际的“Vertical”落地场景则交给大家去研究。
相比我们在垂直场景下的落地研究,这种直接AGI的能力然后向垂直应用的落地则是降维打击。