用魔法强化自己-使用大模型辅助论文学习

飞书用户8537

2024年1月26日修改

📣

作者：叶兀

爱丁堡大学人工智能硕士

背景

当LLM出现之后，我认为它最大的能力便是强化人类既有的能力。未来的一种可能分工是，每一个人都是一名全栈，并不单指工程师，是全岗位，而在这个基础上再重新划分岗位，此时考究的是对LLM的理解、自身技能的理解、对业务应用的理解。​

Anyway，本次在Kimi Chat的帮助下，利用gitpage、github action、gitee、Yi模型（零一万物）和百度千帆完成了一个供我个人使用的在线论文集合，关键是全免费！

github：https://dukeenglish.github.io/papertutor/ （欢迎star、fork打造自己专属的论文推荐、理解站点）

技术方案

以静态网页的形式作为呈现，不需要从服务器读取任何数据，所以可以快速响应。同时考虑到有时候网络不太好，所以在gitee同步进行了储存，这里要夸奖一下gitee可以直接将md进行展示，所以暂时就偷懒没有在gitee上进行page 设置。整体结构大致如下，比较简单，示意图：​

技术方案选型心路历程

这里做一个简单的流水账式的记录吧，和大家分享一下开发过程。​

自从LLM出现，就尝试利用LLM帮助自己进行一些代码的写作，最喜欢的就是新代码理解以及前端这种我不太会的编码工作。由于论文和新的资讯比较多，而有时候各种标题：震惊！xxx超过GPT3.5，xxx比肩GPT-4，GPT-5要来了，世界要毁灭了等这类型的文章过多，实在是看不过来。​

所以八月开始就尝试进行一些材料整理和写作，一开始是手工整理paper或者资料，后来感觉确实有点慢，所以就开始尝试用LLM帮忙。​

B/S架构

一开始比较想当然，弄个Web服务，后台弄个服务器，搞个简单的对话机器人，网上一把一把的，抄一个。后来LLM很慢，而且我的目标是帮助我快速跟进“有价值的论文”，如果我已经知道要看哪个或者哪些了，才能到对话机器人的地步（夸一波kimi Chat很好用）。​

就这么有一搭没一搭的搞，看看前端，看看后端，然后看看接口是不是设计的合理。​

等到我本地测试感觉ok的时候，哎！你猜怎么着，我之前买的服务器过期了（确实几年前赶优惠买的），这个时候域名和服务器都成问题了。​

这个时候我开始审视这个设计的必要性。

静态网页

我简化了一下我的需求和想法：

1.
第一个需求：本质上需要的是一个网页，里面可以看到我想要的信息就够了​

2.
第二个需求：能够直接基于这些信息发起对话问答，协助我将其中的一些要点整明白就更好了​

紧接着我就将第二个需求也做了简化，直接前置将这些感兴趣的问题都回答好，来解决速度太慢的问题。​

将需求简化后，就将整个问题变成了如何搭建一个免费的静态网页，这样就简单了很多。当了解到github可以免费运行定时任务，加一个Git page即可完成这部分工作。​

论文召回

当前论文主要是以主题从arxiv上召回的论文。后续考虑添加更多的论文召回源，然后进行合并。​

论文理解和排序

对于每一篇论文，需要做两件事情，第一件是将pdf转为txt，获取其中的信息；第二件事是对txt进行理解。​

1.
第一步写了个小脚本处理，获取txt文件​

2.
第二步则是借助了百度的千帆平台上的LLM-API进行的理解。​

Tips share

1.
Github action是UTC时间​

2.
Github action支持密钥设置​

这个过程中的一些感受

评测说明不了的问题

评测会有各个维度，即我们希望用一份试卷来对模型进行筛选。可笑的是，模型当前的能力早就已经超出了我们的认知（NN本身的不可解释就已经是这样了），我们正在不断的尝试利用好这个模型从而放大它的能力，这种情况下这份试卷肯定不能全面反映模型的能力。​

举个例子，哪一份试卷能够检验出一个人的能力是否适合当网红，所谓的综合素质又如何通过试卷来100%反应。所以，我们换个思路，试卷仅仅是试卷上的维度的能力反应，对于模型实际情况如何，并不能通过这个进行完全的反应。​

我觉得核心还是使用。试卷拿100分，和试卷拿80分在能力上可能区别不大。我们不需要让模型进行试卷题海训练从而拟合榜单，我们应该努力让模型能力得到提升，试卷有80分就已经是优秀了。​

降维打击

前段时间和一个自动驾驶大佬沟通过程中，有一个insight，OpenAI的做法是倾尽全力往AGI的方向努力，至于它实际的“Vertical”落地场景则交给大家去研究。​

相比我们在垂直场景下的落地研究，这种直接AGI的能力然后向垂直应用的落地则是降维打击。​

用魔法强化自己-使用大模型辅助论文学习​