分享
巧妇还要种米来炊:怎么准备LLM的数据?很接地气的经验总结
输入“/”快速插入内容
巧妇还要种米来炊:怎么准备LLM的数据?很接地气的经验总结
🔗 原文链接:
https://mp.weixin.qq.com/s?__biz=Mz...
⏰ 发表时间:2023-11-23
原创 菜叶子,公众号 capycapybabala
说回正题,现在有这样的需求,我们做教育行业里与公司产品以及业务相关的垂直大语言模型。怎么去准备数据以及制作呢?
本文非常接地气(高级的 咱也不会)地介绍从采集到处理数据集的方法,并且针对微调和知识库方法都有一点点涉猎。
先划分我们需要的数据。行业领域内宽泛的具有常识性的数据集需要收集一部分。公司内部的资料是另外一部分。主要是这两部分。
Part
01
.
爬虫行业数据
对于常识性内容,需要和产品、项目和相关内容专家确认范围,先请判断需要哪些论文或者文本,网站,或者是网站上面存有的文件等等。如果是下载好的论文和文本放在本地放在第二阶段处理。这里第一阶段,我们主要用网络爬虫的方法进行爬取,针对于网页的文本和图片进行爬取。
我在工程事件里采用的爬虫主要是用python语言的scrapy库,在crawlab可以做到分布式爬取,非常高效。这里有教程。
•
Scrapy 入门教程 | 菜鸟教程 (
runoob.com
)
https://www.runoob.com/w3cnote/scrapy-detail.html
•
快速教程 (
crawlab.cn
)
•
https://docs.crawlab.cn/zh/guide/basic-tutorial/#%E5%88%9B%E5%BB%BA%E7%88%AC%E8%99%AB
界面非常友好,可以同时跑好多任务
做到csv或json导出
举个例子,我这里要爬取国家基础教育资源网的实验材料。
这种有结构清晰的网页比较好爬取
按教程里做网页结构分析,一次可以跑很多个网页任务。然后获得如下内容:
60%
40%
比如这里获取到网页内容和网页指向的文件等等...