巧妇还要种米来炊：怎么准备LLM的数据？很接地气的经验总结

⏰ 发表时间：2023-11-23

原创菜叶子，公众号 capycapybabala

说回正题，现在有这样的需求，我们做教育行业里与公司产品以及业务相关的垂直大语言模型。怎么去准备数据以及制作呢？​

本文非常接地气（高级的 咱也不会）地介绍从采集到处理数据集的方法，并且针对微调和知识库方法都有一点点涉猎。​

先划分我们需要的数据。行业领域内宽泛的具有常识性的数据集需要收集一部分。公司内部的资料是另外一部分。主要是这两部分。​

Part 01 .

爬虫行业数据

对于常识性内容，需要和产品、项目和相关内容专家确认范围，先请判断需要哪些论文或者文本，网站，或者是网站上面存有的文件等等。如果是下载好的论文和文本放在本地放在第二阶段处理。这里第一阶段，我们主要用网络爬虫的方法进行爬取，针对于网页的文本和图片进行爬取。​

我在工程事件里采用的爬虫主要是用python语言的scrapy库，在crawlab可以做到分布式爬取，非常高效。这里有教程。​

•

Scrapy 入门教程 | 菜鸟教程 (runoob.com)

•

快速教程 (crawlab.cn)

•

界面非常友好，可以同时跑好多任务

做到csv或json导出

举个例子，我这里要爬取国家基础教育资源网的实验材料。

这种有结构清晰的网页比较好爬取

按教程里做网页结构分析，一次可以跑很多个网页任务。然后获得如下内容：​

60%

40%

比如这里获取到网页内容和网页指向的文件等等...

巧妇还要种米来炊：怎么准备LLM的数据？很接地气的经验总结​