输入“/”快速插入内容

巧妇还要种米来炊:怎么准备LLM的数据?很接地气的经验总结

⏰ 发表时间:2023-11-23
原创 菜叶子,公众号 capycapybabala
说回正题,现在有这样的需求,我们做教育行业里与公司产品以及业务相关的垂直大语言模型。怎么去准备数据以及制作呢?
本文非常接地气(高级的 咱也不会)地介绍从采集到处理数据集的方法,并且针对微调和知识库方法都有一点点涉猎。
先划分我们需要的数据。行业领域内宽泛的具有常识性的数据集需要收集一部分。公司内部的资料是另外一部分。主要是这两部分。
Part 01 .
爬虫行业数据
对于常识性内容,需要和产品、项目和相关内容专家确认范围,先请判断需要哪些论文或者文本,网站,或者是网站上面存有的文件等等。如果是下载好的论文和文本放在本地放在第二阶段处理。这里第一阶段,我们主要用网络爬虫的方法进行爬取,针对于网页的文本和图片进行爬取。
我在工程事件里采用的爬虫主要是用python语言的scrapy库,在crawlab可以做到分布式爬取,非常高效。这里有教程。
Scrapy 入门教程 | 菜鸟教程 (runoob.com)
快速教程 (crawlab.cn)
附件不支持打印
飞书文档 - 图片