输入“/”快速插入内容

一共133mb干净标准的QA对

2024年5月8日修改
本文讨论了王海鹏分享的由星辰大海提供的数据集相关信息,包括数据集的大小、格式、内容、案例、使用方式及版权信息等。关键要点包括:
1.
数据集概况:共133mb,42份各方面数据集统一为json格式,有数万条json问答对。
2.
数据集格式结构:以[{ "instruction": "具体指令", "input": "输入文本", "output": "预期输出结果"}]形式呈现,部分数据集input无输入。
3.
数据集案例:有弱智问题、抽样QA等案例展示,如对“石油为何不能炒菜”“母亲送伞故事相关续写”的问答。
4.
使用方式:json可直接用于微调训练垂直领域大模型;如需作知识库,推荐用https://toolgg.com/json2csv/转化为csv问答对。
5.
版权信息:数据集开源,license为Apache License 2.0,违规联系删除 。
6.
数据集下载:链接: https://pan.baidu.com/s/10ayU7Xhl9CT0NNTXBeXgyg?pwd=8tqn ,提取码: 8tqn 。
7.
分享者信息:星辰大海个人网站为https://gapier.net/gptsmax
飞书用户3696
数据集分享
数据集下载连接:链接: https://pan.baidu.com/s/10ayU7Xhl9CT0NNTXBeXgyg?pwd=8tqn 提取码: 8tqn 复制这段内容后打开百度网盘手机App,操作更方便哦
数据集描述
由星辰大海分享的42份各方面数据集,统一为json格式,共计数万条json问答对。
星辰大海的个人网站:https://gapier.net/gptsmax
数据集的格式和结构
[
{
"instruction": 一个具体的指令
"input": 输入的文本
"output":预期的输出结果
}
]
注意,数据集中,标注QA、财政货币QA、抽样QA三个数据集input有输入,其余数据集的input没有输入
数据集案例
弱智问题
[
{
"instruction": "天下没有不散的筵席,那么我们相聚的意义又是什么",
"input": "",
"output": "尽管我们相聚的时光有限,但是相聚的意义在于创造美好的回忆和珍贵的关系。相聚让我们感受到彼此的关怀、支持和友情。我们可以一起分享喜悦、快乐和困难,互相支持和激励。相聚也可以是一个机会,让我们相互了解、学习和成长。最重要的是,相聚能够带给我们真实的人际交往和情感交流,让我们感受到生活的丰富和美好。所以,即使相聚的时间有限,我们仍然要珍惜这份意义和与彼此相聚的时光。"
},
{
"instruction": "石油也是油,为啥没人用它来炒菜?",
"input": "",
"output": "石油虽然也是一种油,但它并不适用于烹饪。这主要是因为石油和食用油在化学成分和用途上有很大的不同:\n\n1. 化学 成分:食用油是由植物或动物脂肪制成的,主要含有对人体有益的脂肪酸,如欧米伽脂肪酸。而石油是一种化石燃料,主要由碳氢化合物组成,含有多种有害的化学物质。\n\n2. 毒性:石油中含有的化学物质对人体是有害的,甚至是致癌的。这些物质在加热时会产 生有毒的烟雾和蒸气,这对健康极为不利。\n\n3. 风味和气味:食用油在烹饪中可以增添食物的风味,而石油的气味和味道都非常 强烈且令人不悦,不适合用于食物。\n\n4. 燃点:石油的燃点远低于食用油,这意味着它在较低的温度下就会燃烧,这在厨房中极 为危险,容易引发火灾。\n\n因此,出于健康和安全的考虑,石油绝不能用于烹饪。食用油是专门为食品烹饪设计的,既安全又有益健康。"
}
]
抽样QA
使用方式
数据集json可以直接用来微调训练,训练垂直领域微调大模型。
如果需要将数据集作为知识库,推荐转化为csv问答对;
推荐转化网站:https://toolgg.com/json2csv/
数据集版权信息
数据集已经开源,license为Apache License 2.0,如有违反相关条款,随时联系删除。