分享
长生:【开源】aiauto_v0.1
输入“/”快速插入内容
长生:【开源】aiauto_v0.1
原文地址:
[开源]aiauto_v0.1
作者:长生
代码块
Markdown
- description: 从0开始,自动化生成科幻小说,并转成带图和字幕的视频;
- type: 工程代码
- author: Khronos
- version: 0.1
- time: 2023-12-21 20:26:51
- 开源:无任何限制的开源,随便用
背景
1.
漫剧《大妖老师》
是可以长时间观看的图文视频,解决了“长时间看小说伤眼睛"和"听有声小说容易睡着"的缺点,使得阅读小说成本更低,体验更佳,扩大了受众。
2.
对其进行技术拆解,且由于不想进行重复工作环节,所以尝试跑通自动化流程;
a.
小说生成——语音合成——字幕生成——图像生成——视频合成
结论
一、基本描述
跑通流程:小说生成——语音合成——字幕生成——图像生成——视频合成:
1.
小说生成:使用openai的api“gpt-4-0613”模型prompt生成小说开篇,并续写至2000字左右;
a.
Role: 科幻小说作家
b.
续写提示词:
代码块
Markdown
{
"role": "user",
"content": "写得非常不错,借鉴点评内容,继续编写小说内容。\n ## OutputFormat:\n{\n \"分析\":\"\",\n \"正文\":\"\",\n \"点评\":\"\",\n \"询问用户\":\"\",\n}"
}
c.
结尾提示词:
代码块
Markdown
{
"role": "user",
"content": "写得非常不错,如果没有明确的向读者透露科幻设定,则透露科幻设定,并且命名一个小说名。\n ## OutputFormat:\n{\n \"分析\":\"\",\n \"正文\":\"\",\n \"点评\":\"\",\n \"小说名称\":\"\",\n}"
}
2.
语音合成:使用pyttsx3开源库进行文本到语音的生成;
3.
字幕生成:使用开源whisper进行语音到文字识别(可输出每个词的开始与结束时间),并处理成字幕;
4.
图像生成:使用openai的api“gpt-4-0613”模型prompt,进行“字幕文件“的分段,以及生成dall-e-3 prompt,并调用dall-e-3 api接口,生成对应图片;
a.
Role: 小说字幕分镜师
用于获取字幕进行分镜、dall-e-3 prompt、以及当前分镜的开始时间;
5.
视频合成:将图片、音频、字幕,合成视频。
二、
优点
1.
自动化:跑通了从0开始生成科幻图文视频;
2.
小说开篇出品率还行:40%良品率——40次抽取约有5篇优秀,11篇良好的文章;
3.
配字幕:提高阅读体验;
4.
便宜:除去小说内容筛选时间成本,一个视频的生成约5.8元rmb-10.06元rmb;
5.
无版权纠纷;
三、缺点
1.
dall-e-3 prompt 生成图片质量不高;
2.
续写空洞:对于好的设定没有具体事物本身的描写,更多是用描述词“他们解决了这个问题”等话术来推进剧情,从而显得空洞;
3.
语音不像真人;
4.
字幕中文字未完全与小说文稿对齐;
5.
整个过程速度慢,大量可并发环节使用的是循环调用,
a.
小说生成,图像生成,均可并发。