长生：【开源】aiauto_v0.1

原文地址：[开源]aiauto_v0.1

作者：长生

代码块

- description: 从0开始，自动化生成科幻小说，并转成带图和字幕的视频；​
- type: 工程代码​
- author: Khronos​
- version: 0.1​
- time: 2023-12-21 20:26:51​
- 开源：无任何限制的开源，随便用​

背景

漫剧《大妖老师》是可以长时间观看的图文视频，解决了“长时间看小说伤眼睛"和"听有声小说容易睡着"的缺点，使得阅读小说成本更低，体验更佳，扩大了受众。

2.
对其进行技术拆解，且由于不想进行重复工作环节，所以尝试跑通自动化流程；​
a.
小说生成——语音合成——字幕生成——图像生成——视频合成​

结论

一、基本描述

跑通流程：小说生成——语音合成——字幕生成——图像生成——视频合成：​

小说生成：使用openai的api“gpt-4-0613”模型prompt生成小说开篇，并续写至2000字左右；

a.
​Role: 科幻小说作家 ​

b.
续写提示词：​

代码块

{​
        "role": "user",​
        "content": "写得非常不错，借鉴点评内容，继续编写小说内容。\n   ## OutputFormat:\n{\n    \"分析\":\"\",\n    \"正文\":\"\",\n    \"点评\":\"\",\n    \"询问用户\":\"\",\n}"​
}​

c.
结尾提示词：​

代码块

  {​
      "role": "user",​
      "content": "写得非常不错，如果没有明确的向读者透露科幻设定，则透露科幻设定，并且命名一个小说名。\n   ## OutputFormat:\n{\n    \"分析\":\"\",\n    \"正文\":\"\",\n    \"点评\":\"\",\n    \"小说名称\":\"\",\n}"​
  }​

2.
语音合成：使用pyttsx3开源库进行文本到语音的生成；​

3.
字幕生成：使用开源whisper进行语音到文字识别（可输出每个词的开始与结束时间），并处理成字幕；​

4.
图像生成：使用openai的api“gpt-4-0613”模型prompt，进行“字幕文件“的分段，以及生成dall-e-3 prompt，并调用dall-e-3 api接口，生成对应图片；​
a.
​Role: 小说字幕分镜师 用于获取字幕进行分镜、dall-e-3 prompt、以及当前分镜的开始时间；​

5.
视频合成：将图片、音频、字幕，合成视频。​

二、优点

1.
自动化：跑通了从0开始生成科幻图文视频；​

2.
小说开篇出品率还行：40%良品率——40次抽取约有5篇优秀，11篇良好的文章；​

3.
配字幕：提高阅读体验；​

4.
便宜：除去小说内容筛选时间成本，一个视频的生成约5.8元rmb-10.06元rmb；​

5.
无版权纠纷；​

三、缺点

1.
dall-e-3 prompt 生成图片质量不高；​

2.
续写空洞：对于好的设定没有具体事物本身的描写，更多是用描述词“他们解决了这个问题”等话术来推进剧情，从而显得空洞；​

3.
语音不像真人；​

4.
字幕中文字未完全与小说文稿对齐；​

5.
整个过程速度慢，大量可并发环节使用的是循环调用，​
a.
小说生成，图像生成，均可并发。​

长生：【开源】aiauto_v0.1​

长生：【开源】aiauto_v0.1