分享
大雨:简单易懂的向量数据库解析:你需要了解的一切
输入“/”快速插入内容
大雨:简单易懂的向量数据库解析:你需要了解的一切
🔗 原文链接:
https://www.iaiuse.com/posts/4fe1f2...
⏰ 发表时间:2024-03-21
写在前面
•
听说在油管上用了有版权的音乐
◦
所有收益都归原作者所有
◦
谷歌咋知道的呢?
•
听说谷歌新闻的关联关系是靠余弦定理
◦
新闻?文字?
◦
余弦定理?三角函数那个余弦定理?
◦
我要静静,都是些什么呀!
•
AI 真的有智能吗?
◦
要不然它咋理解我的情绪,开心=高兴?
◦
这不废话吗?但是在关系数据库里面可不容易
•
数据库?数据库是什么鬼?
◦
关系数据库?还有非关系数据库吗?
◦
咋还有搞个向量数据库?和 AI 有啥关系?
◦
没听说过
本文尝试从这些角度来解答,我们常常听到的向量化(Emabedding),向量数据库到底是个什么?文章很长,要一顿饭的功夫。某种程度上来说,OpenAI 的向量维度选择要优于竞争对手。
1 向量数据库要解决什么问题呢?
1.1 从 Excel 表格搜索开始了解如何匹配
假设我们有一个关于电影评论的 Excel 表格,表格中包含以下几列:
1.
电影名称
:电影的标题。
2.
评论
:关于电影的评论文本。
3.
评分
:电影的评分,例如 1 到 5。
表格数据示例如下:
电影名称
评论
评分
星球大战
一个非常棒的科幻片,令人兴奋。
5
哈利波特
魔法世界真是神奇,完全被吸引了。
4
复仇者联盟
超级英雄们的绝佳表现,情节紧张刺激。
5
泰坦尼克号
浪漫而悲伤的故事,音乐非常动人。
4
环太平洋
巨大的机器人非常酷,但剧情有些薄弱。
3
传统的搜索原理:单词匹配
在 Excel 中,如果用户想找到包含“酷”的评论,他们可能会使用 Excel 的“查找”功能,输入“酷”并执行查找操作。这将直接导航到“环太平洋”的评论中,因为它字面上包含这个词。
广泛的用途和使用场景
•
文本数据管理
:在个人和商业环境中管理文档、客户反馈、项目说明等。
•
简单的数据筛选
:快速查找包含特定关键词的行或记录,适用于小规模数据集。
场景中的局限性
1.
语义搜索的缺失
:如果用户想找到表达“精彩”或“激动人心”的评论,但没有明确使用这些词,则传统搜索无法返回如“星球大战”的相关结果。
2.
非结构化数据处理不足
:对于图像、音频和视频等非文本内容,传统 Excel 工具无法进行有效的内容搜索。
随着 IT 技术的发展,特别是个人领域的需求多样化促使技术的演进,我们来看下下面几个需求。
1.2 传统搜索不好解决的问题,以电影网站为例
语义搜索,如果让系统理解我们的输入
案例
:电影网站用户希望找到类似于他们最喜欢的电影的其他电影,输入“电影像《星球大战》一样令人兴奋”。传统关系数据库或 Excel 基于字面匹配搜索,无法理解“令人兴奋”这一抽象概念,也无法捕捉到与《星球大战》相似的电影风格或主题,因此难以返回相关的搜索结果。
对非结构化数据(图/音等)进行相似性搜索
案例
:用户上传一张电影《银翼杀手》的电影海报,希望找到具有相似视觉风格的电影。在传统关系数据库或 Excel 中,图像、音频和视频数据无法有效索引或搜索,因为这些工具需要明确的文本描述或关键字。用户无法通过上传图像来检索相似内容,因为这些平台无法解析和理解非结构化数据的内容。
好的,我们可以使用更日常生活中的比喻和简单的语言来解释这些复杂的技术问题,让熟悉 Excel 但不一定了解复杂数据库技术的普通用户能够理解。
推荐引擎,根据喜好推荐