分享
基于多模态大模型
输入“/”快速插入内容
基于多模态大
模型
飞书用户7317
飞书用户6770
飞书用户5661
飞书用户6890
飞书用户5568
+18
8月11日修改
模型给现实世界加一本说明书
📣
作者:bluishfish 深度觉醒
2024-01-26 02:47
发表于上海
作者公众号:
https://mp.weixin.qq.com/s/08S3XFO2Np6oHXaKxOyDDg
代码开源了,有动手能力的小伙伴可以自己部署一下,值得一试
https://github.com/bluishfish/llavaprompt
在手机上部署了一下 llava,稍后整理一下具体实现步骤。LVM的应用前景太广了,自定义prompt才是未来,争取在春节出行前部署到车上
50%
50%
采用server方式需要9秒,最快只能加速到1.5秒,理论上用语音交互prompt,分析沿途风景即时捕捉一下动态热点暂时应该够用了。
要达到毫秒级,移动端侧推理lvm才是王道,大内存高算力的手机准备要起来了,芯片压力山大啊
以下为具体教程
基于多模态大模型
(
给现实世界加一本说明书
)
前言
随着ChatGPT
()
的蓬勃发展,大型模型正深刻地影响着各个行业,技术的飞速发展让人感觉仿佛“度日如年”(每天涌现的新技术数量甚至超过过去一年)。在这个快速发展的潮流中,多模态技术作为行业的前沿更是突飞猛进,呈现出一统计算机视觉(CV)和自然语言处理(NLP)的势头。
本文介绍了一款能够迅速解释现实世界的应用,它基于多模态大型模型,为现实世界提供了一本实时说明书。将手机置于车载摄像机位置,该应用能够实时分析当前地区今年新春的最新流行趋势。不仅展示了多模态技术的强大之处,还为我们提供了对真实世界的深入解释。