基于多模态大模型

飞书用户7317

飞书用户6770

飞书用户5661

飞书用户6890

飞书用户5568

+18

8月11日修改

模型给现实世界加一本说明书

📣

作者：bluishfish 深度觉醒 2024-01-26 02:47 发表于上海

代码开源了，有动手能力的小伙伴可以自己部署一下，值得一试​

在手机上部署了一下 llava，稍后整理一下具体实现步骤。LVM的应用前景太广了，自定义prompt才是未来，争取在春节出行前部署到车上​

50%

采用server方式需要9秒，最快只能加速到1.5秒，理论上用语音交互prompt，分析沿途风景即时捕捉一下动态热点暂时应该够用了。​

要达到毫秒级，移动端侧推理lvm才是王道，大内存高算力的手机准备要起来了，芯片压力山大啊​

以下为具体教程

基于多模态大模型(给现实世界加一本说明书)

前言

随着ChatGPT()的蓬勃发展，大型模型正深刻地影响着各个行业，技术的飞速发展让人感觉仿佛“度日如年”（每天涌现的新技术数量甚至超过过去一年）。在这个快速发展的潮流中，多模态技术作为行业的前沿更是突飞猛进，呈现出一统计算机视觉（CV）和自然语言处理（NLP）的势头。​

本文介绍了一款能够迅速解释现实世界的应用，它基于多模态大型模型，为现实世界提供了一本实时说明书。将手机置于车载摄像机位置，该应用能够实时分析当前地区今年新春的最新流行趋势。不仅展示了多模态技术的强大之处，还为我们提供了对真实世界的深入解释。​

基于多模态大模型​