《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》
《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》
- 一、多模态模型的崛起之路
- (一)从单一到多元:模态的融合演进
- (二)关键技术突破:解锁多模态潜能
- 二、开源多模态模型深度剖析
- (一)开源之光:优势尽显
- (二)代表模型巡礼
- 三、多领域的惊艳应用
- (一)智能教育:因材施教的新帮手
- (二)医疗保健:精准诊断的智慧眼
- (三)娱乐创作:灵感迸发的创意源
- (四)智能家居:便捷生活的指挥官
- (五)自动驾驶:安全出行的领航员
- 四、挑战与应对策略
- (一)技术瓶颈待破
- (二)伦理困境求解
- 五、未来展望:无限可能的新征程
- 六、典型开源多模态模型详解
- (一)deepseek-vl
- (二)Emu
- (三)Moshi
- (四)MiniGPT-4
- (五)LLaVA-Intern
开源多模态神经网络模型:AI 领域的璀璨新星
在当今数字化浪潮中,人工智能已成为推动各行各业变革的核心力量。其中,多模态模型作为 AI 领域的前沿技术,正逐渐崭露头角。它能够融合文本、图像、音频、视频等多种数据类型,模拟人类的多感官认知方式,对复杂信息进行全方位理解与处理,从而解锁全新的应用场景与无限可能。
与闭源模型不同,开源多模态模型秉持开放、共享的精神,将源代码、模型架构、训练数据等宝贵资源向公众公开。这意味着,无论是科研人员、开发者,还是普通爱好者,都能深入探究模型的内在机制,依据自身需求对其进行定制、优化与拓展。这种高度的透明性与协作性,不仅极大地加速了技术的迭代创新,还为不同领域的应用落地注入了源源不断的活力。
开源多模态模型的出现,打破了技术壁垒,让更多人得以参与到 AI 技术的研发与应用中来。无论是学术研究、工业制造,还是日常生活中的智能交互,它都展现出了巨大的潜力,正引领我们迈向一个更加智能、便捷的未来。接下来,让我们一同深入探索开源多模态模型的奇妙世界,领略其独特魅力与广阔前景。
一、多模态模型的崛起之路
(一)从单一到多元:模态的融合演进
回首人工智能的发展历程,早期的 AI 模型主要聚焦于单一模态的数据处理。在计算机视觉领域,图像识别技术不断精进,从最初只能识别简单的几何形状,逐步发展到精准辨别复杂场景中的各类物体。人脸识别技术更是取得了长足进步,广泛应用于安防、门禁、支付等诸多领域,为人们的生活带来了极大便利。而在自然语言处理方面,机器翻译、文本分类、情感分析等任务也在持续优化,让不同语言之间的交流障碍逐渐缩小,信息得以更高效地流通。
然而,随着实际应用需求的日益复杂,单一模态的局限性愈发凸显。以智能助手为例,仅依靠语音识别技术,它只能将用户的语音指令转换为文本,却难以真正理解指令背后的意图。若要实现诸如 “查询明天从北京飞往上海的航班,并预订靠窗座位” 这样复杂的任务,就必须结合文本信息、航班数据库以及对座位偏好的理解。同样,在自动驾驶场景中,单纯依靠摄像头图像数据,车辆在面对强光直射、暴雨倾盆等恶劣天气时,识别精度会大幅下降,而融合激光雷达、毫米波雷达等多模态传感器数据,就能更精准地感知周围环境,做出安全可靠的驾驶决策。
正是这些现实需求的强烈驱动,促使科研人员踏上了多模态融合的探索之旅。他们致力于打破模态之间的壁垒,让不同类型的数据相互补充、协同工作,从而实现对信息的全方位理解与处理。这一探索过程不仅是技术的演进,更是为了让 AI 更好地服务于人类社会,开启一个更加智能、便捷的新时代。
(二)关键技术突破:解锁多模态潜能
在多模态模型的发展进程中,一系列关键技术的突破成为了推动其走向实用化的强大动力。
模型架构创新是其中的核心要素。早期的多模态模型多采用简单的拼接或相加方式融合不同模态信息,效果不尽人意。随着 Transformer 架构的横空出世,这一局面得到了彻底改变。Transformer 凭借其独特的多头注意力机制,能够同时关注输入序列的不同位置,为多模态信息的深度融合提供了理想的框架。基于 Transformer 的多模态模型如 ViLBERT、LXMERT 等应运而生,它们在处理图像与文本的关联任务时展现出了卓越性能,能够精准捕捉到图像中的视觉元素与文本描述之间的微妙联系,为多模态理解开辟了新的道路。
注意力机制的优化同样功不可没。在多模态场景下,如何让模型聚焦于关键信息至关重要。通过改进注意力机制,模型能够依据任务需求,自适应地为不同模态的信息分配权重。在视频理解任务中,面对画面中纷繁复杂的人物、场景与动作,模型可以突出重点对象的特征,同时弱化无关背景信息的干扰,从而更准确地解读视频内容,实现对动态场景的智能理解。
大规模预训练策略的应用则为多模态模型的广泛落地奠定了坚实基础。借助海量的多模态数据进行预训练,模型能够学习到通用的知识与特征表示。以 OpenAI 的 CLIP 模型为例,它在包含数亿张图像及其文本描述的大数据集上进行预训练,从而具备了强大的泛化能力。在此基础上,针对特定的下游任务,只需进行少量的微调,就能快速适应,大幅缩短了开发周期,降低了应用门槛,使得多模态模型能够在图像生成、视觉问答、智能推荐等众多领域得以迅速推广,释放出巨大的应用价值。
二、开源多模态模型深度剖析
(一)开源之光:优势尽显
相较于闭源模型,开源多模态模型宛如一盏明灯,照亮了 AI 技术创新与应用的前行道路。
开源模型极大地促进了技术的创新与突破。全球范围内的科研人员、开发者能够深入研究模型的源代码,明晰其架构设计、训练机制,进而依据自身的研究方向与创意灵感,对模型进行优化改进、拓展功能。这种集思广益的开发模式,使得新的算法、架构如雨后春笋般不断涌现,推动多模态技术持续向前迈进。而闭源模型往往将核心技术封闭在少数开发者手中,限制了外部的创新活力,创新速度相对迟缓。
从成本角度来看,开源模型优势显著。对于广大中小企业、初创团队以及科研机构而言,从头开始研发多模态模型需要耗费海量的资金、人力与时间成本,这无疑是一道难以逾越的门槛。而开源模型提供了免费或低成本的使用方案,使用者只需在已有模型基础上进行微调、定制,即可快速满足自身业务需求,将更多资源投入到实际应用的打磨与推广中。闭源模型通常价格高昂,授权使用条件苛刻,使得许多预算有限的组织望而却步。
在定制化需求满足方面,开源模型更是当仁不让。不同行业、不同场景对多模态模型的功能要求千差万别。医疗领域需要精准识别医学影像中的病灶并结合病历给出诊断建议;教育领域期望借助模型实现个性化的智能辅导,根据学生的学习情况提供针对性的学习资料与反馈。开源模型的开放性允许开发者深入底层代码,按照特定需求灵活调整模型结构、参数,添加自定义的功能模块,完美适配多样化的应用场景。闭源模型由于其封闭性,定制化程度极为有限,难以满足特殊场景的个性化诉求。
开源模型还对社区发展起到了强大的推动作用。围绕开源多模态模型,迅速汇聚起了庞大的开发者社区。大家在社区中分享使用心得、交流技术难题、贡献优化代码,形成了一个良性循环的生态系统。新手开发者能够在社区中快速学习成长,获取丰富的知识与经验;资深开发者则能通过分享获得认可,激发更多创新灵感。这种社区驱动的发展模式,加速了开源模型的迭代升级,也为 AI 技术的普及与应用营造了良好的氛围。与之相比,闭源模型的社区活跃度较低,交流与协作相对受限,难以形成如此繁荣的生态景象。
(二)代表模型巡礼
在开源多模态模型的璀璨星空中,诸多耀眼的明星正熠熠生辉,它们各自凭借独特的优势与卓越的性能,在不同领域展现出非凡的实力。
- Aria:全能多面手
Aria 作为全球首个开源多模态原生混合专家(MoE)模型,犹如一位全能选手,展现出令人惊叹的多模态理解能力。它能够无缝处理文本、代码、图像和视频等多种输入类型,在复杂的任务场景中灵活调配资源,游刃有余地应对各种挑战。
在处理长文档时,Aria 凭借其超长的 64K tokens 上下文窗口,能够一次性涵盖大量文本信息,精准捕捉文档中的关键细节、逻辑结构与语义关联。无论是剖析学术论文、解读法律条文,还是分析商业报告,它都能迅速提炼核心要点,为用户提供简洁明了的总结与洞察。面对长达数百页的技术文档,Aria 可以快速定位关键技术点、梳理技术演进脉络,辅助研发人员高效掌握核心知识,节省大量阅读时间。
在视频解析任务中,Aria 同样表现卓越。它能够精准识别视频中的场景转换、人物动作、物体变化等关键元素,结合视频的音频信息,实现对视频内容的深度理解。对于在线教育视频,Aria 可以自动提取知识点、生成要点总结,帮助学生课后复习;对于监控视频,它能够实时监测异常行为,如闯入、跌倒等,及时发出警报,保障公共安全。
Aria 的架构设计极具创新性,采用细粒度的混合专家解码器,每个文本标记激活 3.5B 参数,总参数量达到 24.9B,同时配备轻量级的视觉编码器,能够高效处理不同长度、大小和纵横比的视觉输入。这种精妙的设计不仅提升了训练和推理速度,还实现了参数的高效利用,为其卓越性能奠定了坚实基础。 - Leopard:富文本图像专家
Leopard 由跨学科研究团队精心打造,专为攻克富文本图像任务而生。在现实世界中,如演示文稿、扫描文档和网页快照等富含文本的图像无处不在,然而理解和处理这些图像却困难重重。
Leopard 主要面临两大挑战:一是高质量的多张文本丰富图像场景的指令调整数据集稀缺;二是在文本丰富的多图像场景中,难以平衡图像分辨率与视觉特征序列长度的限制。为了突破这些困境,Leopard 团队整理了约一百万个高质量的多模态指令微调数据,专门针对文本丰富、多图像场景进行定制,涵盖多页文档、多张图表和多张表格、网页轨迹等关键领域。同时,他们开发了自适应高分辨率编码模块,能够依据输入图像的原始纵横比动态优化序列长度的分配。
在多页文档处理场景下,Leopard 展现出强大的实力。面对一份复杂的商业合同 PDF 文件,它可以自动识别每页的文本内容、格式布局,理解不同页面条款之间的关联与逻辑关系,精准提取关键信息,如合同双方信息、权益义务条款、生效日期等。用户只需上传文件,就能快速获得结构化的合同摘要,还能针对具体条款进行提问,Leopard 会给出准确详细的解答,大大提高了文档处理效率。
在数据可视化领域,Leopard 同样表现出色。对于包含多个图表、图形的科学报告或数据分析文档,它能够解读不同图表所表达的数据含义,分析图表之间的内在联系,将复杂的数据可视化内容转化为通俗易懂的文字描述,助力研究人员快速洞察数据背后的规律与趋势,加速科研进程。 - CogVLM:视觉语言融合大师
CogVLM 作为先进的视觉语言基础模型,以其深度融合技术在视觉问答和图像字幕生成等任务中脱颖而出。它的核心在于基于注意力的融合机制,通过精心设计的架构,将文本和图像嵌入方式巧妙结合,实现了两种模态之间的高度协同工作。
在视觉问答任务中,面对一幅展示城市街道场景的图片,用户提问 “图片中红色汽车旁边的商店招牌是什么?”,CogVLM 能够迅速聚焦于红色汽车这一视觉元素,通过注意力机制关联周围的文本信息,精准识别出商店招牌上的文字,并给出准确回答。在图像字幕生成方面,对于一幅描绘自然风光的画作,CogVLM 可以捕捉到画面中的山水、树木、云雾等细节,运用优美的语言生成如 “在这幅画作中,青山连绵起伏,云雾缭绕其间,葱郁的树木点缀着山坡,营造出宁静而悠远的自然意境” 这样富有诗意的字幕,生动展现画面内容。
CogVLM 包含视觉变换器(ViT)编码器、MLP 适配器、预训练的大型语言模型(GPT)和一个视觉专家模块四个基本组件。其中,5B 参数的视觉编码器和 6B 参数的视觉专家模块,总共 11B 参数建模图像特征。在训练过程中,CogVLM 采用多阶段训练策略,结合大规模的公开图像 - 文本对数据,如 LAION - 2B 和 COYO - 700M,经过精细筛选与多次迭代训练,不断优化模型参数,使得模型在处理复杂视觉语言任务时表现出极高的准确率与稳定性。 - LLaVA:智能交互先锋
LLaVA(大型语言和视觉助手)以其强大的指令遵循能力备受瞩目,致力于打造能够同时处理文本和视觉输入的智能聊天机器人。它巧妙地集成了语言与视觉能力,为用户带来了前所未有的交互体验。
在教育领域,LLaVA 可以作为学生的专属智能辅导老师。当学生遇到一道数学难题,只需将题目图片上传,结合文字描述向 LLaVA 提问求解思路,它便能理解题目内容,运用所学知识逐步引导学生解题,提供详细的步骤讲解与示例,帮助学生攻克难题。同时,它还能根据学生的学习历史与薄弱环节,推荐相关的知识点拓展资料,助力学生全面提升学习效果。
在客服场景中,LLaVA 更是展现出巨大价值。面对客户对某款电子产品的咨询,客户发送产品图片并询问功能使用方法、故障排除等问题,LLaVA 能够快速识别产品型号,结合内置的产品知识图谱,以通俗易懂的语言为客户提供准确的操作指导与解决方案,极大提升客户满意度,减轻人工客服压力,实现 24 小时不间断的智能服务。
LLaVA 基于 Vicuna 解码语言,并利用 CLIP 技术优化识别效率,在训练过程中充分利用 ChatGPT 和 GPT - 4 生成的指令数据,不断强化模型对复杂指令的理解与执行能力,确保与用户交互的自然性、流畅性与有效性,让用户在交流中感受到智能助手的贴心与智慧。 - Ovis:阿里创新引擎
Ovis 模型作为阿里达摩院的智慧结晶,宛如一颗闪耀的创新引擎,为多模态领域注入了全新活力。它基于 Transformer 架构,融合了文本、图像、语音等多种模态的信息,创新性地引入了跨模态注意力机制,能够在不同模态之间灵活切换焦点,精准捕捉模态间的关联信息,实现全方位感知。
在数据优化方面,Ovis 模型采用了自监督学习与多任务学习相结合的策略。通过海量的无标注数据进行自监督预训练,模型自主学习到不同模态的通用特征,为后续任务奠定坚实基础。同时,在多任务学习框架下,Ovis 模型并行处理多个相关任务,如视觉问答、图像描述、语音识别等,让模型在不同场景下积累丰富经验,进一步提升泛化能力。
以智能零售场景为例,Ovis 模型展现出卓越的应用潜力。在无人超市中,它可以实时分析货架上商品的摆放情况,结合商品图像、库存数据以及销售趋势,为商家提供精准的补货建议;当顾客拿起商品查看时,通过摄像头捕捉顾客的表情、动作,结合语音交互,理解顾客的需求与偏好,提供个性化的产品推荐与优惠信息,大幅提升购物体验,助力商家实现智能化运营。
Ovis 模型还具备强大的可扩展性,支持开发者根据特定业务需求定制专属的多模态应用。无论是医疗影像诊断辅助系统、智能驾驶辅助决策平台,还是智能家居中控中心,Ovis 模型都能提供坚实的技术支撑,展现出广阔的商用前景,有望成为推动各行业智能化升级的核心力量。
三、多领域的惊艳应用
(一)智能教育:因材施教的新帮手
在教育领域,开源多模态模型正掀起一场前所未有的变革,为教学与学习过程注入了全新活力,让因材施教的教育理念得以真正落地。
智能辅导是其重要应用场景之一。模型能够实时分析学生的学习表现,涵盖课堂参与度、作业完成情况、考试成绩等多方面数据。通过对这些数据的深度挖掘,模型精准洞察学生的知识掌握状况,针对薄弱环节提供个性化的学习指导。以数学学科为例,当学生在代数方程求解上频繁出错,模型不仅能精准定位问题根源,还能推送专门讲解该知识点的视频教程、相似题型的练习资料,以及详细的解题思路与步骤分析,助力学生逐一攻克难点,实现知识的巩固与提升。
虚拟实验室则为学生提供了沉浸式的实践体验。借助多模态模型强大的模拟能力,学生能够突破时空限制,随时随地开展各种实验。在物理实验中,学生可以通过虚拟操作电路元件,实时观察电流、电压的变化,直观感受欧姆定律的实际应用;在化学实验里,模拟不同物质的化学反应过程,清晰看到分子结构的变化、物质颜色与状态的转变,让抽象的化学知识变得触手可及。这种身临其境的学习方式,极大激发了学生的学习兴趣与探索欲望,培养了他们的实践动手能力与创新思维。
个性化学习规划更是开源多模态模型的一大亮点。它依据学生的兴趣爱好、学习进度、认知风格等个性化因素,为每个学生量身定制专属的学习路径。喜欢文学创作的学生,模型会推荐经典文学作品赏析、创意写作课程,并安排相应的写作练习与反馈指导;学习进度较快的学生,能获得更具挑战性的拓展学习资料,如学科前沿研究成果介绍、高阶知识专题讲座等,满足他们的求知欲,充分挖掘学习潜能。
以松鼠 Ai 推出的多模态智适应大模型为例,该模型深度融合深度学习、强化学习、自然语言处理等前沿技术,能够智能识别学生解题过程中的错误与难点,立即提供个性化学习建议。通过引入草稿纸内容智能分析功能,精准定位学生的思维误区,帮助教师和学生迅速找到问题症结所在。同时,在智能人机交互方面取得重大突破,支持文字与语音互动,准确捕捉学生情绪变化,给予个性化反馈与鼓励,营造高效、人性化的学习环境,为智能教育的发展树立了典范。
(二)医疗保健:精准诊断的智慧眼
医疗保健行业,关乎着每一个人的生命健康,如今开源多模态模型宛如一位拥有 “智慧眼” 的得力助手,正逐步渗透到各个关键环节,为提升医疗服务质量、守护人类健康贡献着巨大力量。
在医学影像诊断领域,模型发挥着至关重要的作用。面对纷繁复杂的 X 光、CT、MRI 等影像数据,它能够快速、精准地识别出病灶的位置、大小、形状以及特征。以肺部疾病诊断为例,对于早期肺癌的微小结节,模型能够通过对大量影像数据的学习,敏锐捕捉到结节的细微异常,结合临床症状、病史等文本信息,为医生提供辅助诊断建议,大大提高了早期肺癌的检出率,为患者赢得宝贵的治疗时间。
疾病预测方面,开源多模态模型同样表现卓越。它整合患者的基因数据、生活习惯(如饮食、运动、吸烟饮酒等)、家族病史以及实时的生理监测数据(如心率、血压、血糖波动等),运用先进的机器学习算法,预测疾病的发生风险。对于心血管疾病高危人群,模型提前预警,提示患者调整生活方式、定期进行针对性检查,医疗机构也能据此提前制定干预措施,合理分配医疗资源,有效降低疾病的发生率与严重程度。
在康复治疗监测环节,模型实时跟踪患者的康复进展。通过摄像头捕捉患者的肢体动作、面部表情,结合可穿戴设备监测的运动数据、生理参数,全方位评估康复训练效果。若患者在肢体力量恢复训练中动作不规范或训练强度不足,模型及时反馈,指导康复治疗师调整训练方案,确保患者能够以最佳状态恢复健康。
例如,斯坦福大学的研究团队利用多模态大模型助力放射科医生从胸部 X 光片中检测和诊断肺部疾病。他们开发的模型表现优于传统诊断方法,在标准射线图像上进行训练,并结合相应的文本报告,使得在识别各种病理时实现了纳米颗粒 RNA 输送,准确率超过 95%,为肺部疾病的精准诊断提供了强有力的支持,展现了开源多模态模型在医疗领域的巨大应用潜力。
(三)娱乐创作:灵感迸发的创意源
在娱乐产业这片充满无限创意与想象的领域,开源多模态模型已然成为激发灵感、推动创新的核心动力,为影视、游戏、艺术创作等诸多方面带来了全新体验与变革。
在影视创作领域,从剧本构思到后期制作,模型全程深度参与。在剧本创作初期,它能够依据给定的主题、风格或关键词,快速生成故事梗概、人物设定与情节线索。创作者输入 “科幻冒险”“时空穿越” 等关键词,模型瞬间输出一个充满奇幻色彩的故事框架,包含个性鲜明的角色、跌宕起伏的情节,为创作者提供丰富的灵感素材。在拍摄过程中,模型通过分析拍摄场地的图像、视频资料,结合导演的创意需求,辅助制定拍摄方案,优化镜头调度与场景布置。后期制作阶段,模型自动识别视频中的关键元素,如人物、场景、动作,精准匹配最适宜的特效、音乐与字幕,大幅提升制作效率与作品质量。
游戏开发方面,开源多模态模型为游戏世界注入了无尽生机与活力。它助力开发者设计出更加丰富多样、富有沉浸感的游戏剧情。根据游戏的类型、目标受众与核心玩法,模型生成独具特色的主线任务与支线剧情,让玩家在游戏中时刻保持新鲜感与探索欲。同时,在游戏角色塑造上,模型通过对大量艺术作品、人物形象的学习,为角色设计出精美绝伦的外观、个性十足的动作与生动逼真的表情,增强角色的吸引力与代入感。例如,一款角色扮演游戏中的 NPC(非玩家角色),模型赋予其独特的外貌特征、语言风格与行为逻辑,使其仿佛拥有真实的生命,与玩家之间的互动更加自然流畅,极大提升了游戏的趣味性与可玩性。
艺术创作领域,开源多模态模型更是成为了艺术家们拓展创意边界的得力伙伴。对于绘画创作,它能够根据创作者的描述,如 “一幅描绘夏日傍晚海边宁静氛围的油画”,生成相应的草图或初步构图,提供色彩搭配建议,激发创作者的灵感火花。在音乐创作中,模型依据给定的情感基调、音乐风格或主题,创作出旋律优美、节奏和谐的音乐片段,辅助音乐人突破创作瓶颈,探索全新的音乐风格与表达方式。甚至在跨媒介艺术创作中,模型打通不同艺术形式之间的隔阂,实现图像、音乐、文字等元素的有机融合,催生出新颖独特的艺术作品,为观众带来震撼的视听享受。
趣丸科技自研的全球首个多模态配乐大模型 “天谱乐” 便是其中的杰出代表。它不仅支持文生音乐、音频生音乐,还首创图片 / 视频生音乐的能力。用户仅需上传一张图片或一段视频,即可一键生成与图像内容和基调高度适配的纯音乐或拥有人声唱词的完整歌曲,生成效果达到专业级水准,为音乐创作带来了前所未有的便捷与创新体验,充分展现了开源多模态模型在娱乐创作领域的无限潜力。
(四)智能家居:便捷生活的指挥官
随着人们生活品质的追求不断提升,智能家居已逐渐走进千家万户,而开源多模态模型则宛如一位智慧超群的 “指挥官”,让家居设备实现了更加智能、便捷、人性化的交互,为人们打造出舒适惬意的家居生活环境。
在家庭环境中,多模态交互控制成为现实。用户只需通过简单的语音指令,就能轻松操控家中的各类智能设备。清晨,当你醒来时,对着智能音箱说一声 “打开窗帘,播放轻柔的音乐”,窗帘缓缓拉开,温暖的阳光洒进房间,悠扬的音乐随即响起,美好的一天就此开启。不仅如此,模型还支持手势识别控制,当你在厨房忙碌,双手沾满油污不便操作手机或语音指令时,只需在空中比划几个简单的手势,就能调节灯光亮度、开关电器,让家居操作更加随心自如。
个性化服务更是开源多模态模型的拿手好戏。它通过学习家庭成员的生活习惯、偏好设置,自动调整家居环境。了解到主人习惯晚上睡前阅读,模型会在相应时间自动调暗卧室灯光,打开阅读灯,营造温馨舒适的阅读氛围;察觉到室内温度偏高,它会智能启动空调,调节到最适宜的温度;根据家庭日常的饮食喜好,智能冰箱还能自动推荐食谱,并关联线上生鲜购物平台,一键下单所需食材,为日常生活提供极大便利。
智能安防也是智能家居的重要一环。模型结合摄像头图像识别、声音监测等多模态数据,实时监测家中的异常情况。一旦检测到陌生人闯入、烟雾火警或漏水漏电等危险信号,立即发出警报,并推送消息至主人手机,同时联动智能门锁、灭火装置、水阀开关等设备采取相应应急措施,全方位保障家庭安全。
以小米智能家居生态系统为例,依托开源多模态模型,实现了智能音箱、智能摄像头、智能灯具、智能家电等众多设备的互联互通与协同工作。用户能够通过统一的 APP 或语音助手,实现跨设备的便捷控制,享受一站式的智能家居服务。无论是回家时的自动亮灯、离家时的一键布防,还是日常的智能场景切换,都让家居生活变得更加轻松愉悦,展现了开源多模态模型在智能家居领域的强大赋能作用。
(五)自动驾驶:安全出行的领航员
在交通出行领域,自动驾驶技术正引领着一场深刻变革,而开源多模态模型作为其中的关键技术支撑,宛如一位经验丰富的 “领航员”,为车辆的安全、高效行驶保驾护航。
开源多模态模型能够整合来自摄像头、激光雷达、毫米波雷达、超声波传感器等多源传感器的数据,全方位感知车辆周围的复杂环境。摄像头捕捉高清图像,识别道路标识、交通信号灯、车辆与行人的外观特征;激光雷达通过发射激光束并测量反射光的时间,精确构建周围环境的三维点云图,精准探测障碍物的位置、形状与距离;毫米波雷达则擅长在恶劣天气条件下工作,实时监测车辆周边物体的速度与运动方向;超声波传感器用于近距离感知,辅助车辆在泊车等场景下避免碰撞。通过对这些不同模态数据的融合处理,模型构建出完整、准确的环境模型,为自动驾驶决策提供坚实依据。
在实际行驶过程中,模型依据实时感知的环境信息,迅速做出精准决策。遇到前方车辆突然刹车,它能及时控制本车减速或避让;在路口转弯时,综合考虑交通规则、行人动态与其他车辆的行驶意图,平稳、安全地完成转向操作;面对复杂的城市交通场景,如拥堵路况、施工区域,模型灵活规划最优行驶路线,确保车辆高效通行。
以特斯拉的 Autopilot 系统为例,其基于开源多模态模型技术,不断优化升级自动驾驶功能。通过海量的实际行驶数据训练,模型对各种路况与场景的识别准确率持续提高。在高速公路上,能够实现自动跟车、自动变道等高级辅助驾驶功能,大幅减轻驾驶员的驾驶负担,提升行车安全性与舒适性。同时,随着技术的不断迭代,特斯拉正朝着更高等级的自动驾驶目标迈进,有望为未来的交通出行带来颠覆性变革,让人们畅享更加便捷、安全的出行体验,而这一切都离不开开源多模态模型的卓越贡献。
四、挑战与应对策略
(一)技术瓶颈待破
尽管开源多模态模型取得了令人瞩目的成就,但在迈向更广泛应用与深度发展的征程中,仍面临着诸多棘手的技术难题,亟待攻克。
数据质量问题首当其冲。多模态数据的获取与标注往往存在着高成本、低效率的困境,导致数据的准确性、一致性与完整性参差不齐。在医学影像领域,不同医疗机构使用的影像设备、扫描参数各异,所生成的影像数据格式与质量也大相径庭,这为模型的训练与泛化带来了极大挑战。而且,多模态数据中的噪声、错误标注以及模态间的语义不一致等问题,极易使模型在学习过程中产生偏差,进而影响其性能与可靠性。
模型的可解释性依然是一大难点。随着模型复杂度的不断攀升,如基于深度学习的多模态模型包含海量参数与复杂架构,其决策过程宛如一个 “黑箱”,难以直观洞悉。在医疗诊断、金融风控等对决策透明度要求极高的领域,模型若无法给出清晰合理的解释,使用者便难以信任其结果,这无疑限制了模型的实际应用范围。
跨模态对齐更是核心挑战之一。不同模态的数据在结构、语义、时空等维度存在显著差异,如何精准地识别与关联各模态中的同一实体或概念,实现跨模态的语义一致性,是当前亟待解决的关键问题。以视频与文本的跨模态对齐为例,视频中的动态画面、声音信息与文本描述之间的对应关系错综复杂,模型需要具备强大的时空理解与语义推理能力,才能准确捕捉到其中的关联,而现有的对齐方法在面对复杂场景时,仍显得力不从心。
为突破这些技术瓶颈,全球科研人员正全力以赴。一方面,通过开发高效的数据采集与标注工具,利用半监督、自监督学习等先进技术,充分挖掘海量未标注数据的潜力,提升数据质量与利用效率;另一方面,积极探索可解释 AI 技术,如可视化模型内部机制、设计基于规则的可解释模块等,让模型的决策过程 “拨云见日”。在跨模态对齐方面,持续创新深度学习架构,引入更强大的注意力机制、多模态对比学习等方法,致力于实现不同模态间的无缝融合与精准对齐,为开源多模态模型的未来发展铺就坚实的技术基石。
(二)伦理困境求解
随着开源多模态模型的广泛应用,一系列严峻的伦理问题逐渐浮出水面,引发了社会各界的深刻关注与反思。
隐私保护成为重中之重。多模态模型在处理文本、图像、音频等丰富数据时,不可避免地涉及大量个人敏感信息。在智能安防监控场景中,摄像头捕捉的图像与声音数据若被不当使用,将对个人隐私构成严重威胁;医疗保健领域,患者的病历、影像等多模态医疗数据一旦泄露,不仅会侵犯个人隐私,还可能引发一系列医疗纠纷。
偏见与公平性问题同样不容忽视。由于训练数据的局限性或偏差,模型可能会产生对特定群体的偏见,进而导致不公平的决策结果。在招聘、贷款审批等场景中,若模型基于带有性别、种族等偏见的历史数据进行学习,可能会对某些群体造成歧视,剥夺他们平等的机会,这与社会公平正义的理念背道而驰。
潜在的滥用风险也如影随形。开源模型的开放性使得其技术易于获取,若落入不法分子手中,可能被用于制造虚假信息、实施诈骗、进行恶意攻击等违法犯罪活动,对社会秩序、国家安全造成极大危害。
为化解这些伦理困境,建立健全严格的伦理准则与规范迫在眉睫。国际组织、政府机构以及行业协会应携手合作,制定涵盖数据收集、使用、共享全流程的隐私保护法规,明确模型开发与应用中的公平性原则,严禁任何形式的歧视行为。同时,加强技术审查与监管力度,利用区块链、加密技术等手段确保数据安全,对模型的训练数据、决策过程进行定期审计,及时发现并纠正潜在的伦理问题。此外,还需通过广泛的教育宣传,提升公众的伦理意识,引导开发者在追求技术创新的同时,坚守伦理底线,让开源多模态模型真正造福人类社会。
五、未来展望:无限可能的新征程
展望未来,开源多模态模型的发展前景宛如一幅绚丽多彩的画卷,充满了无限可能,将为人类社会带来更为深远、广泛的影响。
在模型性能提升方面,我们有理由期待开源多模态模型将持续突破现有瓶颈,实现飞跃式发展。随着算法的不断优化创新,模型架构将更加精巧高效,能够以更低的计算成本处理海量、复杂的多模态数据。借助大规模、高质量的多模态数据集进行训练,模型对信息的理解与推理能力将显著增强,在复杂任务中的表现将更加精准、可靠。例如,在医疗影像诊断领域,模型有望达到甚至超越专业医生的诊断准确率,能够快速、精准地识别出微小病灶,为患者提供及时有效的治疗方案;在智能交通领域,自动驾驶系统将更加智能、安全,能够应对各种极端路况与突发状况,实现真正意义上的无人驾驶,让出行变得更加便捷高效。
应用场景拓展更是潜力无限。教育领域,开源多模态模型将为学生打造高度个性化、沉浸式的学习体验。通过实时分析学生的学习状态、情感变化以及知识掌握程度,模型能够智能推送定制化的学习内容,提供一对一的专属辅导,让每个学生都能在最适合自己的学习路径上茁壮成长。医疗保健行业,模型不仅能在疾病诊断、治疗方案制定等环节发挥关键作用,还将深入到疾病预防、健康管理等领域。通过持续监测个人的生活习惯、生理数据以及基因信息,模型提前预测疾病风险,为人们提供个性化的健康建议,助力实现全民健康管理。娱乐产业,开源多模态模型将催生出更多新颖、震撼的创意作品。在影视制作中,借助模型强大的创意生成能力,创作者能够轻松构思出引人入胜的剧情、设计出奇幻绚丽的场景,打造出一部部具有跨时代意义的影视作品;游戏领域,玩家将沉浸于更加逼真、丰富的虚拟世界,与高度智能的 NPC 进行自然流畅的互动,开启前所未有的冒险之旅。
开源生态繁荣亦是大势所趋。随着开源理念的深入人心,越来越多的科研机构、企业以及开发者将踊跃投身于开源多模态模型的研发与应用推广中。他们将在全球范围内展开广泛、深入的合作,共享创新成果,形成一个生机勃勃、充满活力的开源社区。在这个社区里,新手开发者能够迅速汲取知识、获得成长,资深专家能够交流思想、碰撞出更多创新火花。各类开源工具与平台将不断涌现,进一步降低开发门槛,让更多人能够便捷地利用开源多模态模型创造价值。同时,开源生态的繁荣将促使模型在不同行业、不同领域加速落地,形成一个良性循环,推动整个社会的智能化进程大步向前。
开源多模态模型作为人工智能领域的璀璨明珠,正引领我们迈向一个更加智能、便捷、美好的未来。在这个充满机遇与挑战的征程中,需要全球各界携手共进,充分发挥开源的力量,不断探索创新,让多模态技术的光芒照亮人类社会的每一个角落,为人类的发展与进步注入源源不断的动力。
deepseek-vl:由 deepseek-ai 团队开发,有 7b 和 1.3b 等版本,可部署于手机等终端。团队从数据、模型架构与训练策略上协同推进完成多模态预训练,主要关注视觉模态和语言模态,未来计划扩展到音频和嗅觉等更多模态。
Emu:由北京智源人工智能研究院、清华大学和北京大学联合开发。采用统一的自动回归目标进行训练,可预测下一个元素,包括视觉嵌入和文本标记,能处理图像和文本的生成任务,并在多模态上下文中无缝切换,支持图像描述生成、图像 / 视频问答、文本到图像生成等多种任务。
Moshi:由法国 kyutai 开发,是对标 GPT-4o 的开源实时语音多模态模型,具备听、说、看的多模态功能。核心是一个处理语音输入和输出的 70 亿参数多模态语言模型,采用双通道输入 / 输出系统,同时生成文本 token 和音频编解码器,能理解和表达情感,可同时处理两个音频流。
MiniGPT-4:由美国俄勒冈州立大学和香港理工大学等机构开发。基于 Vicuna 和 BLIP-2 构建,通过轻量级的线性投影层将图像特征与语言模型的输入特征进行融合,在视觉问答、图像描述等任务上有良好表现,可用于构建智能客服、智能教育等多模态应用。
LLaVA-Intern:由澜舟科技和中国科学技术大学联合开发。在 LLaVA 基础上改进,采用 InternLM 作为语言模型,结合了 InternLM 强大的语言理解和生成能力与 LLaVA 的多模态交互能力,在多模态对话、知识推理等方面性能较好,可应用于科研辅助、智能办公等场景。
六、典型开源多模态模型详解
(一)deepseek-vl
deepseek-vl 是由 deepseek-ai 团队精心研发的一系列多模态模型,涵盖了 7b 和 1.3b 等不同规模版本,以满足多样化的应用需求。其卓越之处在于能够在手机等终端设备上流畅部署,为用户带来便捷、高效的多模态交互体验。
在研发过程中,deepseek-ai 团队从数据、模型架构与训练策略三个关键层面协同发力,全力推进多模态预训练任务。他们精心构建了高质量的多模态数据集,涵盖了丰富的图像、文本信息,确保模型能够学习到广泛而准确的知识。在模型架构设计上,采用了创新的结构,优化了不同模态信息的融合方式,提升了模型对多模态数据的理解与处理能力。同时,通过巧妙设计训练策略,充分利用大规模计算资源,提高了训练效率与模型性能。
该模型主要聚焦于视觉模态和语言模态的融合处理。在视觉方面,能够精准识别图像中的各类物体、场景、人物动作等关键元素;在语言方面,具备出色的文本理解、生成与对话能力。例如,当输入一幅美丽的海滩风景图时,它不仅能详细描述出画面中的蓝天、白云、海浪、沙滩等视觉细节,还能根据用户的需求,生成与之相关的优美文案,如旅游攻略、散文诗等。未来,deepseek-ai 团队计划进一步拓展模型的模态覆盖范围,将音频、嗅觉等更多模态纳入其中,实现更加全面、智能的感知与交互,有望在智能导览、智能家居控制、沉浸式教育等领域开辟全新的应用天地。
(二)Emu
Emu 是由北京智源人工智能研究院、清华大学和北京大学强强联合开发的一款开源多模态模型,展现出了强大的多模态处理能力。
它采用了统一的自动回归目标进行训练,这一独特训练方式使其能够精准预测下一个元素,无论是视觉嵌入还是文本标记,都能应对自如。在处理多模态数据时,Emu 表现得游刃有余。当面对一幅艺术画作时,它不仅能够生成专业、生动的图像描述,剖析画作的色彩运用、构图技巧、主题表达,还能依据画作风格、内容,创作出与之相契合的诗歌或短文,展现出对艺术作品的深刻理解与再创作能力。在处理视频数据时,同样表现出色,能够准确回答关于视频内容的各种问题,涵盖人物关系、事件发展、场景细节等多个维度。
Emu 的应用场景极为广泛,在图像描述生成领域,为图片搜索引擎、数字图书馆等提供了高质量的图像描述,提升了信息检索效率;在图像 / 视频问答方面,可助力在线教育、智能客服等场景,为用户提供即时、准确的答疑服务;在文本到图像生成方面,满足了用户个性化的创意需求,如生成定制化的海报、插画等。它能够在多模态上下文中无缝切换,根据不同的任务需求,灵活调用视觉与语言能力,为用户带来流畅、智能的交互体验,推动了多模态技术在多个领域的融合应用。
(三)Moshi
Moshi 是由法国 kyutai 研发的一款对标 GPT-4o 的开源实时语音多模态模型,具备令人惊叹的 “听、说、看” 多模态功能,为用户带来了全新的交互体验。
其核心是一个拥有 70 亿参数的多模态语言模型,这一强大的参数基础赋予了它出色的语言理解与生成能力。Moshi 采用了独特的双通道输入 / 输出系统,这一创新设计使其能够同时生成文本 token 和音频编解码器,实现了语音与文本的高效同步处理。在实际应用中,当用户与 Moshi 进行交互时,无论是通过语音还是文本输入问题,它都能迅速理解,并以语音和文本两种方式同步反馈,提供即时、准确的回答,极大地提升了交互的便捷性与自然度。
Moshi 还具备出色的情感理解与表达能力,它能够敏锐捕捉用户语音、文本中的情感倾向,如喜悦、悲伤、焦虑等,并给予相应情感反馈,让交互更加人性化。在多任务处理方面,Moshi 同样表现卓越,它可以同时处理两个音频流,例如在视频会议场景中,能够实时识别不同参会者的语音内容,进行语音转写、翻译,并根据会议主题提供相关的背景资料、建议,助力会议高效进行,展现了其在复杂多模态场景下的强大处理能力,有望在智能办公、远程协作、智能客服等领域得到广泛应用。
(四)MiniGPT-4
MiniGPT-4 是由美国俄勒冈州立大学和香港理工大学等知名机构联合开发的一款开源多模态模型,以其简洁高效的设计在多模态领域崭露头角。
它基于 Vicuna 和 BLIP-2 构建,通过引入轻量级的线性投影层,巧妙地将图像特征与语言模型的输入特征进行融合,实现了多模态信息的有效交互。在视觉问答任务中,面对一幅展示历史古迹的图片,用户提问 “这座建筑是什么时期建造的?”,MiniGPT-4 能够快速聚焦图片中的建筑特征,结合内置的历史知识,准确回答出建筑的年代、风格以及相关历史背景信息。在图像描述方面,对于一张自然风光照片,它能够用优美、生动的语言描绘出画面中的山水、植被、光影变化,展现出对自然之美的精准捕捉与表达能力。
MiniGPT-4 的应用场景十分广泛,在智能客服领域,能够快速理解客户发送的产品图片及文字描述,提供精准的产品咨询、故障排除等服务,提升客户满意度;在智能教育方面,可作为辅助教学工具,帮助学生理解教材中的图片、图表知识,通过问答互动加深学生对知识的理解与记忆;在社交媒体内容生成中,依据用户提供的图片素材,快速生成有趣、富有创意的文案,助力用户打造吸睛的社交内容,为多模态交互应用注入了新的活力。
(五)LLaVA-Intern
LLaVA-Intern 是由澜舟科技和中国科学技术大学携手打造的一款先进的开源多模态模型,在 LLaVA 的基础上进行了深度优化与改进。
它采用了 InternLM 作为核心语言模型,充分结合了 InternLM 强大的语言理解和生成能力与 LLaVA 的多模态交互能力,实现了 1 + 1 > 2 的协同效果。在多模态对话任务中,面对用户提出的复杂问题,如 “在这幅科技展览的图片中,展示的最新电子产品有哪些创新功能,对未来生活有什么影响?”,LLaVA-Intern 能够深入理解图片内容,准确识别出电子产品的型号、特征,并运用丰富的知识储备,详细阐述其创新点以及对未来生活的潜在改变,提供全面、深入的回答。
在知识推理方面,LLaVA-Intern 同样表现出色。当给定一组科学实验的图片与相关文本描述,要求分析实验结果的原因时,它能够整合图片中的实验现象、数据信息以及文本中的实验条件、理论依据,通过严谨的逻辑推理,给出合理的解释,为科研人员提供有价值的参考。该模型在科研辅助、智能办公等场景有着广泛的应用前景,能够帮助科研人员快速解读实验数据、撰写论文摘要,辅助办公人员处理复杂的文档、图表资料,提高工作效率与质量,推动多模态技术在专业领域的深入应用。
相关文章:
《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》
《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》 一、多模态模型的崛起之路(一)从单一到多元:模态的融合演进(二)关键技术突破:解锁多模态潜能 二、开源多模态模型深度剖析(一&…...
计算机网络之---端口与套接字
总括 端口:是计算机上用于标识网络服务的数字标识符,用于区分不同的服务或应用程序。套接字:是操作系统提供的用于进程间网络通信的编程接口,允许程序通过它来进行数据的发送、接收和连接管理。关系:端口号用于标识服…...
el-tabs中tabs过多造成form表单输入的时候卡顿
这里写自定义目录标题 tabs过多造成的输入卡顿解决方案方案一方案二 出现的并发问题解决方案 tabs过多造成的输入卡顿 描述:前端要写一个需求,大概有一百多个tab渲染过来,每个tab中都是一个表单,这个时候数据渲染任务加重&#x…...
vue+vite打包空白问题
在使用vuevite创建项目之后如果我们在部署项目的时候使用的不是主域名 比如www.custom.com 而是使用了www.custom.com/test 为访问域名的时候 如果不小心没有注意到这个变化 在打包上线之后会出现页面空白 js或者css404问题 我们可以在vite.config.ts去配置路径base export de…...
【python翻译软件V1.0】
如果不想使用密钥的形式,且需要一个直接可用的中英文翻译功能,可以使用一些免费的公共 API,如 opencc 或其他无需密钥的库,或直接用 requests 获取翻译结果。 其中,我可以给你一个简单的代码示例,使用 tra…...
全国青少年信息学奥林匹克竞赛(信奥赛)备考实战之循环结构(while循环应用)
实战训练1—求最大公约数 问题描述: 给定两个正整数,求它们的最大公约数。 输入格式: 输入一行,包含两个正整数。 输出格式: 输出一行,包含gcd正整数,即这两个正整数的最大公约数。 输入…...
HTTPS协议的基础与工作原理
什么是HTTPS? HTTPS(HyperText Transfer Protocol Secure)是HTTP协议的安全版本,它通过SSL/TLS协议对通信数据进行加密,确保数据的安全传输。与HTTP相比,HTTPS能防止数据被窃取、篡改或伪造,广…...
手游业务该如何选择服务器?
在网络游戏行业当中,对于服务器配置的需求是非常高的,大型的网络游戏需要服务器的高稳定性,来保证用户的游戏体验感,那么对于手游业务来说该如何进行选择服务器呢? 手游业务通常都需要处理大量的用户数据信息和并发请求…...
Python 数据建模完整流程指南
在数据科学和机器学习中,建模是一个至关重要的过程。通过有效的数据建模,我们能够从原始数据中提取有用的洞察,并为预测或分类任务提供支持。在本篇博客中,我们将通过 Python 展示数据建模的完整流程,包括数据准备、建…...
java.lang.NoClassDefFoundError: javax/xml/bind/DatatypeConverter
今天在朋友机子上运行代码,在生成token的时候,遇到了这样一个问题: Caused by: java.lang.NoClassDefFoundError: javax/xml/bind/DatatypeConverter at io.jsonwebtoken.impl.Base64Codec.decode(Base64Codec.java:26) ~[jjwt-0.9.1.jar:0.…...
12. C语言 数组与指针(深入理解)
本章目录: 前言1. 什么是数组?2. 数组的声明与初始化声明数组初始化数组 3. 访问数组元素遍历数组 4. 获取数组长度使用 sizeof 获取长度使用宏定义简化 5. 数组与指针数组名与指针的区别使用指针操作数组 6. 多维数组遍历多维数组 7. 数组作为函数参数8. 高级技巧与…...
C#用直线和曲线抗锯齿
使用 GDI 绘制一条线时,要提供线条的起点和终点,但不必提供有关线条上各个像素的任何信息。 GDI 与显示驱动程序软件协同工作,确定将打开哪些像素以在特定显示设备上显示该线条。 效果对比 代码实现 关键代码 e.Graphics.SmoothingMode Sm…...
从SS到CSS:探索网页样式设计的奥秘
一、什么是CSS CSS,全称为层叠样式表(Cascading Style Sheets),是一种用于描述HTML(超文本标记语言)或XML(包括如SVG、MathML等各种XML方言)文档样式的样式表语言。 从结构和功能的…...
[Git] git reset --hard / git reset --soft
git reset --hard 功能:重置索引(暂存区)和工作目录到指定的提交状态。这意味着它会丢弃所有未提交的更改和已暂存的更改。 适用场景:当你想要完全放弃当前工作目录中的所有更改并回退到某个特定提交状态时,可以使用这…...
OIDC IdentityServer4》》授权码模式+刷新令牌
认证服务 new Client {ProtocolType "oidc",ClientName "测试",ClientId "zen",//定义客户端 Id 要唯一ClientSecrets { new Secret("abc123zenabres89jijkomnlj".Sha256()) },//Client用来获取token// 混合模式AllowedGrantTyp…...
Sql 创建用户
Sql server 创建用户 Sql server 创建用户SQL MI 创建用户修改其他用户密码 Sql server 创建用户 在对应的数据库执行,该用户得到该库的所有权限 test.database.chinacloudapi.cn DB–01 DB–02 创建服务器登录用户 CREATE LOGIN test WITH PASSWORD zDgXI7rsafkak…...
vscode开启调试模式,结合Delve调试器调试golang项目详细步骤
1.前期准备 (1).在vs code中的扩展程序中搜索并安装Go扩展程序 (2).安装 Delve 调试器 go install github.com/go-delve/delve/cmd/dlvlatest (3).打开vs code的命令面板,输入Go: Install/Update Tools,并单击该命令执行,安装或更新Go语…...
搭建Hadoop分布式集群
软件和操作系统版本 Hadoop框架是采用Java语言编写,需要java环境(jvm) JDK版本:JDK8版本 ,本次使用的是 Java: jdk-8u431-linux-x64.tar.gz Hadoop: hadoop-3.3.6.tar.gz 三台Linux虚拟节点: CentOS-7-x86_64-DVD-2…...
网络安全应急响应技术原理与应用
网络安全应急响应概述 “居安思危,思则有备,有备无患。”网络安全应急响应是针对潜在发生的网络安全事件而采取的网络安全措施。本节主要阐述网络安全响应的概念、网络安全应急响应的发展、网络安全应急响应的相关要求。 17.1.1 网络安全应急响应概念 网…...
01 Oracle自学环境搭建
1 Oracle12C安装 1.1 下载 官网地址:https://www.oracle.com/ 解压安装包 运行安装程序 1.2 安装 配置安全更新 软件更新 安装选项 系统类 Oracle主目录用户选择 使用现有windows用户:如果选择该项,则需要指定没有管理权限的用户。 创建新Wi…...
MYSQL----------MySQL权限管理
1 MySQL权限管理 .1.1 权限系统的工作原理 查看用户权限 -- 查看用户的权限 SHOW GRANTS FOR usernamelocalhost;解释:这条SQL语句用于查看指定用户在本地主机上的权限。其中username是要查看权限的用户。 .1.2 权限表的存取 查询权限表(以user表为例&a…...
学习HLS.js
前言 HTTP 实时流(也称为HLS(.m3u8))是一种基于HTTP的自适应比特率流通信协议。HLS.js依靠HTML5视频和MediaSource Extensions进行播放,其特点:视频点播和直播播放列表、碎片化的 MP4 容器、加密媒体扩展 …...
Zustand selector 发生 infinate loops的原因以及解决
Zustand selector 发生 infinate loops 做zustand tutorial project的时候,使用选择器方法引入store,出现Maximum update depth exceeded,也就是组件一直重新渲染,改成直接使用store就没有不会出现这个问题。如下: // const [xIs…...
Unity自定义编辑器:基于枚举类型动态显示属性
1.参考链接 2.应用 target并设置多选编辑 添加[CanEditMultipleObjects] using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEditor;[CustomEditor(typeof(LightsState))] [CanEditMultipleObjects] public class TestInspector :…...
donet (MVC)webAPI 的接受json 的操作
直接用对象来进行接收,这个方法还不错的。 public class BangdingWeiguiJiluController : ApiController{/// <summary>/// Json数据录入错误信息/// </summary>/// <param name"WeiguiInfos"></param>/// <returns></r…...
GitHub 新手入门指南
一、GitHub 简介 GitHub 是全球最大的代码托管平台,它基于 Git 版本控制系统,为开发者提供了一个集中存储、管理和协作开发代码的空间。在这里,你可以找到无数开源项目,也可以将自己的项目与全球开发者社区共享,促进知…...
Django后端相应类设计
通用的ApiResponse类:用于生成统一的 API 响应格式。每个响应都包含以下字段(每个接口最终的返回数据格式): status_code:HTTP 状态码(如 200、400、500 等)message:响应的描述信息…...
完美解决VMware 17.0 Pro安装ubuntu、Deepin等虚拟机后卡顿、卡死问题
这两天在 VM 17 Pro 中安装了ubuntu 24.1 和Deepin 23.9 等Linux操作系统,在使用过程中出现过数次卡顿、卡死问题,现记录整理解决方法如下: 一、问题描述 安装虚拟机时、以及安装完成后正常使用时出现鼠标点击卡顿、系统反应慢、卡死等问题…...
前端 图片上鼠标画矩形框,标注文字,任意删除
效果: 页面描述: 对给定的几张图片,每张能用鼠标在图上画框,标注相关文字,框的颜色和文字内容能自定义改变,能删除任意画过的框。 实现思路: 1、对给定的这几张图片,用分页器绑定…...
【Oracle篇】深入了解执行计划中的访问路径(含表级别、B树索引、位图索引、簇表四大类访问路径)
💫《博主介绍》:✨又是一天没白过,我是奈斯,从事IT领域✨ 💫《擅长领域》:✌️擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控;并对SQLserver、NoSQL(…...
ROS2+OpenCV综合应用--11. AprilTag标签码跟随
1. 简介 apriltag标签码追踪是在apriltag标签码识别的基础上,增加了小车车体运动的功能,控制车体从而使摄像头会保持标签码在视觉中间左右运动,在根据物体在摄像头成像近大远小的原理根据这一特性,从而实现标签码跟随功能。 2. 启…...
第四、五章图论和网络爬虫+网络搜索
第四章 图论和网络爬虫 4.1 构建网络爬虫工程重点 构建网络爬虫的重点 用BFS还是DFS 在不考虑时间的情况下,这两种不同的搜索方法都可以在相同的时间下爬下整个静态的互联网内容,但是在现实中肯定是需要考虑时间以及互联网动态变化的。所以重点应该是如…...
PyMysql 01|(包含超详细项目实战)连接数据库、增删改查、异常捕获
目录 一、数据库操作应用场景 二、安装PyMysql 三、事务的概念 四、数据库的准备 五、PyMysql连接数据库 1、建立连接方法 2、入门案例 六、PyMysql操作数据库 1、数据库查询 1️⃣查询操作流程 2️⃣cursor游标 3️⃣查询常用方法 4️⃣案例 5️⃣异常捕获 …...
(No space left on device )
错误日志: org.springframe tipart.MultipartException: Failed to parse multipart servlet request: nested excepti /ROOT/upload_e5046403_6cd4_4673_3313_479fb76773fe_00000004.tmp (No space left on device ) 分析: (No space left on devi…...
Conmi的正确答案——Cordova使用“src-cordova/config.xml”编辑“Android平台”的“uses-permission”
Cordova版本:12.0.0 (cordova-lib12.0.1) 1、配置例程: <platform name"android"><config-file target"AndroidManifest.xml" parent"/manifest"><uses-permission android:name"android.permission…...
LLaMA-Factory web微调大模型并导出大模型
LLaMA-Factory 开源大模型如LLaMA,Qwen,Baichuan等主要都是使用通用数据进行训练而来,其对于不同下游的使用场景和垂直领域的效果有待进一步提升,衍生出了微调训练相关的需求,包含预训练(pt)&am…...
针对数据库系统安全的漏洞扫描加固工具【WebSocket + MySQL】
一、系统背景 随着信息技术的迅猛发展和互联网的普及,数据库作为存储、管理和检索大量数据的关键组件,其安全性对于企业和组织来说至关重要。然而,由于网络环境的复杂性和攻击手段的多样性,数据库面临着越来越多的安全威胁&#…...
汽车基础软件AutoSAR自学攻略(三)-AutoSAR CP分层架构(2)
汽车基础软件AutoSAR自学攻略(三)-AutoSAR CP分层架构(2) 下面我们继续来介绍AutoSAR CP分层架构,下面的文字和图来自AutoSAR官网目前最新的标准R24-11的分层架构手册。该手册详细讲解了AutoSAR分层架构的设计,下面让我们来一起学习一下。 Introductio…...
《PC 上的开源神经网络多模态模型:开启智能交互新时代》
《PC 上的开源神经网络多模态模型:开启智能交互新时代》 一、引言二、多模态模型基础剖析(一)核心概念解读(二)技术架构探秘 三、开源多模态模型的独特魅力(一)开源优势尽显(二&…...
Docker Desktop 构建java8基础镜像jdk安装配置失效解决
Docker Desktop 构建java8基础镜像jdk安装配置失效解决 文章目录 1.问题2.解决方法3.总结 1.问题 之前的好几篇文章中分享了在Linux(centOs上)和windows10上使用docker和docker Desktop环境构建java8的最小jre基础镜像,前几天我使用Docker Desktop环境重新构建了一个…...
【算法】八大排序算法
这篇文章是对数据结构中 八大经典排序算法 的详解,包括其原理、实现过程、时间复杂度、空间复杂度及其适用场景。最后两种排序不常见,但仍收录了进来保持文章结构的完整性。 排序(Sort)是将无序的记录序列(或称文件)调整成有序的…...
pytest+allure 入门
使用allure如何生成自动化测试报告 ?一文详解allure的使用 。_allure测试报告-CSDN博客 例子: import allure import pytest import osallure.epic("闹钟") allure.feature("闹钟增删") class TestSchedule():def setu…...
算法--最大公约数,最小公倍数
1. 求两个数的最大公约数,最小公倍数 解释:这里Mymin和Mymax函数是自定义用于获取两数最大值和最小值的 求最大公约数的时候只需要得到两数之中最小的一项,向下逐个判断直到等于1 求最小公倍数的时候只需要得到两数之中最大的一项…...
【跨域问题】
跨域问题 官方概念: 当一个请求url的协议、域名、端口三者之间任意一个与当前页面url不同即为跨域本质来说,是前端请求给到后端时候,请求头里面,有一个 Origin ,会带上 协议域名端口号等;后端接受到请求&…...
为什么在二维卷积操作中,将宽度(W)维度放在高度(H)之前会破坏空间局部性原则,并影响缓存性能
空间局部性原则 空间局部性指的是程序倾向于访问与最近访问过的内存位置接近的内存位置。对于深度学习模型中的张量数据,这意味着当处理图像或特征图时,如果能够连续地访问相邻像素的数据,那么可以最大化利用CPU/GPU缓存,因为缓存…...
【C语言】_函数指针数组/转移表与回调函数
目录 1. 示例1:函数指针数组的简单使用 2. 示例2:多同类型函数调用 2.1 switch-case实现 2.2 switch-case函数指针 2.3 函数指针数组实现 3. 回调函数 关于函数指针,专栏文章链接如下:【C语言】_函数指针变量-CSDN博客https…...
《通过财报看企业》
“借贷关系”“净资产收益率”“财务报表”、净利润、盈利能力、现金流 第1章 净利润:决定一家公司的股价能涨多高 企业经营:存货周转率 企业市值:市值净利润市盈率 龙头企业:行业内收入规模最大、盈利能力最强,…...
年度技术突破奖|中兴微电子引领汽车芯片新变革
随着以中央计算区域控制为代表的新一代整车电子架构逐步成为行业主流,车企在电动化与智能化之后,正迎来以架构创新为核心的新一轮技术竞争。中央计算SoC,作为支撑智驾和智舱高算力需求的核心组件,已成为汽车电子市场的重要新增量。…...
力扣经典题目之912.排序数组(使用希尔排序解决)
今天继续给大家分享一道力扣的做题心得今天这道题目是 912.排序数组 题目链接:912. 排序数组 - 力扣(LeetCode) 题目:给你一个整数数组 nums,请你将该数组升序排列。 你必须在 不使用任何内置函数 的情况下解决问题…...
QT升级及下载缓慢的问题解决办法
QT升级及下载缓慢的问题解决办法 QT安装慢解决办法: 官方下载地址: https://www.qt.io/download-dev 点开后点击download 填写相关信息后即可下载完成 线上安装工具。 安装工具(qt-online-installer-windows-x64-4.8.1.exe) 如下图: 此时不…...