十大配资推荐 依图科技总裁段爱国:时代浪尖的智能王者 AI大模型重塑安防新时代
导读
在科技迅猛发展的今天,人工智能(AI)正以其强大的力量重塑世界。纵观 AI 1.0 到AI 2.0 的转变过程,AI 1.0 以 CNN 卷积神经网络为核心,开启了感知智能时代,尤其在计算机视觉和自然语言理解领域取得了超越人类的成绩, 为安防行业的智能化发展提供了核心动力,注入了新的活力。然而,AI 1.0 在应用中也遭遇到一些瓶颈,如高昂的数据收集和标注成本,以及数据集和模型之间的孤立性, 限制了其效能。
与此相比,AI 2.0 实现了重大突破,它超越了 AI 1.0 的单领域、多模型局限,通过训练跨领域的基础大模型,能够处理无需人工标注的海量数据(603138),并能通过微调适应各种任务,有望实现真正的平台化效应。这不仅为安防行业带来更多应用创新的机会,也为整个 AI 领域的发展开辟了新的可能性。AI 2.0 跨领域、多功能的特性,预示着 AI 技术将更加深入地融入各行各业,推动产业升级和创新。
面对大模型的技术浪潮,依图科技基于十多年人工智能、机器视觉技术的深厚积累, 加入大模型能力,通过不断的技术创新和产品开发,为推动人工智能技术的发展和应用作出了重要贡献。本期《前沿技术》栏目专访到依图科技总裁段爱国,探讨 AI 大模型在安防行业的技术革新及应用落地情况,以飨读者。
《中国安防》:从AI“四小龙”到大模型“四龙五虎”,人工智能的发展经历了哪些蜕变,依图科技在这个过程中做了什么?
段爱国:AI 1.0 阶段的核心在于深度学习和监督学习技术的快速发展,通过大量标注数据训练单一模型任务,使人脸识别、物体检测等技术得到广泛应用,也推动了安防智能化的变革。过去十年,依图在关键算法突破和重大项目上取得了非常好的技术积累和成功且广泛应用的案例。积极承担国家级的科研任务,我们不仅参与国家新一代人工智能开放创新平台建设,承担工信部新一代人工智能产业创新重点任务,并荣获公安部科技进步一等奖。这些成就不仅奠定了依图在 AI 领域的领先地位,也为进一步的技术发展打下了坚实基础。当然,我们也看到AI 1.0 本质上是单领域、单任务、缺乏泛化能力。每个任务都需定制化数据集,导致算法生产效率低, 尤其在应对多变的实际场景时捉襟见肘。
从 2017 年起,Transformer 出现标志着 AI 2.0的开启,它的核心是自监督学习和多模态技术,通过通用数据预训练再加领域数据微调,实现更广泛的任务适应。
我们很早就开始以 Transformer 架构为基础的生成式 AI 大模型研究与应用探索。2023 年 7 月,依图正式发布了行业内可实战可实际商用的多模态大模型—“依图天问 1.0”。目前已经升级进化到“依图天问 4.5”,具备“可对话、会思考、能进化” 的超实战能力,已在全国一百多个项目中实现部署应用。依图天问大模型和训推一体机,也分别荣获2024 中国国际社会公共安全产品博览会的“优秀创新产品特等奖”和“优秀创新产品奖”。
从 AI 1.0 向 AI 2.0 的蜕变不仅代表着技术的飞跃,同时也为安防行业的数智化升级注入了新的动力。依图始终坚持创新引领、管用为王、行业落地,聚焦于解决行业的实际痛点,为客户提供高性价比的AI 产品和服务。我们认为,在这场变革中,依图也将继续引领行业发展,推动数智化升级,创造更大的社会价值。
《中国安防》:请问通用大模型与行业大模型有什么联系,AI大模型的新机遇在哪里?
段爱国:通用大模型和行业大模型的侧重点不同。通用大模型追求任务通用性,处理如文本生成、图片识别等基础任务,体现在广泛的通用知识和跨领域的适应能力。行业大模型则更追求特定领域的性能,关注行业特有的场景、判断逻辑和组合关系。
一直以来,安防行业面临大量长尾算法的挑战。长尾算法的场景复杂,只有特定的行业场景才会遇到,传统方法难以快速、高效地覆盖。譬如说客户要求叉车在运动的时候司机不能打电话,它不仅是个打电话识别、叉车、叉车是否运动的三个孤立问题,而是这个工作场景下的多要素组合的问题。行业客户不仅需要实时、精确的监测和识别能力,还希望算法能够快速响应新的需求,这就为安防的数智化带来很多挑战。
AI 2.0 的技术革命为行业数智化提供了全新的机遇。第一,自学习和后训练能力,让大模型通过预训练和领域数据的微调,快速适应不同场景需求, 极大缩短了模型的迭代周期,解决了长尾算法生产效率低的问题。第二,大模型能够融合视频、图片、语音、文本等多种模态数据,实现跨模态数据的融合、互检、交互,显著地提升对全场景的感知能力和交互体验。第三,模型从二维空间迈向 3D 空间,走向4D 的时空,能够做整个时空的情境理解和空间智能,也就是我们全场景、全要素的感知。过去我们更多关注静态图片或视频的检测,而 AI 2.0 让模型具备时空推理能力,不但能够理解发生了什么,各目标之间有什么关系,还能够预测将来发生什么事情, 辅助我们的决策,情境理解和空间智能将解锁更多复杂应用场景。第四,智能体的应用让大模型配备推理能力,具备类似人类的慢思考机制,能够处理更复杂的问题,让自然语言可以变成算法,人人都是算法工程师,实现AI 应用的普及化和创新平民化。
依图长期以在安防领域积累了大量的行业认知及实战经验,可以高效结合 AI大模型能力和安防场景的复杂多样性,打造行业垂直类大模型,帮助安防等行业真正实现数智化转型。
《中国安防》:您认为人工智能大模型在技术创新过程中面临的最大挑战是什么?针对安防行业的碎片性特点,如何处理和优化长尾算法?
段爱国:在大模型的技术创新过程中,面临的最大挑战之一是如何实现市场需求与技术发展的精准匹配。创新要切实解决行业的实际问题,转化为市场价值,而安防领域的最大机遇也在于 AI 与行业的深度融合。
在“AI+ 行业”落地过程中,成功的关键在于满足三个核心需求:长尾算法的高效生产、极致性价比的商业逻辑,以及业务闭环与持续运营的商业信用。
我们针对行业特点提出了“聚焦创新、聚焦伙伴、聚焦场景”的战略。依图始终坚持技术创新,强调“管用为王”,致力于打造极致性价比的 AI 产品,性价比是实现规模应用的基础。其次,我们高度重视生态伙伴合作。我们选择与行业内有深厚领域知识和服务能力的伙伴携手,共同构建完整的AI 解决方案。依图专注于提供大模型平台和能力,类似于 PaaS 的大模型平台和能力。我们的伙伴则融入他们的行业Know-How(专业知识),进行业务闭环和持续运营, 确保每个智能应用都能落地生根、持续优化。最后, 在场景选择上,我们深耕行业垂类大模型,专注于解决具体场景的痛点和难题。通过为每个垂直场景提供有针对性的、可持续运营的智能解决方案,我们真正为用户创造业务价值,实现从技术到市场的闭环。
《中国安防》:2024年底,资本市场对大模型的热度有所降温,投资者对其短期内的盈利能力和长期回报持谨慎态度。请问您如何评估人工智能大模型的市场价值?
段爱国:所谓的资本市场对大模型的热度降温, 是许多人认因为短期内看不到盈利,而这种观点实则暴露了对大模型市场价值的误解。首先,我们要明确一点:大模型并不是短期资本炒作的产物,而是一场深刻的技术革命。那些认为大模型不过是科技公司“烧钱玩具”的声音,完全低估了它对社会底层架构的潜在重塑力。这个技术革命的格局,与过去的工业革命相当,甚至可以预见,它对未来生产力的影响要更广泛、更深入。
以安防行业为例,过去的 AI 应用更多是工具性质的,做的是监控和识别。而现在,AI 大模型让安防从监控向风险识别和智能管理转型。我们在安防领域也不再只做基础识别,而是深入场景的智慧管理,如生产作业的实时监控和优化,成为全行业的“智能大脑”。
另外,大模型的自学习、情境理解、甚至多模态交互的全面升级,突破了小模型时代固定化的局限性。就以长尾场景为例,以前一个复杂问题,比如“叉车司机在开车时不能接电话”,需要反复调整和优化单一算法。而大模型的智能化程度让我们可以在短时间内自动适应和优化这种多要素场景组合,实现算法的实时生产和快速部署,真正让“长尾算法的边际成本趋近于零”。
大模型的价值远远不止是直接的商业回报,而在于它能否构建可持续的智能化生态系统。依图的策略是通过与行业深度共建场景化解决方案,降低AI 应用门槛,让每个行业都能快速、低成本地实现智能升级。这种机制才是大模型的“终极武器”, 让 AI 不仅变得“用得起”,更让其成为真正推动行业变革的发动机,我们看到的是一个更远、更大的蓝图。
我们认为,对大模型的评估不能只盯着短期回报,更要看到它为整个社会智能化基础设施带来的持久变革。依图在这一领域的布局不是为了追求短期的盈利,而是在构建长远竞争壁垒。这不是一个门槛低、玩家众的赛场,而是少数深谙技术本质的公司才能胜出的行业。未来,牌桌上的玩家会越来越少,能真正走到最后的,必然是那些坚持深耕技术、不断推动行业变革的企业。
《中国安防》:请您分享一下,依图科技在推动AI大模型产业落地的进程中有哪些典型案例?
段爱国:依图天问大模型具有会思考、可对话、能进化的三大显著特点,在视频语义搜索、万物搜索、AI 智能体编排、算法零样本冷启动等方面表现出色, 尤其在公共安全、智慧城市、智慧交通、内容审核、智慧园区等多个领域实现了突破性的实践,已在全国一百多个项目中实现实战部署。
以智慧城市的应用为例,我们在华东某省会城市建设“城市之眼感知系统融合平台”,对该市市建委、各区城运中心等 13 个单位开展城市生命线、文明城市等业务场景的常态化巡检。对其中在途消防车检测、占道施工检测、消防栓偷水行为检测等算法开展 53 次训练迭代,让算法从需求提出到算法上架运行,平均为 3-7 天,相较于小模型整体效率
提升近 20 倍,真正实现了“想法即算法”。高效的AI 算法生产方式,加速了城市管理从个别问题发现到建立规范全面巡查的过程,实现了城市级数据要素的实时生产,为城市规划提供量化支持,让管理决策更加科学、透明。我们这一创新获得了中国安防“人工智能 +”行动暨 2024AIIA 先锋案例“AI+ 安防”标杆案例的荣誉。
另外,我们在与某大型汽车工厂合作中,仅用三周时间现场训练 13 种算法,排查“危险区域不戴安全帽”“防电弧服及手套检测”“侧身开叉车”“开叉车玩手机”“人员攀爬线体”“举手机拍照”等多项违规行为,捕捉到多起风险隐患关键事件,全面保障园区生产的人身安全、消防安全、物理安全、信息安全等四个方面。大模型屏蔽了灯光和环境反光引起的火焰误告警,原来误报率高达 90% 多。而且现场训练的算法可以在现场根据需求快速调整, 自然语言的交互即可创建新算法,跟他说一段话就可以生成一个算法,真正实现了“人人都是算法工程师”。譬如有些车间采用头盔式安全帽,也可以纳入核准范围。而且最关键的是,数据不出厂即可快速训练生成可用的算法,有效确保了大型工厂的信息安全要求。
《中国安防》:您如何看待计算机视觉在安防行业的未来发展趋势?依图科技未来的重点布局是什么?
段爱国:在多模态大模型的加持下,行业数智化进入发展快车道。从AI 1.0 时代一路走来,我们也见证了单一任务的精准识别能力如何改变传统安防。而今天,穿越技术周期和行业迭代,依图已率先走进 AI 2.0 时代,对未来充满信心。这个新阶段不仅是技术更迭,更是行业认知和应用深度的全面升级。
在大模型的技术驱动下,为行业数智化带来四大核心变化:
1.大模型的自学习、后训练机制,长尾新算法已不再需要按月供给了,按天便可以供给 ,AI生产效率显著提升。
2.大模型可以进行情境理解和空间智能,安防的范畴不仅仅是原来的基础安保,还将延展到生产作业的智慧管理和智慧运营,解锁的场景、参与的空间指数级提升。
3.多模态的统一表征,将从原来标签筛选下拉菜单、鼠标点击升级到自然语言的交互,交互体验带来了新的革命。
4.最后一个更重要的是因为有智能体(Agent) 的加持,以前的很多 AI 算法在进行智能应用的时候, 经常存在落地难、门槛高、算法工程师贵的现状也将大大改变,现在人人都是算法工程师,真正带来了创新的平民化,人人都可以做 AI,每个行业都可以做智能应用。
进入到 AI 2.0 的时代,长尾算法生产的边际成本将趋近于零,这将开启一个全新的安防新时代。正如依图的愿景:对物理世界和认知世界进行建模, 用视觉建模可感知的物理世界,用语言建模认知世界,用行动来改变世界。
依图聚焦在以视觉为核心的多模态大模型,聚焦深耕细分行业场景,聚焦与伙伴强强联合,形成紧密结合、协同发展的行业生态。依图与伙伴共筑行业 AI 系统的六边形战士——兼具算法、数据、算力、AI 架构、领域知识和运营服务。“依图 + 伙伴” 的模式发挥各自优势,在研发、交付、运维等全流程中打造更高效、更可靠的解决方案。
未来属于开放与合作十大配资推荐,也属于那些真正了解行业需求、用 AI 创造实际价值的企业。我们对未来充满信心!