世界杯压球官网港汉文团队发布7模态东谈主体动作数据集, 揭开大模子通晓才能短板

发布日期：2026-05-27 14:18 点击次数：159

世界杯压球官网港汉文团队发布7模态东谈主体动作数据集，揭开大模子通晓才能短板

近日，香港汉文大学信息工程系邢国良认知团队的博士生蒋想阳行为第一作家，完成了一项名为 CUHK-X 的大型多模态东谈主体动作数据集，这个数据集能让 AI 简直看懂东谈主在作念什么、为什么这样作念以及接下来要作念什么。这项估量遵守已被出动谋划界限顶级国外会议 ACM MobiSys 2026 接收。

有了它，就业机器东谈主不错更机灵地通晓你的需求，养老院能提前预警老东谈主跌倒风险，康复系统能分析病东谈主的动作是否设施。他们用这个数据集测了市面上好几款主流的大模子，发现即就是最机灵的 AI，在通晓东谈主类简直动作这件事情上，平均正确率也独一四成傍边，还有很长的路要走。

这项估量其实是被执行需求逼出来的，该团队之前在作念边际部署的 AI 系统时发现，现存的数据集都只停留在识别层面，比如拍一个东谈主跌倒，AI 知谈这是跌倒。不外大模子期间需要的不仅仅认出来，还风光路这个东谈主是何如跌倒的，是绊到了椅子如故被东西砸到，以及跌倒之后应该何如办。

通晓和推理这两个才能，恰正是 AI 要走进家庭、病院、养老院这些简直场景时最需要的。市面上的主流大模子主要针对彩色相片优化，靠近深度图、热成像、毫米波雷达这些相当规传感器时施展很差，压根原因就是枯竭这类传感器的配对数据。

CUHK X 的数据辘集走了一条反通例的旅途，传统作念法是先璷黫拍一堆视频，然后找东谈主一帧一帧打标签，遵守极低还容易出错。该团队先瞎想好动作场景，再用大模子把动作串成一段有逻辑的剧情，终末让参与者照着剧情演。比如刷牙洗脸梳头穿衣着这几个动作，大模子会生成一段从起床到洗漱结束的完好刻画，参与者照着演就行了。数据辘集前标签就仍是定好了，准确性大大提高。

统共这个词数据集包含 40 个动作，分红了七个大类。这套动作清单是从 12 个公开数据集的 349 个动作中筛选出来的高频动作。

数据辘集使用的传感器声势很是豪华，主录像头是一台 Goermicro Vzense NYX 650，同期输出彩色、深度和红外三种信号。热成像用的是海康威视 TB4117，毫米波雷达是德州仪器 IWR6843ISK。惯性传感用具的是五台 WitMotion WT9011DCL BT50，鉴识绑在双手手腕、双脚脚踝和腰部。

统共传感器通过主机的全局时钟同步，用场记板标记肇始点，确保七路信号精准对皆。统共这个词数据辘集在两个室内环境中完成，遮掩了客厅、厨房、卧室和卫生间四个典型居室场景。

立博体育LIBO中国官网

CUHK-X 数据辘集，光是视觉类模态就包括 4，029 段视频，总时长达 19 小时 29 分钟。该团队诈欺这套数据开展了一系列基准测试。在传统的动作识别任务上，热成像施展最佳，准确率 92.57%，彩色录像头 90.89%，深度录像头 90.46%，红外 90.22%，骨架数据 79.08%。毫米波雷达和惯性传感器因为信号噪声大，准确率独一 46% 和 45% 傍边，2026世界杯中国压球官网证明非视觉传感器在动作识别上还有很大擢起飞间。

最查验 AI 水平的是通晓和推理，因此该团队瞎想了四个通晓层面和一个推理层面的的任务。

第一个是刻画生成，让 AI 看一段视频，然后写出一段话刻画画面里的东谈主在干什么。测试限度清楚，施展最佳的模子在热成像和深度数据上也只可拿到三四十分的匹配度，和简直刻画差得很远。

第二个是情境分析，让 AI 判断视频里的东谈主是安逸如故匆忙中。当今主流模子平均正确率与立地臆测无异。

第三个是动作排序，把一段打乱规矩的视频片断再行排好，比如先拿杯子后倒水终末喝水。这个任务的挑战在于 AI 必须通晓动作之间的因果链条。

第四个是动作遴荐，从 40 个动作里选出视频中出现的动作。这项测试平均正确率不到 25%，证明现时大模子在多动作复杂场景下险些窝囊为力。

推理任务的难度则更进一步，通过让 AI 不雅察一段动作序列，展望下一秒会发生什么，来判断现存大模子的推理才能。该团队发现，平淡的刻画型大模子在这个任务上施展很差，它们只会照搬名义特征，比如看到有东谈主在餐桌前就猜吃饭，统共非论餐具拿没拿。

不外有推理才能的模子施展好许多，它会分析险阻文，看到桌子上有衣着、东谈主在擦手、左右放着包，就会推断出接下来很可能是要穿衣着外出。这种模子还会给出推理经由，让东谈主知谈它是何如得出论断的。

不外，这些看似层次昭着的实验限度，并不是一蹴而就的。从开拓选型到步地搭建，从志愿者招募到数据清洗，团队遭遇的费事远比想象中多，而其中最惨痛的一次告诫，来自毫米波雷达。

据先容，毫米波雷达那次失利让统共这个词团队铭肌镂骨。在实验室里调得好好的，搬到新步地信号全乱套了，十几个小时的采集一齐作废，二十多个参与者得再行叫归来。蒋想阳说这个告诫很兴奋，那就是持久不要认为在一个环境跑通了，换个处所就理所虽然能跑通。

图 | 第一作家相片（开端：受访者）

另据悉，蒋想阳本科主修数学专科，硕士毕业于中国台湾大学，估量标的为硬件系统，博士就读于香港汉文大学信息工程系，从事谋划机系统标的的估量。

他行将博士毕业，并谋划继续从事学术估量，进一步潜入和完善这一数据集。下一步谋划把参与东谈主数从 30 东谈主彭胀到 100 东谈主，加入 WiFi 信号和音频等新模态世界杯压球官网，还要去简直的养老机构作念实地考证。在他看来，AI 要简直通晓东谈主，光靠识别远远不够，必须在场景里建造起完好的因果链条。CUHK-X 数据集的搭建为算法估量者提供了考证模子的平台。