随着对AI应用的探索日趋深入,当前的公开数据在大模型训练进程中渐趋枯竭,而“数据烟囱”又对高质量数据流通使用形成了阻碍,数据要素的价值释放成为AI产业向前发展过程中绕不开的话题。9月起,国家数据局接连出台政策,点明公共数据开发利用是产业大势,并出台“可信数据空间”建设计划,目标于2028年前建成100个可信数据空间,培育五类空间、突破九项关键技术。
北京电子数智科技有限责任公司(以下简称“北电数智”)精准洞察数据要素价值,凭借全栈AI能力投身“可信数据空间”实践,加速产品落地,助力人工智能产业高质量发展。
在12月19日的2024 数据资产管理大会上,北电数智携手北京大学信息管理系、中日友好医院联合编写的《智能计算驱动的AI可信数据空间方案研究》(简称《研究报告》)正式发布北电数智凭借其在可信数据空间的深厚实践,于《研究报告》中围绕可信数据空间定义、案例、国内发展现状等维度,为智能计算驱动的AI可信数据空间建设提出三层建议:
明确价值
可信数据空间是数据要素流通基建,也是全行业数据流通的关键保障,可借助隐私计算、虚拟沙箱等技术保障流通安全高效。具体展现为:以“数字合约”规范流通规则,提升效率;用可控、可追溯链路保护数据安全;靠分布式架构让数据由持有方保管,确保数据产权不转移。
借鉴经验
目前国内外已有不少可信数据空间案例。欧盟构建多层次可信数据空间体系,在科研、健康等领域成效斐然。例如:欧洲开放科学云(EOSC)汇聚丰富的科研数据资源,助力科研创新。同时,放眼国内的政务、跨境、工业等领域,也有诸多实践。例如:政务数据空间领域的“区块链+审判”应用可提效司法、跨境数据空间可促进科研数据与实验装置共享、工业数据空间可助力制造升级。
精准施策
我国可信数据空间起步不久,“大模型+数据空间”因技术难、成本高,导致应用案例相对稀缺。要推动发展,需统一技术路线与标准,解决二者结合问题。《研究报告》提议国资企业可带头打造安全高效公平的流通环境发挥领头效应和示范作用。
身为肩负“建设数字中国”使命的AI原生国企,北电数智秉持数据要素领域前沿理念,全力打造安全可靠的数据交互、共享环境,搭建了“红湖・可信数据空间”。一方面,为大模型开发输送优质数据,借大模型产业撬动数据要素价值;另一方面,该空间整体架构贴合大模型开发需求,面向数据提供方,以使用策略协商等功能护其权益,确保数据“可用不可见、可用不可存、可控可计量”。面向开发者,红湖·可信数据空间还提供了大模型嵌入与开发、数据安全计算、流程管控、算力调度等能力,助力模型训练。
北电数智红湖・可信数据空间的设计严守算法安全,依托混元算力构建,通过嵌入机密计算能力、隐私计算软硬一体设计等技术建设可信数据空间。在算法开发时,红湖・可信数据空间提供了大模型开发算法融入数据空间的标准化路径,以此护航数据隐私。
在保障数据流通的安全性上,红湖・可信数据空间同样极具针对性。面对不同应用场景下的数据特性,它采取差异化安全技术策略。倘若遇到数据量大、关联超大模型且敏感度低的数据,就运用策略控制与软件隔离手段,让大模型训练安全、高效地推进;要是碰到多方来源、数据量小却敏感度高的数据,便启用基于密码学密文计算的样本对齐、模型推理等技术,全方位确保数据流通与使用过程中的安全无虞。
目前,北电数智已面向多行业打造可信数据空间系列方案,如:医疗领域整合异构数据、挖掘AI数据,训练专病垂类大模型并打造面向诊疗等场景智能体;科研领域推出“1+1+N”科研数据服务解决方案,构建科研与产品服务生态网络;公共数据运营领域贯通数据全链条,释放公共数据价值赋能区域和相关产业链。
展望未来,北电数智将继续深耕可信数据空间领域,依托自身强大的技术研发实力与敏锐的行业洞察力,持续锻造“红湖·可信数据空间”产品服务能力,将更多创新方案推广至更广泛的领域,让数据要素在安全有序的环境中充分流动,助力我国人工智能产业及数字经济迈向更高峰。
想获取更多前沿资讯与深度内容?快来“北电数智AI江湖”小程序一探究竟。