网站首页 文秘写作 工作范文 文秘知识 条据书信 行政公文 求职离职 名人名言 党团范文 励志 优秀作文 思想汇报 经营营销 汇报总结
  • 秘书基础
  • 写作
  • 毕业设计
  • 办公
  • 谈判
  • 工商税务
  • 小小文档网 > 文秘写作 > 秘书基础 > 科学数据中心基础软件栈架构研究与设计

    科学数据中心基础软件栈架构研究与设计

    时间:2023-08-10 10:05:10来源:小小文档网本文已影响

    王九龙,王容昊,王华进,路长发,段军磊

    中国科学院计算机网络信息中心,北京 100083

    数据作为新型生产要素,是数字化、网络化、智能化的基础,是数字社会的基石和底座。科学数据作为重要的数据分支,是科技创新、经济发展和国家安全的重要战略资源,同时也是政府部门制定政策、进行科学决策的重要依据。科学数据中心作为科学数据管理和应用的重要载体,是科学数据汇集、管理、共享、服务的重要基础设施。它的主要职责是承担相关领域科学数据的整合汇交工作,负责科学数据的分级分类、加工整理和分析挖掘,保障科学数据安全,依法依规推动科学数据开放共享,进而推动国内外科学数据方面交流与合作。一个完善的国家科学数据中心体系将成为科技创新的重要动力源泉。目前我国已成立20 个国家级的科学数据中心,并逐步形成多领域、多分支的科学数据中心体系[1-4]。

    随着科学数据的爆炸性增长,在新一轮科技革命和产业变革的助推下,科学研究的范式正在发生深刻变革,向基于科学数据探索科学方法的方向进行快速转变,以数据密集型科学为代表的“第四范式”应运而生,迫切要求开展大规模科学数据全生命周期管理、原位分析、全样本相关性分析等技术和软件平台的研发,以提高科研活动的效率、科研成果的公信力和科技创新的可持续性[5-8]。近年来,人工智能(AI)技术的快速发展,为多学科交叉的融合数据的智能化分析提供了新的支撑,在此背景下,大数据和人工智能的结合成为新的科研范式,为多元数据交叉融合分析带来全新动力[9]。

    新一代科研范式普遍要求对大规模多源异构科学数据进行高效挖掘分析,这对科学数据中心的软件栈建设提出了更高的能力要求,如多学科跨领域适配能力、异构数据资源检索与关联发现能力、大规模数据智能分析能力、存算分离任务优化调度能力等。亟需构建一套满足多源异构科学数据融合存储、协同管理、交互分析等功能的科学数据中心基础软件栈体系[10-11]。

    欧美等发达国家在科学数据体系建设方面布局较早,在多个学科领域数据中心软件栈建设方面具有丰富的经验。根据数据中心的功能定位,整体可将相关软件栈划分为仓储型、计算型以及联邦型三类,如欧洲核子研究组织(CERN)[12]、欧洲空间局(ESA)[13]、全球生物多样性信息机构(GBIF)[14]、美国国家航空航天局(NASA)[15]、美国国家生物技术信息中心(NCBI)[16]、美国国家海洋和大气管理局(NOAA)[17]等。这些软件栈针对科研人员数据产品制备和分析需求,普遍提供了原始数据清洗、质控,数据产品制备、分发,数据资源检索[18-22]等功能,有效支撑了科学数据资源的持久化存储、共享和利用[23-26],但目前仍存在分析方式不健全、多学科适配能力差、异构数据关联发现能力差、存算分离下的数据与计算任务调度欠优化等不足[27]。

    相较于欧美等发达国家,我国数据中心建设起步较晚,整体数据资源和软件栈建设不完善[28]。随着全球范围内大数据蓬勃发展,我国正在实施国家大数据战略,科学大数据已成为大数据国家战略的重要组成部分。在此背景下,国家重点支持建设了一批代表性领域的科学数据中心,并且在部分科学领域的数据中心建设上已经实现了主导和超越[29]。未来,我国应充分吸收国内外科学数据中心软件栈的建设经验,以服务新型科研范式为目标,构建一套可多学科跨领域通用的、技术领先的科学数据中心基础软件栈,实现我国科学数据中心技术能力的高标准、集约化建设。

    1.1 仓储型软件栈

    仓储型科学数据中心软件栈的建设以海量数据持久化存储为主要目的,不提供在线分析服务或只提供少量的分析工具软件包,供用户下载后离线分析。下面以科学数据银行(ScienceDB)和澳大利亚地球科学数据立方体(AGDC)的软件栈为例进行分析介绍

    科学数据银行(ScienceDB)

    ScienceDB 是我国自主研发的科学数据存储库平台,面向学术期刊、科研人员提供数据在线存储、汇交管理、长期保存与获取、共享、出版和引用服务。ScienceDB 提供通用学科领域的数据出版服务,支持用户保存和在线分享与研究工作相关的数据集。支持文件、表格、视频、图片、软件代码等数据类型。用户遵循开放共享的原则,可以自由提交、访问出版内容。

    ScienceDB 软件栈面向数据仓储需求提供数据治理政策、数据信息互联互通、遵循FAIR 原则等功能。在数据治理政策方面,提供CC0 和CCBY 4.0等多种数据使用许可协议供数据作者选择;
    在数据信息互联互通方面,提供数据集DOI、CSTR 和PID标识的自动注册和管理服务;
    在遵循FAIR 原则方面,提供数据集版本更新、评分、引用格式推荐、引用文件下载和元数据导出等服务。所有数据文件配套防篡改机制,可溯源到元数据与数据实体文件的每一次更新;
    配备底层数据存储、数据处理与数据灾备能力;
    采用先进的工程架构设计、保障稳定的数据在线出版服务及7×24 小时无单点故障服务[30]。

    澳大利亚地球科学数据立方体(AGDC)

    AGDC 是为政府、科学家和公众提供对地球表面、地下和海洋观测数据服务进行监测、分析和预测地球发展状况的平台,数据主要包含大量卫星图像数据、光学遥感数据等异构地理信息系统(GIS)数据[31]。

    AGDC 软件栈的技术架构分为四层:数据采集和汇交层、数据处理层(ODC)、数据应用层和用户应用层,提供少量Python 编写的数据分析工具。AGDC 基于分布式文件管理系统对具备PB 级存储能力的计算机集群进行管理,并利用超级计算机提供高性能计算服务,同时支持被Galaxy 框架下的异步任务队列调取,为用户提供数据查询和发布的服务[32]。

    存在的问题和不足

    仓储型科学数据中心软件栈主要针对特定领域的数据特点提供数据分类管理服务,并通过标准化API 为用户访问数据提供便捷服务。但这类软件栈提供的在线服务软件功能有限(以查询调用类为主),在跨领域数据分析服务方面的能力也有待提升。

    1.2 计算型软件栈

    计算型科学数据中心软件栈的建设多以支持数据在线分析服务为目标,支持调用标准数据接口获取分析需要数据,支撑用户在线算法调度和交互式分析。比较有代表性的计算型软件栈有Terra.bio 和Globus Genomics 等的软件栈。

    Terra.bio

    Terra.bio 是由美国麻省理工学院(MIT)和哈佛大学(Harvard University)联合研发,微软等科技公司协助研发的生物医药领域协作式开放云平台。此软件栈涵盖近4 亿条单细胞数据,并借助Google Compute Engine(GCE)支撑Genome Analysis Toolkit(GATK)等基因重测序分析,已为2 万多名用户提供数据服务[33]。

    Terra.bio 软件栈的核心能力是基于容器工作流提供基因重测序分析功能。首先通过WDL 工作流语言定义容器工作流,然后通过GCE 的PAPI 调用GCE 的Worker VM 进行计算并获取计算结果,并且容器兼容Python、R 等多种开发语言的领域算法。此外,Terra.bio 软件栈还支持Galaxy 框架,供研究人员进行交互式数据分析。

    Globus Genomics

    Globus Genomics 是由美国芝加哥大学和美国阿贡实验室(ANL)联合开发的为生物科学研究人员提供大量基因组学分析的软件服务平台。

    Globus Genomics 软件栈通过REST API 调用XSEDE、KBase 等大型生物和工程类数据库数据为使用者提供分析服务。其数据存储管理层基于第三方数据库构建。该软件栈的核心功能主要位于数据处理层和数据应用层。在数据处理层,软件栈基于ANL 特有的GridFTP 传输协议进行海量数据传输,允许Amazon EC2 计算单元从数据库中读取高通量数据。在数据应用层,该软件栈同样基于Galaxy 框架提供交互式分析服务[34]。

    存在的问题和不足

    计算型科学数据软件栈以提供算法工具和计算环境为主要目的,依赖于第三方平台提供海量科学数据的持久化存储,服务的稳定性和可持续性存疑。另外,计算型科学数据栈的编程分析以工作簿为主,流程化分析以不支持用户交互探索分析的容器工作流方式为主,存在编程分析和流程化分析无法紧密衔接的问题。

    1.3 联邦型软件栈

    联邦型科学数据中心软件栈一般是由特定领域科学数据机构形成的行业联盟来建设和运维,基于统一的数据格式和协议标准,面向本领域的跨域联邦存储和网络计算需求进行数据服务,实现数据资源定位发现和计算任务路由分发。有代表性的如全球生物多样性信息数据服务平台(GBIF)和国际虚拟天文台联盟虚拟天文台(VO)。

    全球生物多样性信息数据服务平台(GBIF)

    GBIF 是由世界经合组织牵头,各国政府进行资助,于2001年成立的在线运营的国际科学数据网络和数据基础设施的国际组织,其目的是为用户提供可以公开自由访问各种地球生物信息的服务。GBIF以参建国家和合作组织为节点,建立达尔文核心(Darwin Core)标准格式来汇聚数据,形成超过20亿的索引记录,服务生物保护、气候影响、物种入侵、病虫害、粮食安全和人类健康等研究领域。

    由于建设目标倾向于汇聚和交换数据,GBIF 平台在功能需求上并没有大规模数据存储的需求。GBIF软件栈的数据存储管理层基于Darwin Core 构建,数据处理层基于Apache Hadoop、HBase 等主流通用大数据软件构建。在数据服务层,GBIF 提供了三类共计一百多个在线或离线领域应用软件,支持用户在网站中直接调用数据进行分析或者下载后分析[15,35]。

    国际虚拟天文台联盟虚拟天文台(VO)

    国际虚拟天文台联盟(IVOA)是成立于2002年的全球性科学组织。IVOA 通过建立VO,支持对全球范围内天数据资源的综合性访问和分析,极大地促进了国际间的天文研究、教育以及数据的扩展应用。目前NASA 和ESA 都参与VO 建设,并有专属节点。VO 提供图像、光谱以及理论模型等数据访问服务,支撑太空任务、地面望远镜以及天文理论模型研究[36]。

    VO 与GBIF 建设目的和运行模式相似,均构建在大量独立节点的数据存储服务之上,提供数据访问和分析服务。相较于GBIF,VO 软件栈使用的开源软件的程度更高。针对数据服务的每一个功能,VO 软件栈都会设立相关的VO 标准和非VO 标准,对联盟成员提出了数据和服务的标准化兼容要求。

    存在的问题和不足

    联邦型科学数据中心软件栈主要面向特定领域的科研社区成员提供服务,所以数据类型和计算任务具有显著的学科特色,具有明显的领域局限。

    通过对国际典型科学数据中心软件栈架构和技术体系的深度剖析,结合我国科学数据中心的学科特点、行业需求以及发展规划,考虑现有软件栈存在的不足,提出了一套符合我国科学数据中心体系建设的软件栈参考架构,该架构包含标准化存储层、异构数据融合管理层、大数据处理引擎层、在线交互式分析层4 个模块层,具体架构如图1所示。

    图1 科学数据中心软件栈参考架构Fig.1 Reference software stack architecture for scientific data center

    2.1 标准化存储层

    标准化存储层作为软件栈的基础底层(架构如图2所示),为科学数据中心提供多源异构科学数据的存储、管理、共享服务等功能,实现科学数据在数据中心内部的一体化管理、共享。通过数据适配层集成封装FTP、关系型数据、文档数据、图数据、文件系统等多种数据源,可以实现从传统关系型数据库、HDFS 文件系统、日志文件等多种数据源获取数据,并提供可扩展的适配模块接口,支持自定义方式扩展,能够快速完成不同数据源的高速接入管理。为科学数据的管理提供统一的、集成化的管理方式,向上为科学数据共享和分析提供基于标准协议的科学数据访问接口服务。

    图2 标准化存储层架构Fig.2 Standardize storage layer architecture

    通过适配标准数据发布协议和技术规范,对接主流科学数据共享服务存储库,灵活适配科学数据中心或对象发布库的元数据要求,实现统一存储、多向发布的科学数据管理模式。提供一系列的API接口,实现科学数据在开放共享服务中的满足可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)的原则。

    2.2 异构数据融合管理层

    异构数据融合管理层作为软件栈的数据调配中枢,为科学数据中心提供多源异构科学数据的融合管理功能,基于结构化/非结构化科学数据的融合存储结构和统一查询语言,构建科学数据融合管理系统,实现结构化/非结构化科学数据的高效协同读写和关联查询。主要包括异构科学数据统一表示模型以及异构科学数据融合存储模型,具体如下:

    异构科学数据统一表示模型

    异构科学数据统一表示模型用于实现不同类型的异构科学数据的统一关联表示,进而构建关联查询接口。该功能模块基于传统属性图模型构建扩展数据图模型,实现异构科学数据统一表达,将数据实体的信息存储为带1 条或多条键值属性的顶点,将实体之间的关联关系存储为顶点之间的边,这种存储结构天然地适合处理涉及复杂关联关系的检索。扩展属性图模型结构如图3所示,在扩展属性图模型中,数据被分为图结构数据、结构化属性数据和非结构化属性数据三部分。

    图3 扩展属性图模型Fig.3 Extendable property graph model

    异构科学数据融合存储模型

    异构科学数据融合存储模型用于解决不同类型科学数据的统一存储问题,实现异构科学数据高效协同存取。本模型根据结构化、半结构化、非结构化三类科学数据的读写特点,构建异构读写适配机制实现对异构科学数据的原位融合存储。

    2.3 大数据处理引擎层

    大数据处理引擎层面向存算分离架构下的大规模科学数据分布式处理、模型训推需求,通过设置数据调度引擎、分布式计算引擎、高并发计算引擎,提供数据资源预加载、分布式数据并行计算、高并发内存计算服务。其中:(1)数据调度引擎用于将海量目标数据资源从本地或远程数据中心的存储环境预先加载到计算环境(即分布式计算引擎或高并发计算引擎),并在加载完成后立即启动计算任务;
    (2)分布式计算引擎采用MapReduce 计算模型对大规模数据资源进行分治处理,以支撑在线交互式分析层的数据过滤、投影、连接、转换组件的高效运行;
    (3)高并发计算引擎采用迭代式内存计算模型对大规模数据资源进行分批矩阵运算,以支撑在线交互式分析层的人工智能模型训练与推理类组件的高效运行。

    2.4 在线交互式分析层

    在线交互式分析层针对多领域科学数据交互式分析共性需求,构建交互式云分析服务引擎,实现数据、计算等资源的安全隔离,形成面向领域应用的多编程语言、多算法环境、多适配版本的大数据分析环境,支持多学科领域模型集成,为科研人员提供在线编程和在线工作流交互分析服务。

    该层构建了“用户编程工作簿—(共享发布)→组件—(组合成)→交互式工作流(实验)—(共享发布)→配置式分析工具”多学科跨领域分析服务能力社区化构建机制,首先采用在线编程工作簿技术Jupyter Notebook 研发在线编程分析环境,通过引入科学大数据领域常用的编程语言内核,使在线编程交互式分析环境能够同时支持至少5 种编程语言的科学数据在线分析。然后采用步进式交互分析工作流构建模式,可根据不同的数据分析目标,在实验中自由选择组件处理分析数据,研究人员可随时尝试用不同的算法组件分析当前或历史的输出数据。然后通过配置式分析工具,把普适、高效的“实验Experiment”发布成为“工具Tool”,为科研人员提供易用的流程化分析服务。此外,为实现分析组件的云服务化和计算资源的弹性伸缩和隔离需求,基于FaaS(Functions as a Service)的计算范式来实现无服务器计算(Serverless Function),进而降低复杂度,操作简化易用,构建流程图如图4所示。

    图4 多学科跨领域通用分析工具构建Fig.4 Multidisciplinary and cross-sectoral analysis tool

    基于第二部分构建的软件栈参考架构,结合实际应用场景需求,进行软件栈原型的设计及功能实现,该软件栈原型包括科学数据存储空间、异构数据融合管理、大数据流水线处理以及在线交互式分析等功能模块,具体内容如下:

    3.1 科学数据存储空间

    在数据存储管理方面,基于科学数据中心数据标准化存储的要求,采取仓储型科学数据软件栈的建设模式,为科学数据中心提供安全、便捷的科学数据协同管理服务,通过分布式文件系统和数据库技术实现大规模数据存储服务,支撑科学数据中心、科研人员和科研项目团队进行日常科学数据的在线管理。同时针对科学数据中心科学数据的公开发布需求,建立更为通用的元数据标准体系,并提供科学数据成果的质量审核和同行评议,支持数据集的DOI 和CSTR 双标识,促进科学数据的共享传播,提供数据集引用追踪、访问统计分析、关联数据集推荐和互操作数据API 服务,为科学数据在线分析和访问提供安全可靠数据共享服务。

    3.2 异构科学数据融合管理系统

    仓储型科学数据中心软件栈为异构数据的融合存储提供了很好的参考模型,但在通用性问题处理方面相比联邦型软件软具有明显的劣势,通过整合仓储型和联邦型软件栈技术优势,构建兼顾数据专业性和通用性的管理模块能够更好地实现数据管理服务。本系统基于异构科学数据统一表示模型、融合存储模型,构建了异构科学数据融合管理系统原型架构,如图5所示,包括融合存储引擎和统一查询引擎两部分。本系统基于图查询语言Cypher 扩展形成异构科学数据的统一查询语言,然后通过AI 模型管理引擎进行即时语义提取,进而对结构化、非结构化数据进行基于语义的即时关联查询。然后基于Key-Value 存储引擎、全文索引引擎设计异构科学数据融合存储模型,进而实现了异构科学数据的高效融合管理。

    图5 科学数据融合管理系统原型架构Fig.5 Prototype architecture of scientific data fusion management system

    3.3 多元大数据处理引擎

    在多元大数据处理系统的建设中,国际主流科学数据中心软件栈通常采用开源社区软件进行组装。第一部分三类典型科学数据中心软件栈的建设方式往往采取三种方式:(1)自开源后发布至开源社区进行功能升级;
    (2)采用开源社区成熟技术进行组装建设;
    (3)购买商业平台服务,进行软件栈搭建。方式(1)的专业性更强,针对特定领域的精准度更高但是通用性相对方式(2)较差,而方式(3)虽然建设速度快但是失去了运维管理的自主性。因此我们采取方式(2)来进行科学数据中心大数据处理引擎的构建,在分布式计算引擎、高并发计算引擎的建设方面,拟定采用Apache Spark、PyTorch 进行原型系统的构建。Apache Spark 基于MapReduce 计算模型对大规模数据进行多节点分治处理,采用的内存DAG 任务调度策略,可在内存中对数据分片进行多步骤变换处理,从而降低了数据序列化开销,性能大幅优于基于磁盘的大数据处理引擎Hadoop,是目前最为流行的大数据处理系统,原型系统如图6所示。PyTorch 可调用GPU 的高并发内存计算能力实现深度学习模型训练和推理,是目前主流的人工智能框架软件之一。在远端大规模数据资源的加载方面,通过调用“科学数据存储空间”提供的统一数据访问接口,实现海量数据资源的稳定可靠传输,并采用Redis 缓存框架优化Apache Spark、PyTorch的数据访问性能,尽可能避免在大数据处理或高并发计算过程中出现IO 瓶颈。

    图6 科学数据大数据处理引擎原型Fig.6 Prototype of the bigdata processing engine for scientific data

    3.4 在线交互式分析引擎

    相较于仓储型和联邦型软件栈,计算型软件栈提供的在线分析技术更符合当前分析需求和建设发展,其中NASA[15]、NOAA[23]、ESA[24]、CERN[17]等大型欧美科学数据中心在建设计划中明确提出了将数据和分析集成在云上的发展规划。针对现有计算型软件栈仅在单一学科内的应用较为成熟的问题,我们在多学科跨领域通用分析组件概念模型的基础上构建了在线交互式分析引擎原型,该引擎的功能模块主要包括四部分:

    (1)在线编程交互式分析环境:为用户提供便捷的在线编程环境,方便用户在线编写个性化的分析算法脚本并验证其正确性,且具备将算法脚本在线共享发布生成分析组件的功能,生成的分析组件一经审核通过,将进入通用分析组件库,供其他用户复用。

    (2)通用分析组件库:作为基于多学科跨领域通用分析组件概念模型构建的原型核心,通用分析组件库由不同学科领域的研究人员通过标准流程自行构建。研究人员可以通过在线编程交互式环境编写针对本学科领域的分析算法脚本并发布生成分析组件,或者通过将本地算法脚本上传到系统进行解析。

    (3)交互式分析实验工作流:基于分析组件库,研究人员可以自行构建多步骤的分析实验,在每个步骤内可以尝试调用不同的分析组件或者调整同一分析组件的某些参数来对数据产品进行分析,并得到对应的分析结果,最终形成独立完整的实验工作流。研究人员可进一步将完整的分析实验发布成共享的分析工具,供其他用户使用。

    (4)分析工具:集成了多种面向不同学科领域的在线分析服务,由不同学科领域的用户基于本领域自行构建的交互式分析实验发布共享形成,系统用户无需额外配置,可直接使用分析工具创建数据分析任务,避免了不同用户建立同质化的分析实验,同时简化了分析过程参数的配置。

    近年来,随着我国对数据价值的认识逐渐加深,数据科学将成为人类探索世界的核心手段。科学数据作为数据中的重要组成部分,如何能够更好地发挥数据价值已经成为科学数据应用的核心。相较于一般数据,科学数据的目的性更强、数据间的客观联系更为突出,发现客观规律的可能性也会更高,因而通过科学数据不仅获得研究成果,还可能发挥产业建设决策指导作用。本文通过研究典型的国际主流科学数据中心软件栈,初步形成了适用于我国科学数据中心的软件栈参考架构,并对软件栈的原型进行了探索式构建。未来,我们将持续完善和推广该软件栈,为我国科学数据中心的高标准、集约化建设提供技术平台支撑。

    利益冲突声明

    所有作者声明不存在利益冲突关系。

    猜你喜欢异构引擎数据中心酒泉云计算大数据中心机械研究与应用(2022年4期)2022-09-15试论同课异构之“同”与“异”小学教学研究(2022年5期)2022-04-28浅析数据中心空调节能发展趋势建材发展导向(2021年7期)2021-07-16关于建立“格萨尔文献数据中心”的初步构想西藏艺术研究(2019年1期)2019-09-04“涉蓝”新引擎">蓝谷:
    “涉蓝”新引擎商周刊(2017年22期)2017-11-09异构醇醚在超浓缩洗衣液中的应用探索中国洗涤用品工业(2017年2期)2017-04-16overlay SDN实现异构兼容的关键技术电信科学(2016年11期)2016-11-23LTE异构网技术与组网研究通信电源技术(2016年6期)2016-04-20无形的引擎河南电力(2015年5期)2015-06-08基于云计算的交通运输数据中心实现与应用中国交通信息化(2015年3期)2015-06-05

    推荐访问:数据中心 架构 基础

    • 文秘
    • 范文
    • 文秘知识
    • 书信条据
    • 行政
    • 求职离职
    • 名人名言

    推荐访问