科学数据出版的关键问题研究进展

近年来,科学数据开放共享和管理受到广泛关注,而科学数据出版逐渐成为科研成果发布和再利用的重要环节。作为科学研究重要主体的高校纷纷设立专门进行科学数据出版工作的机构;数据仓储如Dryad、GBIF等积极探索以数据存储和共享平台的方式承担科学数据出版的责任;Else
阅读技巧Ctrl+D 收藏本篇文章
近年来,科学数据开放共享和管理受到广泛关注,而科学数据出版逐渐成为科研成果发布和再利用的重要环节。作为科学研究重要主体的高校纷纷设立专门进行科学数据出版工作的机构;数据仓储如Dryad、GBIF等积极探索以数据存储和共享平台的方式承担科学数据出版的责任;Elsevier、Springer等学术出版商将学术出版的触角伸向科学数据领域。2013年,英国联合信息系统委员会、BioSharing等数据仓储、国际科学技术与媒体出版者联盟以及Wiley等出版机构针对数据出版当下状态及未来发展专门召开专题研讨会。科学界、传统出版界、图书馆领域、科学研究管理机构、数据库商等从不同角度推动科学数据出版的进程,不断呈现合作趋势。 本文以“data publishing”“data publication”“数据出版”等作为题名和关键词,分别在Web of Science、Elsevier、中国知网、万方等中外文数据库进行检索,结果表明国内外研究对科学数据出版的相关内容已有所涉及,如何琳和常颖聪[1]对科学数据出版的主要模式以及科学数据出版涉及的元数据、隐私保护、组织技术、出版机制和知识产权问题进行了阐述。但总体而言,国内外科学数据出版领域的研究成果数量较少,且其研究内容主要是实践探索的经验总结以及从宏观视角对科学数据出版进行归纳。基于此,本文在分析科学数据出版发展现状基础之上,试从科学数据出版的生命周期视角,从宏观体系和微观实践环节两个层面对已有的研究成果进行述评,以期归纳科学数据出版生命周期所涉及的关键问题及其解决方案,为我国未来开展科学数据出版实践提供借鉴。 1 科学数据出版的主体角色 科学数据出版牵涉多方参与者,其角色和功能正在被讨论。Leonardo Candela等认为科学数据出版意图在于科学数据的发布,其主要参与者有科研人员、出版者和数据仓储。其中数据仓储在数据集格式化、记录和编目、授权、出版费用管理、保证有效性、可获取性、可发现性以及可引用等科学数据出版的8个关键方面发挥着重要角色[2];Lawrence等[3]从科学数据出版物的操作层视角出发,将主体角色划分为作者、解析器、识别符管理者、同行评审管理者、“守门人”、元数据编辑、元数据生成者、同行评审者、存档者和数据管理者等10种;师荣华和刘细文[4]将科学数据出版的整个流程归纳为前期流程和后期流程,认为图书馆在前期阶段可以担任数据许可、元数据、保存、评审、协助数据发现、发展出版标准、知识产权保护、数据仓储等方面的角色,在后期阶段可承担与科学研究人员合作的角色。 对科学数据出版主体的研究基本与当前实践一致,是对科学数据出版实践的归纳总结。由上述研究可知,当前通常将科学数据出版的主体归结为传统出版商、具有独立数据出版实践的传统学术期刊、数据期刊、数据中心或数据仓储、科研人员、数据公司、图书馆等几类,不同主体在科学数据出版活动中分饰不同角色,各司其职,相互配合,共同完成科学数据的出版工作。 2 科学数据出版体系的发展 2.1 科学数据出版形式的归纳 加利福尼亚大学学术交流办公室将科学数据出版的形式划分为4类:商业性数据仓储、数据期刊、期刊文献的支撑数据、个人或实验室网站。荷兰阿姆斯特丹大学认定科学数据出版形式包括科学数据仓储、科研人员的服务器或网站、增强出版物等3种。Chavan和Penev[5]把《生物多样性数据文章》作为生物学领域科学数据出版的主要形式,认为其是激励生物学研究者开展科学数据出版的重要方式。国内学者对科学数据出版的形式进行了较为深入的讨论。张静蓓和任树怀[6]从科学数据出版的实施者的视角,将科学数据出版的形式总结为数据独立出版、数据论文出版、合作出版和期刊自行出版;雷秋雨和马建玲[7]总结了以出版数据文章为特征的数据期刊、以整合出版为特征的数据期刊、数据作为补充资料出版的数据期刊;马建玲等[8]将学术期刊科学数据的存缴和出版政策划分为4类,即论文出版时将相关数据提交到数据仓储,数据作为论文支持文件一并提交,非开放数据的出版,以及数据质量控制;张小强和李欣[9]根据数据与论文的关系,将数据出版初步划分为数据附属于出版物、独立的数据出版和出版物附属于数据等3种形式。 对科学数据出版形式的总结和归纳,因其视角不同得到的结果也各不相同。有些出自对数据存缴和出版政策的划分,部分是对论文与期刊集成出版形式的总结。当前对科学数据出版形式的归纳总结基本还处于对出版形式的划分层面,对于不同形式的特征、适用性等方面有待深入研究。 2.2 科学数据出版体系与模式的构建 部分研究将科学数据出版作为科学数据共享体系的组成部分,如黎建辉认为科学数据出版从数据工作者的角度创新了科学数据开放共享模式,推动科学数据知识产权的清晰,保证数据的可追溯、高质量、可引用,也可通过数据引用来实现对科学发现价值和影响的客观评价[10];吴立宗等[11]认为科学数据出版是一种全新的数据共享模式,指出数据出版与数据共享之间存在互补关系,提出和完善由数据提交、同行审议、数据发布和永久存储、数据引用和影响评价等5个基本环节构成的体系架构;诸云强等[12]把数据出版与数据汇交、数据联盟、服务激励等作为科学数据共享的机制之一,指出自下而上的科学数据出版是调动科研人员主动共享数据积极性的重要机制。基于吉姆格雷提出的数据金字塔基础上,徐丽芳和丛挺[13]提出了数字出版金字塔,从原始数据和数据集到数据收集和结构化数据库,再到经过处理的数据和数据显示,最后到数据出版物,分别对应科学数据出版的不同阶段或形式。在由单一主体主导科学数据出版的模式之外,李红星等[14]提出科学数据联合出版模式,即数据中心联合传统学术期刊的科学数据出版,以提高数据质量,同时帮助数据成果融入现有科研成果评价体系,实现数据质量和数据作者权益保护的权衡。 对科学数据出版形式和模式以及对科学数据出版体系的勾勒初步成形,为开展科学数据出版实践提供了参考,但基本限于对实践探索经验的总结,而从理论研究到实践的反馈或从理论到实践的验证性研究还较少。 3 科学数据的引用规范和标准化 科学数据是重要的学术成果,应当充分尊重科学数据生产者的科研劳动,同时还应保证科学数据的可追溯性,而通过科学数据的引用能够为科研人员带来与同行评审类似的信誉,从而进一步激励科研人员开展科学数据的共享和再利用。 3.1 科学数据引用对科研工作者的激励作用 科学数据引用的规范化和标准化成为科学数据出版中的必要环节。根据Altman和Crosas的观点,科学数据的引用已有40余年历史。他们对科学数据引用的发展历程进行了梳理,根据科学数据引用的功能,将其归纳为3个阶段:突出数据引用在描述和检索领域的角色;将引用的功能拓展到数据获取和长期保存领域;将引用运用于验证、再现和重复利用[15];Heather A.Piwowar等[16-17]对科学数据的共享与文献引用率之间的关系进行分析,发现科学数据的出版与文献引用率之间存在明显的正相关关系;Tessa E. Pronk等[18]在博弈论框架下分析影响科研工作者共享和出版数据的因素,结果表明与政策规定相比,降低成本和增加引用等更具有激励效果。这些研究表明,科学数据的出版和引用,对科学文献的引用有推动作用,进而可激励科研工作者进一步开展数据共享和出版工作。 3.2 科学数据引用的标准化研究 2013年11月,FORCE11的数据引用综合工作组发布数据引用原则联合声明对科学数据引用的目的、功能和归属进行了规范。早在2007年Altman对定量数据的学术引用标准进行了研究,提出了由基础引用元素和可选元素组成的数据引用标准,并对深度引用即数据集的子集引用以及不同版本数据的引用等问题进行了阐述[19]。科学数据引用实质上是引用目标对象的元数据子集,丰富的元数据能够保证科学数据的再利用,可见元数据对于科学数据的引用来说至关重要,数据出版、数据存储机构对此已经达成共识。王丹丹[20]指出数据引用需要制定面向科学数据的元数据规范、建立能够承认作者贡献的评价体系并提供支持科学数据引用的参考文献管理工具;彭洁等[21]对科技期刊和科研人员对科学数据引用的态度、动机、标注等进行问卷调查,提出了科学数据引用框架,并提出分别以期刊、数据中心和科研人员为中心的3种促进科学数据引用的路径;屈宝强等[22]对科学数据引用的现状等进行总结,认为科学数据引用是保证数据创建者知识产权的重要途径之一,并对科学数据引用的功能、实践以及现有的引用格式进行了总结;黄如花等[23]对国外科学数据引用的规范进行了调查,详细阐述了引用原则、引用元素、引用格式、引用对象、相关主体等 5个方面的问题。 目前在科学数据引用领域,需对科学数据来源和历史沿革的记录,需对科学数据本身的界定特别是数据的结构、关系和粒度等方面的确定,如确定科学数据的归属以及利益分配特别是科学数据归属模型的构建,科学数据引用的标准建设,科学数据出版中引用的实现方式,如何合理地将科学数据引用纳入科研评价体系等问题仍需进一步研究和实践。与此同时,大数据、复杂结构数据、动态数据和数据格式变化等为科学数据的引用带来了挑战。 4 科学数据出版的元数据保障 4.1 元数据对科学数据出版全生命周期的支持 Ball等对科学数据出版、引用和管理中的元数据标准进行调查和分析,指出当前单一学科领域的科学数据元数据存在多样和复杂的现状,无法实现互操作[24];Hoekstra对Linkitup在数据出版中的作用进行探讨,指出Linkitup通过元数据实现了数据仓储中科研成果的出版功能,并通过对元数据进行丰富的方式,实现了科学数据与仓储中的原始文献之间的关联,而通过元数据的方式比关联数据的方式更为方便[25];Roberts[26]指出,当前数据期刊不断涌现,其中包括元数据的出版,但缺乏综合性数据出版框架;袁曦临[27]认为元数据是推进科学数据共享,联结科学数据生产者、使用者和管理者的纽带。由此可见,元数据在科学数据出版生命周期的各个环节承担着关键作用这一观点在研究领域已经达成共识,元数据是科学数据出版的重要基础。 4.2 科学数据出版实践中的元数据保障实施 Kansa等以Open Context为例,指出元数据的收集和记录是科学数据出版的第一步。为了实现科学数据的引用、检索、浏览等功能,Open Context项目要求保存特定的元数据记录以保证科学数据集的再利用[28];Sayogo以DataONE项目为例,探讨科学数据出版的动力,指出元数据标准与数据质量、数据保护、数据共享的伦理和责任等共同构成了科学数据共享和出版的影响因素[29];Moritz[30]等指出,当前致力于数据出版的新的期刊形式已经出现,其中元数据发布可支持数据稳定、持续和安全的检索;Mercè Crosas[31]指出,科学数据的出版需要正式的数据引用格式、元数据和可信赖的数据仓储做支撑,元数据在支撑科学数据发现方面具有至关重要的作用;Kolker[32]认为科学数据的共享、分析和集成,需要元数据的可持续生成、获取和传播,提出通用组学元数据列表并作为生物学领域独立数据出版的标准;Kratz等[33]指出,数据出版在记录信息的种类、与数据相关的记录文档的存储位置、数据以何种方式实现有效性等方面差异性较大,归结起来,数据的记录信息和记录文档等是元数据描述的结果;欧美大部分高校图书馆将科学数据出版作为科学数据共享的重要手段和途径,由于元数据是高校图书馆传统工作和服务积累的优势工作领域,所以在开展科学数据的共享与出版中特别重视元数据的运用和协调。 科学数据出版的标准化建设,是科学数据出版未来发展的必然趋势,而元数据标准是科学数据出版标准化建设的重要环节,也是当前科学数据出版实践探索的重要领域。对科学数据质量的保证,一般通过元数据管理和数据管理技能的提升来实现,构建并完善用户友好、可互操作的元数据标准是实现科学数据出版的必要因素之一。 5 科学数据出版与学术文献的关联 科学数据的开放共享和出版,能够为科学研究特别是学术文献的验证、科研成果的评价等提供条件。科学数据出版主体既有传统出版参与者,又有新型的参与者。传统出版者从学术文献的增值利用视角出发,已开展科学数据的出版以及与学术文献的关联工作,如Elsevier与数据仓储合作开展科学数据出版,并在其数据库平台通过多种形式实现科学数据与学术文献的关联。Bizer论证了利用关联开放数据开展科学数据的网络出版与传统出版物进行关联的可能性,认为利用关联数据实现科学数据共享和与学术文献的关联仍面临数据互操作、数据质量和科学工作环境等方面的问题[34];Hoogerwerf等[35]论述了跨学科研究环境对学术信息包括学术文献与科学数据关联带来的挑战,并就OpenAIRplus项目所开展的学术信息关联实践进行了详细阐述,利用“引用模型”实现出版物、科学数据和科研项目的关联。Wynholds [36]认为科学数据的身份识别是科学数据引用、元数据和识别符等得以建立的基础。 科学数据既是科学研究的基础,也是科学研究的重要产出,与传统学术文献紧密相关。科学数据出版与学术文献的出版、共享、利用之间的关系逐渐凸显,如何通过科学数据出版实现科学数据与学术文献的有效关联和互操作,仍有待进一步研究。 6 科学数据出版中的隐私保护与利用权衡 6.1 科学数据出版的隐私保护规范 在科学数据出版中,如何实现隐私保护以及隐私保护与利用之间的均衡等问题一直备受关注,同时科学数据隐私保护的标准也不断推出。如针对数据挖掘中的隐私保护问题,2008年推出广义矩阵理论框架即保护隐私性挖掘准确性框架(FRamework for Accuracy in Privacy-Preserving mining,FRAPP),为保护隐私性数据挖掘中随机扰动机制的系统化设计提供了指导[37]。Rastogi等对数据出版中的隐私问题进行了研究,提出了匿名算法,并提升了先前已知的隐私与利用权衡算法,如FRAPP等对隐私保护和利用的效果[38]。在医学领域,HIPAA法案(Health Insurance Portability and Accountability Act/1996,Public Law 104-19,)较早公布了个人健康信息的隐私保护标准和实施指南,并于2013年对HIPAA隐私保护的相关规则进行了修改,医学数据的开放、共享、出版和再利用多遵循该规则进行隐私保护[39]。英国于1998年颁布实施《数据保护法案》,对科学研究所涉及的与个人隐私相关数据的处理进行了规范。由此可见,隐私保护已成为科学数据出版和利用的重要问题。 6.2 权衡隐私保护与利用 Brickell和Shmatikov提出匿名数据隐私保护所得与使用所得的评估方法,指出“即使是最适度的隐私保护,对于数据挖掘利用而言也几乎是完全的破坏”[40]。在此结论基础上,Li T等对科学数据出版中隐私保护与利用之间的利弊问题进行了进一步探讨,指出科学数据的隐私保护和利用之间的直接对比并不合理。在数据出版中隐私保护和利用之间的均衡与金融投资中的风险回报权衡相似,借鉴现代帕累托理论的概念,提出了隐私保护和利用权衡评估的集成框架,为科学数据出版者进行隐私保护的正确决策提供指导[41]。澳大利亚国家数据服务网支持其国内研究中的敏感数据进行出版,这意味着描述敏感数据的元数据记录被发布,对敏感数据的发现和检索不再受到限制。澳大利亚国家数据服务项目指出敏感数据为可以用来识别个人、物种、对象和位置等信息的信息,存在歧视、伤害或不希望得到关注反而被关注等方面的危险。 科学数据出版牵涉数据利用与隐私保护之间的博弈,在牵涉调查对象、实验对象的科学领域,其刊出的科学数据往往涉及隐私保护问题,而科学数据的共享、出版、利用和再利用是科学研究发展的大势所趋,以何种方式、何种尺度维系两者之间的均衡是科学数据出版未来面临的一大挑战。 7 科学数据出版中的同行评审与质量控制 7.1 科学数据出版的同行评审 传统学术出版物的同行评审是科学研究的核心,是确保科学研究质量的工具,传统学术出版对同行评审有特定要求和专门的规则,也已成为学术界和出版界的共识。同行评审也是评估数据适合再利用程度的方式,但同行评审本身并没有确切的界定,不同的出版物处理编辑审查、独立分析、评论等有不同的方式和方法。Lawrence等[42]指出同行评审是保证科学数据出版质量的必要环节,但当前对科学数据进行同行评审的必要性仍有争议,认为对科学数据进行同行评议,通常从数据质量、元数据质量以及其他通用评审因素等3个角度来开展,其中数据质量和元数据质量对科学数据的同行评议而言是基础;Costello等[43]指出现有的科学数据仓储在开展科学数据出版过程中,缺乏对科学数据质量的监控和检查,也缺少特定标准的约束;Grootveld等[44]对开放科学数据电子存档项目的同行评议工作进行了总结,其采用“下载者进行评议”的方式,通过科研人员存储数据并为其添加元数据,并通过同行评议对元数据进行丰富。 科学数据的有效性和可信性对科学研究工作以及以科学数据为依据做出决策都至关重要,对科学数据质量评估和质量控制的需求不断增长,因此对科学数据以及数据出版物的同行评审开始得到重视,但科学数据同行评审的主体、方式和粒度等还未达成共识。 7.2 科学数据出版的质量控制 刘凤红等[45]认为数据论文出版的关键问题是质量控制,而同行评审的标准化和规范性操作,是有效控制数据论文质量的方法之一,同时指出Pensoft出版社对数据论文的同行评审标准进行了严格规定,要求审稿人审核稿件质量、数据质量以及内容和元数据一致性等;黄晓磊等[46]认为经过同行评审的科学数据出版可以激励科研人员开展数据的生产和共享,也可以促进科学数据再利用。在科学数据的同行评审领域,不同类型的数据由哪一方进行评审,不同学科领域的科学数据采取何种标准进行评审,评审与共享之间的平衡等问题还未有定论,仍在进一步的讨论和研究中。 8 结语 通过对近些年国内外科学数据出版相关实践和研究的回顾,可知科学数据出版在科学数据开放共享和管理实践基础之上发展而来,是对传统科学研究成果出版的重要扩展和补充。国外对科学数据出版问题的研究视角较为宽泛,牵涉科学数据出版生命周期的多个方面和环节,重视科学数据出版新途径和新模式的探索,着重开展科学数据出版相关技术和标准化研究,对科学数据出版的隐私保护以及质量控制等问题有所涉及。 我国科学数据共享和管理实践已经有所进展,特别是国务院印发的《促进大数据发展行动纲要》明确提出发展科学大数据,为科学数据出版提供了良好的环境和政策保障。在研究领域,国内学者已开始关注科学数据的出版问题,研究成果多是对国外研究成果的借鉴,少数涉及科学数据出版的关键技术和标准问题。然而目前国内相关实践和研究重心仍在科学数据共享和管理领域。随着国际科学研究和出版领域对科学数据出版的重视,可预见我国将逐渐开启科学数据出版的探索。对于我国的科学研究机构、科学数据管理机构、图书馆、商业性数据平台、传统出版机构等,将面临科学数据出版这一新的领域,特别是我国科学数据出版实践将面临的关键问题仍值得我们作进一步深入研究。 转载请注明来源。原文地址:http://www.lw54.com/html/zhlw/20171010/7264912.html   

科学数据出版的关键问题研究进展相关推荐

  1. 村账乡代理存在的问题及建议
  2. 青贮玉米种植与品质研究进展
  3. 学术图书开放存取驱动的图书馆资源建设研究
  4. 新形式下如何做好农经工作探析
  5. 驱动与约束:PPP模式促进区域图书馆合作发展
  6. 新形势下种子管理工作中存在的问题与对策
  7. 基于社会化媒体的高校图书馆文化服务营销研究
  8. 基于利益相关者需求的图书馆电子书馆藏发展政
  9. 公共文化服务研究的热点主题与演化路径分析
  10. 关于农业财务管理问题及相关策略的几点思考

------分隔线----------------------------
联系方式
微信号

优发娱乐

热点论文
  1. 认证空间
  2. 信用说明
  3. 返回顶部