博士论文浅议欧美书业产品元数据

   基于欧美英语图书出版市场的产品元数据信息发展,通过介绍信息链上的主业务主体及其作用,勾勒书业元数据的生命运行轨迹,并分析现阶段数据信息在图书产品发行中的应用、电子书元数据及对产品营销的意义等突出问题,得出结论元数据业务在未来发展中将逐渐与出版业务融合,对信息化系统也将不断出更高的求,信息发展会趋向标准化与开放化。同时指出图书元数据建设是一项行业性信息化整体方案,需全行业共同参与维护。 
  关键词 图书产品 产品信息 元数据 
  中图分类号 G231 文献标识码 A 文章编号 19-5853 (217) 4-35-5 
  Discussion about the Publication Metadata of the English Publishing Market Overseas 
  Li Xiao 
  (China Archives of Publications(Publications Data Center of the SAPPRFT),Beijing,15) 
  Abstract Based on the English book metadata development in the European and the American publishing market, the paper introduces the participants of the data stream and draws its life circle, and discusses the core elements and current issues in the data business, with the conclusion that metadata business would gradually converge to the publishing process, with higher requirements of the information system, and the tendency of information standardization and liberalization, as well as pointing out that metadata is a integrated information scheme, which needs the participation of the whole industry. 
  Key words Book products Product information Metadata 
  元數据贯穿图书产品的整个生命周期,主用于作品创作、书号注册、编辑、出品、预售营销、各销售渠道的分销活动、预售交易、正式出版、出版后的营销、读者检索与查询、读者选购、出版后的销售交易、销售跟踪和商业智能等多个出版环节。本文基于欧美书业情况对元数据做简介绍。 
  1 书业元数据的由来 
  元数据始于出版社,出于产品的内部查询功能,以及配合投放市场的相关营销活动和读者预订购,产生了最初的描述图书产品的基本信息,即产品元数据(title data)。随着图书产品出版发行的不同阶段,信息会不断变化,数据会被适时更新调整。 
  许多出版从业主体都会参与制造、传递、强化和使用图书出版产品元数据,形成一条图书元数据信息链,并且元数据信息会随着进入不同的渠道产生不同的变化。信息链上游的数据靠近出版初期,由出版社和内容制造方产生,并流向下游的供应商、分销商,最终通向读者。通常情况下出版社包括自助出版者都会采用多种发行渠道,因此数据会被推向下游多个合作的发行主体。即使通过网站直销,出版社也会与一些重点分销商建立合作关系,尽可能靠近并了解读者。 
  下游合作商将图书元数据纳入内部系统作商业用途,供合适的产品和服务,例如建立在线订购平台、书目数据库和数据推送,尤其是对批发商、大型分销商、图书馆一类大客户需进行较为复杂图书推介的B to B活动。 
  数据集成商、批发商和零售商通常掌握了更丰富的元数据信息,能进行系统查阅,且在质量和有效性上远高于出版社,大多数的下游主体都有专业人员进行元数据加工和维护。 
  2 参与图书元数据业务的相关主体 
  图书元数据是由多种出版从业主体共同完成的,主包括出版社、图书数据集成商、发行商(批发商、电子书集成商和分销商)、零售书店(独立书店、连锁书店、网络书店)、图书馆和元数据管理集成商,他们对数据的贡献和需求各有不同。 
  2.1 出版社 
  出版社是元数据的源头,传统出版社一旦决定出版,在创作期就开始记录早期的元数据信息,例如标题、相关责任者、主题类型、预计出版时间等。自助出版者在签署承诺文件后便登记这些基本信息,大型出版社会运用一些出版软件系统来收集信息,小型出版社通常建立内部数据库或excel表格来记录这些信息。出版社收集这些信息主用于编辑出版阶段的跟踪查询、登记申领书号、准备营销素材、前通报给合作的发行商(一般是6个月)。数字出版的兴起对图书元数据的发展产生了深远影响,由于数字化产品很大程度上需依赖外部技术系统,致使相关产品的元数据信息变得不可控。目前,大量电子书产品由纸质作品转化而来,完全独立于传统的出版流程,导致相关元数据信息既不能与纸质保持一致,也不符合行业通行的元数据规范标准。这对出版社加强技术合作、更新出版流程和行业标准既是机会也是挑战。 
  2.2 图书数据集成商 
  图书数据集成商从出版社或其他信息源收集整理相关的出版信息,并开发成信息产品向业内供服务。通常主是各国家或地区的书号代理机构,既收集信息又供服务,如美国的鲍克公司(Bowker)、英国的尼尔森(Nielsen),业务围绕数据开展,不参与图书交易。比较成熟的信息产品有“鲍克可供书目”数据库和一些数据分析类信息服务产品。另一类是一些大型批发商,他们也编制、优化图书产品信息,并打包出售,如美国的英格拉姆(Ingram Book),开发数据库产品并出售给零售商和其他业内企业。、
 这些机构投入大量的人员、技术和资金来进一步加强、优化源自出版社的信息,建立庞大的数据库并不断开拓各种信息源,实现数据自动化控制,客观上推动了出版物元数据的规范化和高效使用。 
  2.3 批发商 
  批发商主面对零售商和图书馆,需依靠产品元数据来供仓储、网络订购、货运等诸多附加服务,从而实现B to B的有效供应。例如贝克与泰勒(Baker&Talor)的图书源系统(Title Source)和 英格拉姆(Ingram)的电纸软件系统(ipage),都能为大客户供多种分类浏览、定题搜索来选购图书产品的功能。并且,还能依照客户的需求,生成多种格式的图书订购单,以便客户用于馆藏查重。 
  元数据必须完整正确才能用于自动化信息服务,否则无法满足客户的需求。进入这一环节的元数据已经和出版社的不一样了,因此大型批发商都会在高元数据方面不断投入,以保证元数据维持在较高的水平。 
  2.4 电子书集成商与分销商 
  电子书集成商通常指为图书馆供电子书和其他数字资源的企业,如强驱公司(OverDrive),伊博拉力公司(ebrary),我的图书馆(Mylibrary)。他们帮助图书馆建立信息平台,满足读者的查询、借阅等需求,同时也供Marc格式的数据记录来帮助建设馆藏数据库。电子书分销商指供电子书零售的企业,如苹果公司、亚马逊、巴诺书店,通过网站直接向读者销售电子书产品。随着自助出版的飞速增长,一些新興的电子出版平台如斯马什华滋电子图书公司(Smashwords),露露电子(Lulu),图书宝贝公司(BookBaby),也向市场输出了大量图书元数据。然而,电子书集成商和分销商供的元数据信息工具一般都不符合通行的数据标准,在目前数据和产品拥挤不堪的市场环境中无法有效地服务于客户。 
  2.5 零售商 
  元数据在图书零售领域发挥着至关重的作用,尤其是数字化内容产品和网购的盛行,数据对于图书零售业的转型发展至关重。大多数实体书店(独立书店和连锁书店)都建立了网络交易平台,时刻掌握各门店的销售动态,并根据产品的销售数据来决定补货,但客观上也增加了成本。网络书店更需依托高质量的产品信息和适当的元数据应用。只有不断优化读者网购图书的体验才能在零售领域具有竞争力。 
  2.6 图书馆 
  图书馆是最早推动图书元数据科技化和标准化发展的主体之一。早在196年代,图书馆开始采用Marc格式的图书数据信息来建立电子馆藏目录,到197年代基本完成卡片目录时代到电子目录时代的更替。为满足排架、馆藏检索等多种复杂需求,图书馆一般采用较为复杂的分类体系(《美国国会图书馆分类法》《杜威分类法》)和可控主题词表。目前,图书馆界和出版业(出版业使用的元数据标准主是ONIX)虽然对于图书信息的需求有着诸多重合,然而它们对元数据都形成各自的标准体系,在信息对接上存在一定的障碍,一些服务于两个行业的信息技术服务商和数据公司不得不增加额外成本来满足不同客户的需求。 
  3 图书元数据的关键元素 
  3.1 图书发行中的必数据信息 
  理想状态下,出版社都会掌握必的元数据信息以满足在图书产品的编辑、出版、发行过程中所需实现的多项功能,主包括信息获取、版权查询、编辑、制作出品、营销、分销、商贸交易、产品查询、选购、销售跟踪、商务智能等。满足这些功能的图书产品数据主分为三类内容描述性数据、产品描述性数据和商务需求性数据,如图2。 
  内容描述性数据主包括标题(主标题和副标题)、作者/相关责任者、出版社(及版权信息)、版本信息、丛书信息、出版语言、目标读者群、青少年读者年龄分级、内容、BISAC/BIC主题词。这些信息都是成功在线销售产品的关键信息,它必须准确描述所售图书产品的内容本质和产品品质。 
  产品描述性数据包括产品形式(格式/装帧/包装)、软硬件求、幅度(页数/文件大小)、体积和重量、件数、DRM/使用限制、数字化图像。这类数据表述内容产品的种类、载体形式等,对产品发行活动至关重。出版社需掌握不同载体图书产品(纸质产品、有声书和数字产品)的市场表现情况,对营销决策、商业智能、消费者行为分析都有重意义。发行商通过产品的重量、体积、件数等信息来计算仓储空间和货运预算。 
  商务需求性数据主有书号(ISBN)、价格、出版日期、出版社打折促销信息、出版社状态码、产品可用性代码、地域性权限、严格销售日期、返回码。消费者通常比较关注价格,出版社、发行商在图书买卖中和商业决策中都需这些信息。 
  3.2 有关电子书元数据信息的突出问题 
  除了三类必性数据项,结合目前电子书发行实践中出现的问题,有几项关键信息值得探讨。 
  3.2.1 书号问题 
  书号是标识图书产品最通用的标识符,通常被建议为必的信息元素。根据国际书号中心的派号原则,不同格式的电子书需单独申请书号1,因此导致相同内容的作品会有多个产品记录,客观上增加了书号的成本(欧美国家的书号需购买),因此在业内引起是否需给不同格式但内容同质的电子书单独分派书号的争论。此外,电子书出版主体不断增多,一些大型批发商也具备派发书号的资质,客观上给电子书市场造成一定的混乱。理想状况下,出版社应该为不同版本的电子产品单独分派书号,将数字产品也纳入ISBN体系里,才能出现在各类行业权威分销平台里,一些独立电子书商(如亚马逊、巴诺书店)出品的电子书没有书号,就只能存在于各自的内部销售数据库里。 
  3.2.2 ONIX图书元数据标准有关数字产品的描述性数据项 
  ONIX2.1版本主适用于纸质书,有些产品数据项(如成书尺寸、重量等)不适用于电子书。新版本ONIX3.更新了代码表,扩展了对电子书和有声书产品的描述性数据项,使其对数字图书产品更具兼容性。此外,除了必性数据项之外,对电子书产品还特别重视补充加强型数据对产品信息进行进一步描述,例如作者简介、图书评论、作品得奖情况等,因为这类信息对于电子书产品的市场推广有重意义2。
 3.2.3 EPUB标准问题 
  除了产品元数据标准,电子出版产品还有文档元数据标准,EPUB是业内较为通行的数字出版行业标准,由“国际数字出版论坛”(IDPF)推广维持,除了亚马逊Kindle不支持,谷歌播放(Google Play),爱布克(iBooks),努克(NOOK)等阅读系统都支持EPUB格式的文件。它极大地丰富了元数据项,不仅能将元数据描述实施于文档层面,还能深入到段落层面,从而更加丰富元数据、更深层次地掌握产品内容,能将Marc记录或ONIX文档包含在信息文档内,也可以通过外部链接获取相关信息。新版本EPUB3不仅涵盖了书名、出版语言和标识符,还增加了时间戳(timestamp)作为一种新的对应单个文档的标志符。在实施标准的过程中,出版社应该从市场流通的角度出发,仔细判断哪些数据项是恒定的,而诸如定价、销量、地域权限等一类变动性较大的信息项最好置于标准之外。元数据接收单位也应该充分认识EPUB标准,适时调整系统来应对这种格式的数据信息。此外,一些商户在EPUB基础上做了一些改动,研发了自身的标准,如亚马逊的KF8,降低了文档在不同设备中的兼容互通,虽然在商业上加强了一定的竞争性,但冲淡了行业标准的作用。 
  3.2.4 搜索引擎优化 
  所有网络销售的图书产品都会将元数据信息运用于搜索引擎优化(Search Engine Optimization,SEO)方面,不仅限于电子书产品。早期商家会尝试通过设计搜索引擎排名的算法来增加一些网站和产品的曝光率,后来这种做法被禁止。目前较为普遍的思路是通过优质的描述性内容来优化被检索的效率,因为营销性内容的检索率光靠一般的关键词是不行的,而应更多考虑怎样描述图书产品才能增加将其推送给目标读者群的几率。所有核心的元数据项都有助于搜索引擎优化的实现,一些网络书店(亚马逊、巴诺等)和出版社网站的搜索引擎仅限于内部的图书产品数据库,数据源由出版社直接供,主流搜索引擎网络公司对全网络的信息进行检索。出版社虽然不可能控制这些企业各自的搜索引擎算法和优化工作,而且图书产品的销售排名等信息还无法直接归入元数据项,但他们都尽可能向分销领域供详细的元数据信息。然而,没有人能保证完整的元数据就一定会增加图书的检索率。 
  3.3 加强性数据对营销具有重意义 
  基础性元数据项可以满足产品的交易过程,而额外的加强性数据,如作者简介或采访、、书评、获奖情况、相关视频等,能很大程度上丰富读者的体验,在读者选购时产生不同的效果。此类数据通常都无法在出版前或出版初期补充上,但它们却能在产品上市后相当长的时间里持续发挥促销的功能。尼尔森公司曾发布过一本白皮书《论元数据与销售量的关系》,论述了作者简介与采访数据项对产品销售的积极作用,并建议补充多种加强性元数据项,如、预览和样本章节、作者简介和访谈、书评、作品获奖情况、封面封底图片、相关视频等项,并论证它们对销售的积极意义3。许多网络书店(巴诺、亚马逊)的自助出版平台都设有作者页面,可以看到他们的个人信息、图片、视频、博客、旅行事件。 
  4 出版业元数据业务的展望 
  数据管理公司(DATA CURATE)曾发布过一份调查,就出版业和元数据目前的阻碍和未来的发展问题,采访了欧美书业参与元数据业务主机构的负责人和业务代表,结果显示实业者和专家们在一些看法上达成共识4。 
  4.1 数据业务与出版业务逐渐融合 
  未来的元数据制作和维护应该逐渐整合到产品出版的全过程。这意味着出版社肩负更多责任,在数据业务上也需更专业的培训。但另一方面,也会导致更多数据被控制在出版社手中,成为机构的核心资产。电子书的元数据制作和维护应该充分与印制版产品相融合并保持一致。 
  4.2 数字信息化系统在诸多方面都有待于高 
  目前的数字化信息系统一般很难满足新世纪元数据业务的求,主表现在系统的储存能力和灵活性都无法适应急速增长的信息量和元数据的动态性;需一次能管理一种产品的多个版本的元数据,而不是一次只能处理一种产品的元数据;纸質产品和数字产品的元数据业务链还无法整合;支持全项元数据及其使用的能力还不足;与业内合作伙伴进行健康、流畅的数据传播功能(高效的、自动化的元数据传递和解析)还有待高。 
  4.3 信息标准化和开放化有利于元数据的发展 
  业内专家一致认为,广泛采用行业标准、推行最佳运行模式可以高信息流的效率,促进信息自动化发展,升信息质量并减少信息的重复和不稳定。并且,业内业外都会继续倡开放数据理念,无论是在出版业内还是出版业与图书馆之间,都应该积极分享优秀的元数据业务模式、商业模式、信息系统,支持元数据共享、数据连接,增加数据的开放程度。 
  4.4 信息化建设是全行业的整体运动 
  元数据信息建设不是业内某几家企业或某一领域的企业能实现的,它是需整个行业参与解决方案的一项整体运动。在信息链各个环节的出版社、发行商、信息商、技术商和图书馆需达成共识,未来的出版业信息化是基本业态,任何一个机构都无法置身事外,行业的元数据信息健康关乎所有机构的利益,需整个行业去维护。 
  注 释 
  1 International ISBN Agency. ISBN User’s ManualM/OL. 6ed. United Kingdom International ISBN Agency, 21212. https//www.isbn-international.org/content/isbn-users-manual 
  23Breedt Andre. White Paper The Link Between Metadata and SalesDB/OL. 216-9-29. https//www.baidu.com/link?url=u8v7jL-2l5w9HWfEqrf2C5xvin3_SJyxC1qHSKOFpjwhgcN_jXwMtk5MyKyBEkkeWDUkFIo23O1yx5lCJV_mHY_4zS6fyjiZOAp_K9o3Q3&wd=&eqid=8713bed2ee22581a9de
  4 Register Renée,McIlroy Thad. The Metadata Handbook, A Book Publisher’s Guide to Creating and Distributing Metadata for Print and EbooksM. Ohio DATA CURATE, LLC, 212 75-76