| 南图概况 | 馆内游览 | 网上资源 | 馆藏资源 | 活动通告 | 论坛 | 支持我们 | 返回主页
 年  期
首页 > 组织机构与出版物 > 新世纪图书馆 > 数据库开发与研究

组织机构 读者信箱

  

《中国近代文献图像数据库》建设及前景瞻望

2006年2期

 

周小平
(南京图书馆)

  【摘 要】 论文介绍了《中国近代文献图像数据库》的建设背景、研制过程、目前进展及其发展前景。
  【关键词】 《中国近代文献图像数据库》; 图像数字化; 数字资源建设

  【Abstract】 This paper introduces the construction background of China's Modern Document Picture Database,its development process,current progress and evolution foreground.
    【Key words】 China′s Modern Document Picture Database; Picture digitization; Digital resource construction

1 《中国近代文献图像数据库》建设背景
  “中文文献资源共建共享合作会议”是以中文文献为主轴的国际合作会议,是迄今中文图书馆界最具代表性的盛会。会议的主旨是研讨跨地域的中文文献资源共建共享问题,意在通过具体的合作项目逐步实现中文文献资源共建共享,推动全球中文图书馆和中文资源收藏机构之间的交流与合作。目前该会议已成功举办了五次,对于弘扬中华文化,提升中华文化在全球的影响力起了极大的推动作用。2004年11月在第四次中文文献资源共建共享合作会议上,南京图书馆提出了《中国近代文献图像数据》建设的项目,经过参会的海内外专家学者研讨、论证,确定了这一项目。
  南京图书馆是国内为数不多、保存民国文献资料最为完整的省级公共图书馆,同时南京图书馆长期跟踪国内外图书馆自动化研究和数字图书馆建设,对国内外数字资源建设的进展情况,以及相关问题进行了比较深入系统的研究和探索,在对国内相关图像数字资源建设标准和部分图书馆的图像数据库建设状况的系统调研后,在理论和实践上做了较为充分的准备。
2 研究制定相关标准工作规则
  通过对国内相关图像数字资源建设标准和部分图书馆的图像数据库建设状况的系统调研,我们对图像数据建设的思路、技术平台、图像数据库文献收录的范围、数字资源的制作标准、发布与存贮管理等一系列问题进行了分析和研究,确立了《中国近代文献图像数据库》建设的目标:借鉴运用科技部科技基础条件平台工作重大项目《中国数字图书馆标准规范建设》所明确的数字图书馆数字加工标准和规范,采用国内成熟的商用软件,建设一个立足馆藏特色,具有自主版权、鲜明时代特色,集史料性、学术性和观赏性为一体的综合性中国近代文献图像数据库。
  为此,我们首先制定了数据库建设相关标准和规范:《中国近代文献图像数据库》建设方案、图像扫描规范、图像文件处理规则、文献标引规则、文献分类词表、数据入库规则。
3 数字资源建设的实践与探索
  数据库收录文献的时间范畴:《中国近代文献图像数据库》收录文献的时间范计划从1840年到1949 年这一时间段。在组织实施时,我们决定分阶段实施。主要考虑到以下几个方面的因素:①馆藏民国文献的资源特色与数据库建设相结合,展示图像数据库的特色。南京图书馆藏有70余万册民国文献,其中民国时期的图书40万余册、期刊近万种、报纸千余种。内容涉及当时的政治、经济、军事、文化、教育、科学和体育各个领域。②没有数字版权纠纷。③考虑到1911年以前出版物中图像数量较少的实际情况,如果以此为数据库建设的起点,数据库建设难以在短时间内达到一定的数量和规模。④考虑到数字资源发布等一系列问题,主要解决哪些数字资源可以在互联网上发布的问题。综合以上因素,我们将数据库馆藏文献收录时间起点,确定从馆藏民国文献开始。民国文献通常指1911年辛亥革命后到1949年9月这一时间段,中国出版的中文文献。
  此外,我馆希望从馆藏民国文献入手,着手开展数据库的建设,以期有一个良好的起点,引起读者的关注,并将根据专家和读者的反映,及时调整、完善图像数据库建设策略。
  图像数据库的结构:考虑到《中国近代文献图像数据库》将在互联网上进行发布,我们在图像文献的标引上,注重对图像内容的全方位、深层次、多角度的揭示,结合互联网上通行的检索习惯和软件平台所能提供的技术支持,同时,面对国内对民国文献的分类、主题词标引,没有可参照规范的实际情况,确定了题名、关键词、内容说明等字段为主要标引款目。使用系统导航树展现数据库框架结构。数据库导航树设计了政治、经济、军事、文化、科技、教育、体育、宗教、法律、人物、民国建筑、民国风俗、民国广告、医药卫生、历史地理等十五个栏目,每个栏目下设有多个子栏目。栏目的设计结合数据库资源自身特点,展示民国文献特有的时代特色、背景特色,展示了数据库的架构、亮点与值得关注点。
  图像数字化实践与探索:本着打造精品的指导思想,在数据库的建设过程中,我们将图像数字化的过程分为三个阶段、14个步骤,每个步骤环环相扣,密切联系。每个岗位都明确了相应的职责、工作任务和工作量。对每个阶段都明确任务,并且定期组织员工交流、研究工作。
  图像数字化的第一阶段,是图像扫描。图像扫描的质量如何,直接影响到后期的制作。我们采用较新的图像扫描仪,针对扫描的图像不同,参照相关的数字化资源建设标准,进行了反复的试验、比较,确定较为合理的、可操作的技术指标。同时扫描指标的设置,尽可能满足今后的多种不同数字产品输出需要,避免重复建设。第二阶段是图像处理。为此,我们进行了专题研究,如:图像画面的选取、图像发布的格式、水印的嵌入、图像文件压缩与优化、图像文件传输与存贮、数字资源长期保存、图像的数字版权等方面,进行了反复的测试、比较。其中先后试用的软件不下十多种,试验的数据上万个。在数十次科学试验的基础上,确定了数字资源加工软件、数字化资源的保存、图像存贮与网络的传输效果等一系列最佳的技术指标。第三阶段是图像文件的发布。这一阶段的主要任务是:图文比对,力求图文并茂,根据浏览效果,对图像进一步调整。
  近代文献图像标引工作:关键词、图像说明是图像数据库建设的亮点和重点,也是我们开展工作的难点。首先,这是一项没有可借鉴、可参考的工作。无论是从事民国文献多年的老馆员,还是近几年毕业的新员工,都面临相同的问题:揭示内容的信息源少,可参考信息少,对上个世纪的图像进行标引,难度相当大。然而,所有参加项目的馆员,并没有退缩,而是积极动脑筋想办法,借鉴参考书,依托互联网,认真核实每一个人物的生平介绍、图像的画面,仔细推敲每一个描述的词语,努力开展工作。可以说,图像数据库建设取得阶段性的成果,它集中体现了南京图书馆对《中国近代图像数据库》建设的高度重视,展现了项目组全体同仁的集体智慧与辛勤付出。
4 目前进展情况
  2005年11月,配合第五次中文文献资源共建共享合作会议的召开,我们将进行了4次以上校对的4326条记录通过南京图书馆网站和江苏文化网同步发布,供广大读者免费检索使用。
  《中国近代文献图像数据库》取材于馆藏历史文献的精品。截至2005年10月,完成图像扫描 34915幅,图像处理33171幅,文献标引21395条,数码拍摄近1万幅。
5 图像数据库特点
  原汁原味地再现历史:集史料性、学术性和观赏性为一体的综合性中国近代文献图像数据库。当读者浏览数据库时,二十世纪二三十年代社会生活的众生百态鲜活生动地呈现在眼前:政治、经济、军事、文化、东西南北、中国外国,内容丰富多样,形式轻松活泼,雅俗共赏、原汁原味地再现了当时的社会场景、社会名流与平民百姓的日常生活。在这里,无论是图像,还是文字,都再现了历史的原貌;在这里,无论是从事民国历史研究的专家,还是喜欢怀旧的读者,都可以从中找到线索。
  全文检索、组合检索:《中国近代文献图像数据库》支持任意字、词、句的全文检索。无论是从标题、内容说明、关键词,还是从作者、作品发表时间、地点等途径,都可以进行检索;同时可以进行题名、关键词、内容说明与作品时间或作品地点的组配检索。检索词使用功能类似于著名的搜索引擎GOOGL,使用更加快捷、方便。如:检索词“孙中山”+作品时间“1921”,就可以检索出,数据库所收录的孙中山在1921年的所有图像。如输入检索词“第一”,就会出现:民国时期的数个第一(次、届、军),如中国第一条铁路、中国驾驶汽车第一人、第一届运动会等。
  从已公开发布的图像数据库来看,中国近代图像数据库建设刚刚起步,数量和规模仍然很小。但是,数据库在互联网上公开发布以后,吸引了部分读者,引起了关注。
(表1:数据库点级击率汇总 见文挡附件)
  网络点击率(见表1):截至2005年12月6日(数据库正式发布一个月),数据库中被点击一次以上的记录达323条,占7%,其中单条记录点击10次以上的依次是:教育、人物、广告、文化等。从中我们可以看出读者的阅读需求与阅读倾向。
  从业内同行评价看发展:在第五次中文文献共建共享会议上,海内外专家、同行在听了我们的进展报告和数据库演示后眼睛为之一亮,他们说:“在海外,常常为查找中文资料感到困惑、困难,现在网络上有了图文并茂的数据库太好了,它大大方便了我们对中文资料的查找。作为图书馆工作人员,要推荐给学生使用。”国家图书馆发展研究院李院长指出:《中国近代文献图像数据库》的建设成果显著,具有一定的创新研究价值。国内同行也从不同的角度给予评价。在图书馆相关会议上,听了我们的介绍后,许多图书馆纷纷讯问参与合作的方式和途经,有的图书馆也表示了代为数字化加工的意向。
  我馆《中国近代文献图像数据库》建设刚刚起步,但是有了一个良好的开端,它得到业内同行的关注和认可,这对图像数据建设工作是一个肯定,也是鼓励。我馆将通过几年的努力和积累,建成具有一定数量、一定规模、一定影响的具有自主版权、鲜明时代特色,集史料性、学术性和观赏性为一体的综合性中国近代文献图像数据库。
参考文献
1 数字资源加工标准与操作指南. http://cdls.nstl.gov.cn
2 通用数字资源(图像数据)格式标准分析报告. http://cdls.nstl.gov.cn
3 张晓林.元数据研究与应用.北京:北京图书馆出版社,2002.

(作者信息:南京图书馆研究馆员,信息资源开发部副主任,邮编:210008。收稿日期:2005-12-12。)
编校:刘勇定

苏ICP备05016133 版权所有©南京市成贤街66号南京图书馆 建议分辨率 1024*768