| 南图概况 | 馆内游览 | 网上资源 | 馆藏资源 | 活动通告 | 论坛 | 支持我们 | 返回主页
 年  期
首页 > 组织机构与出版物 > 新世纪图书馆 > 学术论坛

组织机构 读者信箱

  

情报检索语言与主题网关(全文)

2005年1期

刘 竟 侯汉清

(南京农业大学信息管理系)

 

【摘 要】 论文以主题网关的典范———英国社会科学主题网关(SOSIG)为例,分析了主题网关利用情报检索语言的做法,包括对分类语言、主题语言和自然语言的利用。最后得出情报检索语言在网络环境中仍然可以发挥信息组织的有效作用;同时为了更好地适应网络环境,应当对情报检索语言进行必要的改造。

【关键词】 情报检索语言; 自然语言; 主题网关; SOSIG 信息组织

 

Abstract This article researches deeply how SIG uses indexing languages organizing web information with the example SOSIG (Social Science Information Gateway). In the end, the author includes that the indexing languages still could act the function of organizing web information, and that we should adapt necessarily indexing languages to web environment better.

Key words Indexing language; Natural language; Subject-based information gateway; SOSIG; Information organization

 

 

1 搜索引擎与情报检索语言
  长期以来,情报检索语言(即受控语言)在传统文献信息资源的组织中发挥了巨大的作用。随着计算机和网络技术的迅速发展,情报检索语言受到了前所未有的挑战。不少学者认为,自然语言具有易用性好、标引简单、专指度高、易实现自动化等特点,因此,由人工语言向自然语言转变是网络环境下检索语言的发展趋势,部分学者甚至认为“在不久的将来,人工检索语言将被自然语言取代从而走向消亡”[1]。而搜索引擎问世的早期似乎也证明了这一趋势。
  在感叹搜索引擎为我们查找到大量网络信息的同时,人们很快就发现这一工具存在着很多问题,比如死链接、空链接等现象严重,网络信息质量良莠不齐,专业领域资源太少;提供的信息数量巨大,但检准率极低,需要从众多的信息中筛选出所需的信息。这是因为搜索引擎主要采用关键词即自然语言作为检索语言,其结果必然是同义词和近义词得不到控制,词间关系得不到提示,误组配现象严重,扩检和缩检困难。
  大量的事实表明,不加任何控制的自然语言检索有着严重的弊端,在当今网络环境下,完全舍弃情报检索语言,只采用自然语言,只能让我们从一个极端走向另一个极端。真正可行之路,只能是情报检索语言与自然语言在新的网络环境下的有机结合。
  2 主题网关的内涵和发展
  针对搜索引擎检索效率低,对专业领域信息组织重视不够等问题,在图书馆学情报学、计算机科学和相关学科专家的共同参与下,利用传统的文献信息组织的经验和技术,结合现代的信息技术,开创了一系列网络信息组织的新模式和新方法,其中最引人注意的是主题网关。它是人们利用情报检索语言组织网络资源的一个很好的尝试。
  主题网关这个名词在英文中有“subject gate-way”、“information gateway”、“subject-based infor-mation gateways(简称SIG)

”等多种提法。在国内,有的学者还将之称为“学科信息门户”、“信息网关”。
  主题网关是针对特定学科或主题领域,按照一定的资源选择和评价标准、规范的资源描述和组织体系,对具有一定学术价值的网络资源进行搜集、选择、描述和组织,并提供浏览、检索、导航等增值服务的专门性信息门户[2]。主题网关,“致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口”[3],以满足用户科研和教育的信息需求。
  在欧盟资助开发的DESIRE(欧洲研究与教育信息服务的发展)项目的主题网关手册中,指出主题网关具有以下特征:
  1) 提供网上大量网站或文献链接的在线服务;
  2) 根据特定的质量和范围标准运用人的智力劳动过程选择资源;
  3) 依靠人的智力完成内容描述。内容描述可以采用给定的关键词或受控术语,这是个很好的方法,但并非必不可少;
  4) 依靠人的智力构建浏览/分类结构(不包括完全无组织的链接表);
  5) 至少部分是人工为每个资源创建(书目)元数据[4]。
  从中,我们可以看出,主题网关具有可靠性、知识性、结构性的特点,利用情报检索语言组织网络资源是主题网关的一个重要特征。
  国外主题网关的研究起步较早,从1996年DESIRE一期工程开始,SIG就在欧洲范围内逐渐普及,一大批面向数学、工程科学、医学、社会科学的SIG相继建立。到2001年DESIRE项目进入第二期时,SIG在世界范围内已呈“燎原”之势,踪迹遍布各大洲。此外,随着主题网关的不断发展完善,一些SIG联合在一起构成更大的资源发现网络(如英国的RDN,Resources Discovery Network)。同时主题网关的建设,已从单纯的学术研究和课题项目发展到大规模的建设任务。目前正在欧洲范围内开展的RENARDUS项目和英国的SOSIG就是两个成功的典型。我国2001年底正式启动的中国国家科学数字图书馆(The Chinese Science Library,CSDL)已建立起图书馆学情报学、物理数学、化学、资源环境、生命科学等多个学科的主题网关[5]。
  3 主题网关对情报检索语言的利用
  主题网关对网络信息的组织,具有搜索引擎等其他网络信息组织模式不可比拟的优势。其原因在于它充分利用情报检索语言揭示和组织网络信息,弥补了现有模式对专业网络信息资源组织的不足 [6]。
  SOSIG(Social Science Information Gateway)即社会科学主题网关,是英国的ESRC(经济与社会研究协会)和JISC(英国高教基金会联合信息系统委员会)资助下的RDN项目的一部分。SOSIG建立于1994年,旨在为广大研究人员和从业者、学者提供有关社会科学、商业、法律等方面的高质量的、覆盖全球的免费网络信息。截至2003年5月,SOSIG的目录中已有24000多条记录,且每一条资源都是经过来自欧洲许多国家的信息专家和学科专家的选择与描述,是主题网关的典范[7]。下面我们就以SOSIG为例分析主题网关对情报检索语言的利用情况。
3.1 分类语言的利用
  目前,很多综合分类法和专业分类法被用于网络学术性资源的组织,例如DDC、UDC等。这些分类法从学科的角度揭示和组织网络资源,满足用户系统检索和浏览的要求[8]。SOSIG就是利用UDC构建浏览体系的。
  UDC(Universal Decimal Classification,《国际十进分类法》)是世界上应用最广泛的文献分类法之一。SOSIG成功地利用了UDC生成网关的浏览结构。由于网络信息资源和传统文献资源有不同的特点,以及SOSIG的学科性质,所以,SOSIG在利用UDC时,并不是完全照搬UDC。主要表现在以下几个方面:
  (1)SOSIG不是使用UDC的详版,而是采用UDC的中型版。SOSIG是社会科学的主题网关,这种学科属性决定了SOSIG不可能用到UDC中的全部类目,而是从中选择属于社会科学的1000多个类目建立浏览体系的。SOSIG目录中的大类与UDC类号的对照如下表(见下页)。
  (2)类目名称取自UDC的类名;类号只是在编目人员编目和内部管理时使用,显示时隐藏。
  (3)类目的排列不是按照UDC的分类号序列(即分类体系),而是按照类目名称字母顺序进行排列的。
  (4)可将同一个资源互见到不同的类目下。不同于传统文献的分类排架,网络通过超链接技术组织资源,因此可以给同一资源分配多个类号。这就解决了交叉学科和跨学科网络资源的分类显示及查找的问题,为用户提供了更多的检索入口。
  (5)在每一子类目下,都建立了与相关类目的链接,加强了类目之间的横向联系。
  总的来说,在主题网关中利用分类语言和超链接技术,可以形成一种新型的较为细密的分类浏览体系,提供浏览和检索服务。
3.2 主题语言的利用
  主题语言即叙词表,是一种以语词作为检索标识,采用语词揭示和描述信息主题内容,按照主题字顺组织与揭示信息的情报检索语言。
  在主题网关中,分类法使特定学科领域的相关文献能够集中显示出来;而主题语言可以满足人们对特定事物、特定主题的检索需要。在网络资源组织中采用受控的叙词表,可以规范网络信息标引和检索中的同义词、准同义词、多义词和同形异义词。以受控词汇为标准用语,可以使标引和检索之间用语一致,有助于提高检全率和检准率。
  SOSIG不是使用单一的叙词表,而是根据不同的主题领域或学科使用不同的叙词表。分别为:英国Essex大学开发的《人文科学与社会科学电子词表》(Humanities and Social Science Electronic The-saurus, HASSET),《政府、政治和人类学叙词表》 (IBSS)以及《社会工作和福利叙词表 》(CareData)。
  SOSIG通过HASSET等叙词表在编目时为网络资源标引主题词,从而使资源发现和描述更加统一;同时为用户选择检索词提供入口。在SOSIG中,用户可在多处进入叙词表检索界面。在查看叙词表前,用户要根据检索的主题选择相应的叙词表。检索时,如果用户键入的语词在叙词表中不是规范的叙词,或者叙词表中有多个叙词与之匹配,此时,系统会给出提示,且为用户提供几个相关的语词选项,显示出该词的上位词、下位词和相关词,以便作进一步的修正浏览和检索输入。用户从中选择点击与其信息需求最相关的叙词。同时用户可在该检索结果界面中直接查找SOSIG的资源(包括用上位词、下位词或相关词进行查找)。这样,叙词表成为帮助用户更准确清晰地定义信息需求和实施扩检、缩检或改变检索范围的有效工具。
3.3 自然语言的利用
  虽然分类法和主题法可以得到高质量的网络信息,但这些资源都是通过人工方式选择和标引的,因此所需的工作量相对较大,加工资源数量相对较少。而自然语言易于标引,容易实现自动化,因此在网络组织中使用自然语言可以降低工作人员的工作量,弥补收录资源数量少的不足。
  社会科学搜索引擎(SOSIG Social Science Search Engine)是SOSIG提供的利用自然语言(即关键词)组织网络信息的检索工具。它是独立于SOSIG目录的网页索引。SOSIG社会科学搜索引擎的网络资源信息是由一种叫做harvester(其机制类似于“机器人”和“网络蜘蛛”)的软件自动收集的,因此收集的资源数量比SOSIG目录资源多,但资源质量有所下降;另一方面社会科学搜索引擎与一般的搜索引擎又有很大不同。因特网中的一般搜索引擎是用随机方式收集信息的,而SOSIG社会科学搜索引擎是以经过学科专家筛选的、SOSIG目录中的高质量网站为起点收集网页,形成网页索引的。这样加工的网页的质量有一定程度的保障,且与社会科学密切相关。另外,社会科学搜索引擎允许用户根据需要选择检索词所在字段(标题、描述)、是否使用词干检索、每页显示结果的个数以及结果显示字段。
  SOSIG的社会科学搜索引擎巧妙地利用了自然语言,既解决了SOSIG目录资源数量相对少的不足,又克服了一般网络搜索引擎检准率和检全率低下、质量不高的缺点,是用户利用SOSIG查找网络资源的一个很好的补充工具。
  4 主题网关的启示
  主题网关利用情报检索语言来组织网络信息,具有以自然语言为主要检索语言的搜索引擎所不可比拟的优点,正逐渐成为网络信息组织的新模式和研究热点。通过上述的分析,我们可以从中得到以下几点启示。
  首先,从主题网关利用情报检索语言高效组织网络信息的成功事实中,我们可以看到情报检索语言具有某些优于自然语言的长处,在网络环境下仍可发挥其信息表示和组织的重要作用。除了SOSIG,采用分类法和主题法组织网络资源的主题网关还有很多。一般来说,这些主题网关基于分类法构建浏览体系结构,在检索过程中提供相关的主题词来提高检索的效率。例如EELS用Ei分类法和叙词表;OMNI和Kuopio使用NLM(美国国家医学图书馆)分类法和MeSH(《医学主题词表》);ADAM使用自创的分类法和AAT(Art and Architecture thesaurus, 《艺术学、建筑学叙词表》)[10]。Renardus及其他不少主题网关还采用了情报检索语言的兼容互换原理和方法实现了互操作[11]。
  其次,我国在2001年底正式启动了中国国家科学数字图书馆(The Chinese Science Library,CSDL)项目,目前已建立起图书馆学情报学、物理数学、化学、资源环境、生命科学等多个学科的主题网关。在这五个主题网关中,标引词都是取自题名、交替题名及资源描述和介绍语句中的词或词组,即关键词;生命科学主题网关采用自创的“生命科学主题网关学科体系”、数理主题网关采用《国际物理分类法》和《数学主题分类表》、图书馆学情报学主题网关按照《中图法》分类、资源环境主题网关采用自创的“RESC”(资源环境科学分类法)。五个主题网关,自建立起,已在帮助用户查找学术网络资源中发挥了很大的作用。但跟SOSIG相比,我国的主题网关没有充分利用分类法和主题法对网络资源揭示和组织,特别是没有很好地利用主题法。笔者认为,我国的主题网关应当充分利用我国自编的情报检索语言(如《中图法》、《中国分类主题词表》等)来组织网络资源;各主题网关可以根据自身学科的特点选择合适的叙词表,也可考虑自编本学科的专业叙词表,在主题网关中提供叙词表入口,从而提高主题网关的检索效果。
  最后,要想使传统的情报检索语言更好地适应网络环境的要求,继续发挥信息组织的作用,我们应当对传统情报检索语言进行一些必要的改造。
  专家认为,未来的网络信息组织发展的趋势是“更严格地控制信息的质量,对网上信息进行有效评价和筛选,为用户提供有价值的信息,而不是大量的无用的信息”[12]。利用情报检索语言组织网络信息的主题网关正是顺应了这一趋势。情报检索语言在网络信息资源的组织和服

务方面仍有着不可替代的独特价值和功用。应该说,自然语言和情报检索语言在网络组织中有它们各自的优势,随着人们对网络环境和检索语言认识的深入,检索语言不是走向消亡,而是逐渐与新的信息技术融合为一体,发展为知识组织系统(Knowledge Organization System)[13]。近年来,本体、主题图、知识库、语义网络等的迅速发展恰好证明了这种趋向。

注释
1 王群,敬卿.论自然语言的优势与人工语言的消亡.大学图书馆学报,2004(2):62~65
2 祝忠明,吴新年.主题网关建设的关键问题与技术.图书与情报,2002(学术专刊):134~136
3 张晓林.分布式主题网关中网络信息导航系统的规范.大学图书馆学报,2002(5):28~33
4 http://www.desire.org/handbook/1-1.html
5 丁宁,张婷.主题网关探析.新世纪图书馆,2004(4):18~20
6 王玮.网络信息资源组织的新模式———主题网关.大学图书馆学报,2004(2):66~70
7 http://www.sosig.ac.uk/workbook.pdf
8 http://www.udcc.org/scheme.htm
9 http://www.sosig.ac.uk
10 http://www.lub.lu.se/~traugott/OIR~SBIG.txt
11 曹玲,侯汉清.文献分类法在主题网关互操作中的应用研究(手稿)
12 黄如花.网络信息组织的发展趋势.中国图书馆学报,2003(4):15~19
13 曾蕾.网络环境下的知识组织系统.现代图书情报技术,2004(1):2~3

(作者信息:刘竟,南京农业大学信息管理系研究生;侯汉清,南京农业大学信息管理系教授,邮编:210095。收稿日期:2004-10-28。)
                                  编校:彭 飞


 

苏ICP备05016133 版权所有©南京市成贤街66号南京图书馆 建议分辨率 1024*768