一、引言
随着信息技术的迅速发展,网络信息的增值服务越来越受到IT界的广泛关注,尤其是下一代搜索引擎技术的深入研究,具体而言就是基于语义分析的搜索技术飞速发展,使得信息增值服务提升到一个新层次。标杆网络技术有限公司研制的基于语义分析的健康信息增值服务平台是中关村重大产业化项目,该平台的面市给广大公众、医药部门、医院系统和相关产品的经销商带来了健康知识,以及药品、保健品、医疗器械的商务活动契机。该平台涉及到深层网络信息的挖掘(即深网搜索)、在线信息和离线信息的自动加工处理、基于语义分析的信息搜索和信息增值服务。
信息增值服务是指信息在效用和价值上的递增变化,对信息而言,信息的增值功能伴随着信息活动的全过程,它是对信息的价值进行充分地挖掘,并采取措施增加信息价值含量的信息服务方式。在网络时代,信息增值服务成为信息服务业的发展趋势之一。
信息增值服务好比催化剂,它通过第三方信息增值服务平台,集合区域和行业优势,将先进的数据分析技术和管理技术,长期为广大用户提供有效的知识信息、产品信息,从而降低用户经营决策风险和商务活动费用。信息增值服务方式有很多,主要有四种方式。第一是信息咨询服务,它是以信息交流为基础,提供高附加值的信息服务;第二是电子商务,通过电子商务的信息发布者提供商家与政府、商家与商家、商家与用户之间的信息,信息需求者从中搜索个性信息,根据不同的需求信息,在利用信息后实现增值,同时给信息创造更多增值商机和带来发展空间;第三是网络信息服务商的服务,例如网上ISP服务、网上ICP服务;第四是专业代理信息检索,主要是计算机检索、光盘检索、网络资源检索、网络通讯等,实现快速、准确、便利的信息检索服务。
现将基于语义分析的健康信息增值服务平台,即盛搜健康网(www.shengsojk.com)的信息增值服务的相关技术给以介绍。
二、盛搜健康网的技术架构
1.基于语义分析的医疗信息搜索引擎逻辑拓扑图:
盛搜健康网的技术逻辑结构主要包括:网络信息的自动采集系统、网络信息的标引系统、网络信息的智能搜索系统、信息定向推送系统,以及网络信息的有序化组织,现将核心技术做一介绍。
2.标杆(GIPS)网络信息自动采集与推送系统
GIPS信息抓取及推送系统V1.0实现了对指定网站栏目的信息抓取、结构化处理和个性信息推送服务,实现了动态网页和数据库的深度数据采集。系统主要功能:
(1) 抓取模板定义:对于指定网站的指定栏目,包括静态网页、非.net技术的动态网页和可展示至网页的网站数据库信息,通过人工确定栏目信息所属行业和信息类型,分析该栏目有效网页的URL地址规律、元数据字段设置等信息结构,订制信息抓取模板,包括抓取范围、数据结构、抓取内容、信息取舍(定向信息)原则等。
(2) 信息抓取和结构化处理功能:对每一抓取模板,可设定时间间隔、线程数等信息抓取参数(管理抓取任务),抓取任务自动对相关栏目的网页信息进行抓取,按照模板设置的参数对抓取数据进行结构化处理,抛弃不合理数据(即留下所需要的数据),与数据库已有信息进行比较和排重,将信息存入指定数据库。
(3) 信息推送功能:可以配置信息推送参数,按照选择信息类型数据库表和筛选条件,将数据转存至指定数据库、保存成XML文件或发送至指定地址的邮箱。
(4) 深网信息的抓取:分析进入数据库以及信息呈现在页面的手工操作过程,以及操作路径,通过模板设定信息抓取程序的爬行路线、构造地址(动态创建页面地址)、穷举地址,最终跟踪到数据库信息。
(5) 内容抓取和内容排重:GIPS抓取系统,抓取信息的排重机制:按照模版规定的路径访问最终信息,并对信息呈现页面下载分析、提取关心内容,并结构化存储在数据库中。按照抓取数据的信息类型配置的排重字段(与已存储内容比较),自动过滤重复记录,完成信息内容排重处理。
3.标杆(GIPS)网络信息自动标引系统
系统主要功能:GIPS信息分类主题自动标引系统运用标杆信息资源目录体系和分类主题一体化词表,采用先进的汉语分词技术、词频统计分析、主题词重要性权重技术、匹配规则和算法等,由计算机自动实现被处理信息的主题词和分类号标引,主要功能:
(1) 标引配置:配置被标引数据所在数据库表并指定标题、摘要、正文等所在字段,以及自动标引的分类号、主题词保存的字段,配置标题、摘要、正文所占权重和标引深度。
(2) 灵活的配置功能和多种标引方式
就内容而言:对标引信息数据库的灵活配置;对标引信息字段的灵活配置;对挂接的词表的灵活配置;
就效果而言:对标引深度的自由设置;对标引权重的自由设置;
就标引方式而言:可以进行单条标引;可以进行批量标引;可以进行增量标引;可以进行全库标引。
(3) 修正标引结果:可以查看自动标引的分类号和主题词,记录手工修改的标引的分类号和主题词。
4.标杆(GIPS)网络信息的组织与整合
(1) 用Ontology组织网络信息
网上信息组织无序,优劣混杂,没有统一的分类体系,一般的搜索引擎搜索到的信息大多缺乏针对性,不能以特定学科进行信息资源的搜索和浏览。采用叙词表的方法还是用的方法组织网络信息,我们不妨做个简单的比较:叙词表中的术语是规范的科学语言,用Ontology方法描述信息,不仅能用规范的科学语言,还可以用自然语言和半自然语言;在组织结构上,叙词表中的知识点分布是线性的、一维的,而后者的知识点分布是网状的,知识点可在多维空间中伸缩;叙词表相对稳定,结构单一,而后者是一个开放的体系,其底层知识库与主题集合可以随着学科领域的更新和发展随时进行修正和更新,所以用组织网络信息,更显得容易挖掘网络信息的内在知识。标杆公司在组织网络信息资源时,采用了两种方法相结合的技术路线。
(2) 构建网络信息分类目录体系及行业主题词表
标杆公司的网络信息资源目录体系建设,是在748工程的基础上,历经10年的艰辛努力才完成,于2001年由信息产业部以“网络信息分类系统”为名,颁布为电子行业标准。在盛搜健康网中,对医药信息资源的整合、加工和再组织,乃至建立医疗信息之间的关联关系都采用了该标准。网络信息资源目录体系囊括了134个行业,960多个专业,以及含有“用、代、属、分、参、族”词间关系的75万多个词条。
(3) 医疗语义信息关联关系模型
医疗服务的语义信息的关联关系重点是以“疾病”、“药品”、“医疗器械”、“保健品”和“食疗”为切入点进行科学基础知识的再组织和挖掘,实现语义分析和信息关联检索,现以疾病为例,说明语义信息的关联关系,其应用模型如下:
三、盛搜健康网的实现
1.网站功能
2.网站核心技术
标杆盛搜系统(盛搜健康网)具有的核心技术是下一代搜索引擎技术的根本,是实现信息网格的坚实基石,不论在信息资源的整合、深加工和知识共享、以及智能搜索引擎的核心技术等方面都有独道之处。具体核心技术是:
(1) 平面(互联网)搜索与垂直(专业网)检索无缝融合技术,实现了信息的精准、全面和便捷的查询。
(2) 在线信息和离线信息的智能化处理和中文信息的分词技术,对不同类型的信息实现了计算机自动标引,有序化整合了互联网信息,由数据提升为信息,由信息提升为知识,进而达到了知识服务。
(3) 深网信息的挖掘技术,实现了深网数据的定向、个性化信息采集和挖掘,大大提高了网络信息资源的有效开发和利用。
(4) 基于语义分析的网络信息关联搜索技术,实现了不同信息类型、不同信息结构之间的跳转(接力)检索。
(5) 基于自然语言理解和处理技术,实现了关键词、短语和语句的本地信息检索和互联网信息搜索。
(6) 基于图示的可视化搜索技术,实现了疾病、药品、医疗器械、症状诊断疾病等信息的图视化知识搜索,以及健康知识的整体解决方案。
(7) 弹出窗口技术,实现了用户方便、灵活和随机地呈现信息内容。
(8) 以词搜词和以词(语句)搜文。搜词是指自动给出检索词的词间关系(上位词、下位词、同义词)、检索词的相关词和检索词有关的点击率的高频词(含短语)。搜文是指检索词在本地数据库和互联网WEB数据库的命中文献。
(9) 网络信息主动推送技术,为用户提供个性化信息服务,实现了批量定向信息的E-mail发送、手机彩信传送、互联网页面传送、WEB数据库传送和不同群体的定题服务。
四、盛搜健康网的应用
盛搜健康网是互联网搜索与本地数据库检索互为一体的健康信息搜索系统,网站栏目设有疾病知识、药物治疗、医疗器械、疾病自诊、养生保健、医疗常识、疾病专题、人体组织图片以及健康新闻等。既可从栏目入口直接浏览信息,也可从检索框进行词、短语和语句进行检索(互联网搜索),其中最重要的特点是基于语义分析的健康信息接力检索,并给出医疗信息服务完整的解决方案。盛搜健康网的首页。
若浏览相关栏目信息,直接点击栏目名称即可呈现该栏目下的分类信息标题,以便一条一条地进行选择浏览,首页默认栏目为疾病知识栏目。在该栏目下除分类浏览内容外,亦可通过搜索框输入检索条件(词、短语、语句)即通过检索呈现命中内容。
若进行基于语义分析的信息接力检索,即给出系统、完整的知识链信息,可这样操作:先选定栏目,或者从检索框中输入检索条件,或者直接浏览内容,从中进入信息间的知识链检索。现以直接浏览内容方式为例:在呈现的信息内容中有反兰词(兰色标记的词),点击反兰词作为入口(等于从搜索框中输入兰色的词),例如在健康新闻栏目有一条“伟哥对人体健康影响”一文,在内容中有反兰词“视力减退”,点击“视力减退”可跳转到症状自诊栏目,通过症状自诊流程图,用户可根据自己的症状,初步诊断可患疾病,页面右侧是在本地检索到的与“视力减退”相关的疾病知识。
在图二的左侧是症状自诊流程图,其上部是视觉系统的图示和相关知识说明,下面是疾病症状的说明,用户根据症状说明,只要点击“是”或“否”,系统自动出现下一步症状的说明,再选择“是”或“否”直至给出可能患得疾病的名称。若根据症状自诊为某一种疾病,点击该疾病名称,例如:青光眼。
若自诊疾病是“青光眼”,点击“青光眼”,即呈现青光眼疾病知识的页面,页面左侧是青光眼疾病医疗解决方案,右侧是青光眼的相关疾病知识。根据左侧的疾病医疗关联流程图,可点击任何信息按键。点击“基本信息”中的“定义”、“病因”、“病理”、“并发症”其中之一,即到互联网搜索该疾病的“定义”、“病因”、“病理”、“并发症”相应文献,并在该页面的左侧呈现出来。点击“食物治疗”,即呈现青光眼的食疗常识和食谱;点击“名医专家”,即呈现治疗青光眼的大夫;点击“医疗器械”,即呈现治疗青光眼的医疗器械;点击“养生保健”,即呈现青光眼的康复与保健常识;若点击“药物治疗”,即呈现治疗青光眼的有关药品。
治疗青光眼的药品有多种,用户可选择关心的药品名称,如选择了“噻吗洛尔”,在图四左侧页面中呈现药品的“基本信息”、“适应病症”、“最佳用药方式”、“不合理用药”、“药品供应商”等,右侧是“噻吗洛尔”的药品的基本知识。在左侧的信息关联搜索的图四中,点击“基本信息”按钮,则在互联网搜索该病的基本信息(如该药品的药物性状、药物毒性、含量测定、药品鉴别等),若点击其他按钮,则在本地库进行检索。例如,点击“不合理用药”,即以弹出窗口方式呈现该药品的最佳配伍和不合理用药知识;若点击了“药品供应商”,即在本地数据库和互联网web数据库中搜索“噻吗洛尔”的药品供应商。
以上仅对基于语义分析的信息关联检索(搜索)作了较详细的说明,其他功能不再赘述,如:自然语言检索、相关词检索、文中关联词(呈现兰色的词)检索、弹出窗口式内容呈现、疾病专题内容的选择浏览、人体组织图片中相关疾病关联等的应用。
该网站虽然已初步具备了下一代搜索引擎的某些特征功能,但尚需完善,例如:与电子商务、网上购药、医院、专家等著名网站的无缝融合,形成基于信息网格技术的知识共享和业务协同工作还有一段艰苦的工作要做。 (出处:《科学中国人》2008年第八期) [推荐给朋友] [关闭窗口]
|