国科会
网址:http://www.grb.gov.tw
关於GRB系统
它是目前国内收录政府经费所资助的研究计画及其成果报告最为完整的资讯系统,系根据行政院所属各机关委托研究计画管理办法,由国科会监督,科学技术资料中心建置及维护。
政府研究资讯系统(Government Research Bulletin,简称 GRB),原名「政府研究计画基本资料档」,因早期只有研究计画基本资料,但发展至今,建档及服务内容皆已大幅扩充,故将中文名称改为「政府研究资讯系统」,以反映现有服务功能。
GRB包括计画登录管理及资料库查询两大功能。在计画登录管理方面,透过多层级的用户管理、计画执行各阶段登录画面、资料审查确认功能,再加上统计列印等能力,GRB让各计画主管机关在统一的作业环境下建立研究计画档案,同时也让分别主管监督科技类及行政政策两大类政府研究计画的国科会及研考会能够轻而易举地了解各机关研究计画执行情形。
藉由优异的资料数位化解决方案,实现多种资料格式与纯文字数位档案的自由转换;使用最先进的全文检索系统,实现资料的高效使用和永久典藏;同时,采用自动分类系统,将人力从繁杂的人工分类作业中解脱出来 具体功能包括文件格式转换工具群、图形文件OCR文字辨识、文章自动分类工具、资料库整体设计与建置、全文检索系统、专题选粹(SDI)服务系统、用户管理模组系统、远端系统管理工具群组、历史资料档之整理及转录。

|
系统功能
本案对技术的要求大致包括三个方面:资料数位化处理技术;全文检索技术与服务;自动分类技术等。
资料数位化处理
本公司具有功能完备的文档格式转换工具,包括:
1.InfoAcer QTools Tif 图档处理
InfoAcer QTools具有Tiff图档自动分页功能,做到分页进行文字辨识,切分功能可处理单个图档,也可选择一个子目录,QTools
可以将该子目录内的所有Tiff图档进行分页处理;
用户也可以从InfoAcer QTools-Tif 图档处理介面直接开启OCR工具,并可以从图档处理介面直接进行文本整理作业;
本公司将提供顶级OCR工具进行文字辨识,可以批次处理资料,基本不需要人工对OCR的结果进行後编辑作业;
由於贵中心文档格式复杂,包括大量中英文混排、内容分栏以及图档质量问题,因此对贵中心的Tiff图形文档,需进行前期版面分析;
可进行特定内容的整理,自动分析抽取出相关栏位的内容 根据贵中心需求,将从文字资料中抽取出的栏位内容包括中文标题、英文标题、计画主持人、中文关键词、英文关键词、中文摘要以及英文摘要,并可根据需要转出XML格式 需要根据具体文件内容格式进行资料的人工预整理;
2.InfoAcer QTools MS Word文档处理
可将MS Word文档内之文字内容自动转换为文本格式;
可以进行单篇和批次处理作业;
文本文件栏位内容分析抽取,根据贵中心需求,将从文字资料中抽取出的栏位内容包括中文标题、英文标题、计画主持人、中文关键词、英文关键词、中文摘要以及英文摘要,并可根据需要转出XML格式 需要根据具体文件内容格式进行资料的人工预整理;可将PDF文档内之文字内容自动转换为文本格式;
可以进行单篇和批次处理作业;
对非Tiff转换的PDF文档,目前可以处理大多数的PDF格式,总体成功率约为97%;
文本文件栏位内容分析抽取,根据贵中心需求,将从文字资料中抽取出的栏位内容包括中文标题、英文标题、计画主持人、中文关键词、英文关键词、中文摘要以及英文摘要,并可根据需要转出XML格式 需要根据具体文件内容格式进行资料的人工预整理;
全文检索与专题选粹(SDI)服务
本案的建置目的即在於提供数量庞大之研究报告的全文检索系统,供国科会科资中心使用。本公司之检索系统可以完全满足贵中心的需求,具体说明如下:
1.全文检索
提供中英文字串之全文查询功能;
对查询字串提供实时之自然语言处理;
查询对报告内文精确到页;
2.栏位检索
可针对特定栏位进行精准检索;检索栏位不限并可设定组合栏位检索;
3.萤幕输出检索结果页面包括如下功能
包含查询字串的Highlight功能;
可自动识别文挡种类(Tiff, PDF, MS Word),并具有原始文档之调阅功能;
包含查询字串的前後文段落摘要;
萤幕输出查询结果之翻页功能;
特定检索结果具有浏览摘要,特定页和查看全文之功能;
4.Ranking & Weighting辅助检索,可针对检索条件,依据其栏位及出现
率给予比重排序,提供最佳化检索结果排序显示;
5.可提供基於查询会期之主从模式架构;
6.专题选粹(SDI)服务功能
具有用户管理功能;
使用者可通过在线申请的方式取得SDI服务;
业务单位可主动进行专题设定,方便用户获取SDI服务;
可由业务单位主动传送特定专题的资料予特定研究领域之使用者;
具有统计功能,可以对用户使用SDI服务的情况进行动态统计;
可以批次馈入用户资料
7.用於全文检索与服务的统计工具
本公司的检索系统包括功能强大的统计工具,可以对检索频度,SDI服务等进行动态统计 统计工具采用华通动态随选统计引擎建构,可以即时显示多种统计表格和统计图形
自动分类系统
为建构本案之雏形系统,本公司针对贵中心的需求,将华通知识分类引擎整合在QTools中,将可以极大地便利贵中心的人员进行自动文章分类作业;
InfoAcer QTools 自动分类处理同文件档案格式转换工具整合在一起。
该自动分类工具可对大量文件自动进行分类作业,供建立检索系统时实现分类检索功能;可针对贵中心之大量报告文件进行自动分类作业。分类表含「科资中心分类表」及「grb分类表」三种,其中对科资中心分类可以细分到第二层四码。GRB分类可直接自动分类,亦可利用两种分类之对照表转换。
本公司之知识分类的自动分类处理能力很强,通过对贵公司提供的学习样本之训练以後,准确率和召回率分别在90%和80%以上;对贵中心全部分类内容,准确率和召回率将可以保持在此水准之上。
应用领域
该系统系政府计画项目之管理中心由全国9000馀家政府机关管控数万名专家学者之国家科技计画内容、执行情况与绩效评估等
资料量
包括Tiff档案格式之各机关报告4万篇600万页、PDF档2万馀件,以及Word档5万篇,已完成OCR扫描辨识成Text文档,并加入搜索引擎资料库提供民众检索使用
系统架构

 |
|