公司简介
·企业文化
·经营策略
·人员组织

产品介绍
·FTS搜索引擎
·SSO(Single Sign On)
·EIP
·OCR
·DocPortal
·扫描仪

成功案例
·万方数据
·社会科学文献出版社
·赛迪ICT新闻网(台湾)
·国科会(台湾)
·国语周刊(台湾)
·故宫博物院(台湾)
·国家图书馆(台湾)
·入出境管理局(台湾)
·考试院(台湾)

Q&A
线上下载

媒体报导
产品相关资讯介绍

华通EIP

 
华通OCR

产品特色

华通OCR 系统由清华 TH-OCR 2000 文字识别器、纵向校对编辑器、原式原样文本编辑器、HTML超文字档案编辑器等主要部分及其它辅助工具组成。整个系统可以实现以下功能:

OCR识别:
将经过扫描获得的、不能编辑修改、占用较大磁碟空间的电子“图像文件”进行识别,转化易於编辑修改、占用较小磁碟空间的电子文档。这是本系统的核心。

高效校对:
利用横向校对及纵向校对手段对识别後所得的电子文档进行校对改错,使文档的文字错误率控制在万分之一以下。这是保证系统工作质量的重要环节。

版面还原:
将经校对改错的电子文档以用户所需的格式(HTML、PDF、JDA、RTF、TXT等)导出在相应的应用软体中,可实现图文结合(TXT格式除外),进行原式原样的编辑,并可调整、丰富版面资讯,使生成最佳的版面。还可以从文档建立逻辑结构,便於输入资料库。

辅助工具:
包括HTML超文字档案编辑器、版面拼接及字元位置等工具。便於用户根据需要对所得电子文档进行编改。
增强功能

前向辞汇
前向辞汇,就是根据游标所在位置的前一个汉字,以辞汇联想的方式,提供出游标所在位置可能的汉字。采用前向辞汇的编辑方法, 是非常方便而有效的。比如档案材料中本来应是"我们",而其中的"们"字由於种种原因,被电脑辨别错了,在【前向辞汇】的方式下,系统会由於其前一个字是"我"而自动列出"校"、"爱"、"国"和"们"等一系列可以和"我"字组成辞汇的汉字,只要简单地在其中选择"们"字即可完成编辑改错。

逆向辞汇
与前向辞汇非常相似的另一种编辑修改方式,叫【逆向辞汇】。逆向辞汇,就是根据游标所在位置的後一个汉字,以辞汇联想的方式,提供出游标所在位置可能的汉字。这也是非常方便而有效的。例如,档案材料中本来应是"清华",而其中的"清"字,被电脑辨别错了,在【逆向辞汇】的方式下,系统会由於其後一个字是"华"而自动列出"升"、"荣"、"清"和"年"等一系列可以和"华"字组成辞汇的汉字,只要简单地在其中选择"清"字即可完成编辑改错。

相似字
华通OCR 系统提供的第三种编辑修改方式,是【 相似字[S]】。汉字辨别的过程,就是系统按照一定的演算法和准则,确定出一系列与扫描得到的影像比较相似的汉字,其中最相似的一个也就是辨别结果。而这 所说的相似字,则是指由系统列出所有这些可能的汉字,从而供用户选择正确的结果。在华通OCR 系统的辨别输入过程中,无论辨别出错的汉字属於一个辞汇,还是一个与前後汉字都无法组成辞汇的单字,采用相似字的编辑方法,都是比较方便而有效的。因此, 华通OCR 系统在进入编辑环境後,总是自动处於相似字状态,便於用户进行编辑修改。

常用符号
华通OCR 系统还提供了【常用符号】的编辑修改方式。常用符号,主要指那些键盘上不易输入而又常常用到的标点或其他符号。如果辨别出错的是符号,就可方便地通过【常用符号】的方式进行编辑修改。当切换到【常用符号】状态後,萤幕左下角的编辑修改状态栏域内,检视出"常用符号"四个字,并在其後面的编辑修改候选字区域内,列出常用的符号。萤幕上每次列出的常用符号都是十个,可以按键盘上的【Shift + > 】键或【Shift + < 】键进行滚动检视,也可以用滑鼠按萤幕上符号前面的 或 进行滚动检视。如果萤幕上检视出所需要的符号,按符号前面相应的数位键或直接用滑鼠按所需的符号即可。

软硬体需求与相关规格

软硬体规格

CPU 486以上(建议使用Pentium 166以上)。
16MB以上记忆体(建议使用32MB以上记忆体)。
70MB以上硬碟。
支援TWAIN标准的扫描器。
中文Windows 95以上版本或使用带有中文之星、四通利方等汉字环境的西文Windows95以上版本(包括Windows95、Windows98、Windows2000、Windows Me、Windows NT4.0)。

识别字体
印刷体的文字,包括简(繁)体多体汉字、纯英文、日文、韩文、汉英混排文本。
手写汉字。

使用内码
支援中文GB、BIG5及GBK内码;
支援日文JIS及 Shift-JIS内码;
支援韩文KSC内码。

正确率
具有对超大字元集(达两万馀字)、超多种字体(近百种)的汉字识别能力,识别率高;具有超级纠错能力,错误率在万分之一以下。

对图像适应性
对黑白二值、256级灰度及24位元元彩色图像的各种复杂版面的中文报纸均可进行版面分析、版面理解,并有准确的复原能力。

输出格式
PDF、HTML、RTF等标准格式,并可制作成能供电脑阅读和查询检索的电子文档。