图像文本分析技术及其应用研究(5)

来源：网络收集时间：2026-06-26

导读：上海交通大学硕士学位论文第一章：绪论应用意义。同时，现有的规则字符的识别技术已经非常成熟，在线的和离线的手写体字符的识别研究也已经有很多的研究成果。为了能有效的利用这些现有的方法，对艺术体字符识别考

上海交通大学硕士学位论文第一章：绪论应用意义。同时，现有的规则字符的识别技术已经非常成熟，在线的和离线的手写体字符的识别研究也已经有很多的研究成果。为了能有效的利用这些现有的方法，对艺术体字符识别考虑的重点将主要放在艺术字体的规则化问题上，也就是去除构成字符的艺术化部分，得到近似规则的字符。

在［１］中，Ｓ．Ｏｍａｃｈｉ等提出了一种基于多尺度分析技术的艺术体字符规则化方法。该方法以高斯函数多尺度分析为基础，在多尺度图像中提取出字符的主要结构特征。利用得到的字符结构特征，重建原字符，从而达到艺术体字符规则化的目的。该方法能有效地对以密集纹理作为字符艺术化部分的艺术体字符，而对现实应用中非常常见的如空心字符等则不能得到很好的规则化效果。同时，该方法以多尺度分析为基础，需要对图像进行连续的高斯核函数卷积运算。因此，该方法的计算效率很低，完全不能满足在线应用的要求。

本文提出了一种全新的基于字符分量邻接图（ＣＡＧ）的艺术体字符规则化方法。对于输入的二值化字符图像，该方法第一步对图像进行连通区域分析，得到图像中的各个连通分量。这些连通分量中的前景部分就是字符的构成部分。以这些连通分量为基础，可以得到两个分量邻接图，即前景分量邻接图（Ｆ．ＣＡＧ）和前景．背景分量邻接图（Ｆ／Ｂ．ＣＡＧ），它们描述了字符图像中各个分量之间的结构关系。对于连通分量分析得到的图像的各个连通分量，首先构造Ｆ—ＣＡＧ，进行字符图像前景部分的单独分析，获得前景的初步规则化。然后，对初步规则化得到的结果再执行连通分量分析，并构造Ｆ／Ｂ．ＣＡＧ。Ｆ／Ｂ—ＣＡＧ包含了字符图像中构成字符部分的前景和图像背景分量整体之间的邻接／结构关系的描述。通过对这种整体结构关系的分析，并考虑一些规则文本以及字符中艺术化部分所具有的特性，就能判断出其中属于艺术化部分的分量。去除这些确定出的艺术化部分，就能得到规则化的字符。

本文提出的方法和现有方法的最大区别之处就是，本方法尝试直接描述艺术体字符中作为修饰部分的结构分量的所具有的特性。基于对这些特性的分析，判断并去除字符中的属于艺术修饰的部分，从而达到艺术体字符的规则化目的。同时，和现有的基于多尺度分析技术的艺术体字符规则化方法相比，本方法的对计算的要求大大降低，因而更适合在线的实时的应用需要。该方法和现有的方法一样，也是作为字符识别的前期处理，目的是提高现有ＯＣＲ系统对艺术体字符的识别率。

综合上述图像处理和模式识别方法的图像文本分析技术，最后被应用于开发一个ＷＥＢ图像文本分析和处理软件。该软件应用图像处理和模式识别技术，定位和提取出用户浏览的ＷＥＢ页面中包含在图像里的文本，并对它们进行在线的识别和翻译。目前的翻译软件的屏幕文字截取都是针对显示文字，如果文字出现在图形当中，这些翻译软件就无能为力了；而应用的实际是由于计算机和网络技术的突飞猛进，图像应用得越来越普遍。图像文本的应用场合比比皆是，如网页上、扫描文件上等。而为了能适应这个

上海交通大学硕士学位论文第一章！绪论发展现状，同时也是为了增强产品的市场竞争力，就需要利用图形文本的处理和识别技术，扩展现有翻译软件的功能，使其能实时翻译屏幕上所有看得见的文字，从而更加方便用户对信息的获取和理解。

本论文后面各章节的安排如下：第二章介绍了图像文本分析的第一步，即图像中的文本定位技术，对本文提出的基于图理论彩色聚类和连通分量分析的彩色图像文本检测／定位做了详细地描述。图像中定位出的文本区域，在送入ＯＣＲ进行识别之前，还需要进行进一步的二值化或文本．背景分离，以及文本块内的词和字符的分割，这些内容将在第三章中进行叙述。第四章中，简单回顾了字符识别的发展，中心是艺术体字符的识别或者规则化技术。本文提出的基于分量邻接图的艺术体字符规则化方法在该章中有详细的叙述。综合本文提出的图像中文本定位和艺术体字符规则化／识别的图像文本分析技术将被应用于在线图像文本翻译系统，在第五章中给出了该系统的初步设计。最后，在第六章中，给出了全文的总结，并对今后进一步的研究提出了展望。

上海交通大学硕士学位论文第二章：彩色国像中的文本定位

第二章彩色图像中的文本定位

１．前言

由于计算机和网络技术的飞速发展，作为信息社会的基本元素的信息其容量在呈爆炸式增长。面对这些不断增长的庞大的信息量，人们往往无所适从。因此，如何有效的进行信息管理，即如何有效的组织、存储、搜索和利用不断增长的信息容量，就自然而然成为信息技术领域研究的热点。作为其中一个重要组成部分的对各种图像、视频、音频以及综合这些媒体的有效检索技术近些年得到了很大的发展。在检索技术中，有效的对于检索对象的描述方法以及相应的搜索方法是检索获得成功的关键所在。Ｉｎｔｅｒｎｅｔ上的多媒体以图像为主，考察图像检索技术的发展，可以看到它经历了两个阶段：第一阶段是以关键字为基础的检索；第二阶段是以图像自身的内容为基础的检索。

在基于关键字的图像检索系统中，需要先对所有的图像进行关键字标注，然后才能使用全文检索技术对图像进行搜索。这种方法存在两个方面的问题：一是这种方法需要较多的人工参与，而且随着图像数目的增加，这种方法很难实现；第二个问题在于图像所包含的信息量庞大，不同的人对于同一张图像的理解也不相同，这就导致对图像的标注没有一个统一的标准，因而检索的结果往往不能很好地符合用户的需求。

基于内容的检索不同于基于关键字的检索，它不需要过多的人工参与，而利用图像自身的特征（如颜色、纹理、形状等）来进行检索，具有较强的客观性。但是，由于这些特征大多是从描述图像像素的强度值分布出发的，只描述了图像像素强度值的分布规律，而并不代表图像真正的语义信息，因此基于内容的检索结果往往不令人满意，但是从根本来说，这项技术还处于其发展初期，远未成熟。

基于关键字的图像检索技术有其固有的缺陷，但是基于关键字检索技术发展的相对成熟，并且基于内容的图像检索技术的还远未成熟。因此，基于关键字的检索技术还将存在很长一段时间。在相关的诸如图像处理、图像理解或模式识别等技术还不能胜任真正的基于内容检索技术的要求的过渡时期，对某些特定的应用而言，结合关键字检索和基于内容检索技术一体的检索技术将具有很大的吸引力。很多场合下，图像中都会有文本出现，而这些文本往往和图像的真正的语义内容有很密切的关系。因此，对于这类包含文本的图像的检索，一种可能的解决办法就是：首先提取出其中的文本部分；然后对提取出的文本进行识别，得到文本的语义含义；最后，结合现有的关键字检索技术，进行图像的检索。基于图像文本的图像检索系统的一般结构如图２－１所示。为达到这个目

…… 此处隐藏：1174字，全部文档内容请下载后查看。喜欢就下载吧 ……

图像文本分析技术及其应用研究(5).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wenku/107911.html（转载请注明文章来源）

上一篇：数字图像处理词汇表
下一篇：北师大版同底数幂的除法第二课时