当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术22年8期

基于 H-KNN 的藏文字符的识别研究
吴玉龙,卓嘎,扎西平措,赵智龙,吴绍乾
(西藏大学,西藏 拉萨 850000)

摘  要:在 OCR 技术越来越成熟的今天,中文 OCR 技术早已发展成熟,但是藏族聚集地的藏族同胞所使用的藏文 OCR技术却还未成熟。针对此,文章通过改进KNN算法,增加希尔伯特曲线来改进算法,设计了基于H-KNN的藏文字符识别的算法,利用最近邻算法与希尔伯特曲线相结合的方法来识别藏文数字字符,改进了字符在预处理时的降维方式,提高了 KNN 算法的识别效果,实验结果证明,相较于传统的 KNN 算法识别正确率有显著提升。


关键词:藏文字符识别;最邻近算法;希尔伯特曲线;OCR



DOI:10.19850/j.cnki.2096-4706.2022.08.026


基金项目:西藏自治区级大学生创新训练项目(S202110694079)


中图分类号:TP391.4                                        文献标识码:A                                   文章编号:2096-4706(2022)08-0092-03


Research on the Tibetan Characters Recognition Based on H-KNN

WU Yulong, ZHUO Ga, ZHAXI Pingcuo, ZHAO Zhilong, WU Shaoqian

(Tibet University, Lhasa 850000, China)

Abstract: Today, the OCR technology is becoming more and more mature, and Chinese OCR technology has long been developed and matured, but the Tibetan OCR technology used by Tibetan compatriots from Tibetan gathering areas is not yet mature. Aiming at the situation, this paper designs a Tibetan character recognition algorithm based on H-KNN through improving the KNN algorithm and increasing the Hilbert Curve to improve the algorithm. It uses the method of combining the KNN algorithm with Hilbert Curve to identify Tibetan numeric characters, improves the dimensionality reduction mode of characters in preprocessing, and improves the recognition effect of KNN algorithm. The experimental results prove that there is a significant improvement in the identification accuracy rate compared with the traditional KNN algorithm.

Keywords: Tibetan character recognition; KNN algorithm; Hilbert Curve; OCR 


参考文献:

[1] ANDERS S. Visualising very long data vectors with the Hilbert curve Description of the Bioconductor packages HilbertVis and HilbertVisGUI. [EB/OL].[2022-02-08].http://citeseerx.ist.psu.edu/ viewdoc/download;jsessionid=D2775339C6EA3B160E560D302D797E 7D?doi=10.1.1.348.2701&rep=rep1&type=pdf. 

[2] YANG Y M,SLATTERY S,GHANI R. A study of approaches to hypertext categorization [J].Journal of Intelligent Information Systems,2002,18(2):219-241.

[3] 张宁,贾自艳,史忠植 . 使用 KNN 算法的文本分类 [J].计算机工程,2005,31(8):171-172+185.

[4] 程光,周爱平,吴桦 . 互联网大数据挖掘与分类 [M]. 南京:东南大学出版社,2015.

[5] 朱明.数据挖掘导论 [M].北京:中国科学技术大学出版社,2012.

[6] 程泽凯,林士敏 . 文本分类器准确性评估方法 [J]. 情报学报,2004,23(5):631-636.

[7] 王习涛 . 基于 Python 的 K-means 算法实现方式对比研究 [J]. 软件,2020,41(8):87-88+128.

[8] 多杰措,安见才让 . 藏文应用文文本自动分类研究 [J]. 信息技术与信息化,2019(5):225-227.

[9] 崔东虎,赵亚慧,崔荣一 . 基于相对熵的 KNN 文本分类方法的研究 [J]. 延边大学学报(自然科学版),2021,47(2):175-179.


作者简介:吴玉龙(2000—),男,汉族,陕西榆林人,本科在读,研究方向:信息技术应用。