当前位置>主页 > 期刊在线 > 计算机技术 >

计算机技术22年6期

基于 Python 的大数据文档拆分规律研究
丁思蓉,何静茹,李真
(成都锦城学院,四川 成都 611731)

摘  要:拆分大数据文档是日常生活中所需的,随着大数据文档的增加,选择拆分行数是一个值得研究的问题。运用PyCharm Community 和 Python 来拆分大文档,对比分析在不同行数的条件下,大文档拆分成小文档所用的数量以及时间。报告了拆分数量适中是最佳的,文档数据量越大,消耗的时间越不稳定。通过对同一文档拆分最短时间的拆分行数进行研究,得到拆分时间规律,选择最佳的拆分行数,以此提高拆分文档效率。


关键词:拆分大数据文档;对比分析;拆分行数



DOI:10.19850/j.cnki.2096-4706.2022.06.027


中图分类号:TP309                                        文献标识码:A                                  文章编号:2096-4706(2022)06-0107-03


Research on Big Data Document Splitting Rule Based on Python

DING Sirong, HE Jingru, LI Zhen

(Chengdu Jincheng College, Chengdu 611731, China)

Abstract: Splitting big data documents is necessary in daily life. With the increase of big data documents, choosing the number of splitting rows is a problem worthy of study. This paper uses the PyCharm Community and Python to split large documents, compares and analyzes the quantity and time used to split large documents into small documents under the condition of different numbers of rows. It is reported that a moderate number of splitting rows is the best, and the larger the amount of document data, the more unstable the time consumed. By studying the number of splitting rows in the shortest time of splitting the same document, the rule of splitting time is obtained, and the best number of splitting rows is selected to improve the efficiency of splitting the document.

Keywords: splitting big data document; comparative analysis; the number of splitting rows


参考文献:

[1] 马小丽,姜赞梅 .MS SQL Server2000 中大数据量表的拆分与实现 [J]. 电气传动自动化,2013,35(5):46-48+56.

[2] 侯佳佳,乔运华,卜建国,等 . 基于分布式数据库数据处理的研究 [J]. 制造业自动化,2013,35(1):94-96.

[3] 郑斌华,陶自强,杨银官 . 船舶总段拆分模型数据重用技术研究与应用 [C]//2013 年 CAD/CAM 学术交流会议论文集,2013-06,中国贵州贵阳,2013:144-147.

[4] 杜红乐,张燕 . 基于拆分集成的不均衡数据分类算法 [J].计算机系统应用,2017,26(8):223-226.

[5] 黄蓉美,宋永生 . 基于 Python 的植物标本采集实训平台[J]. 现代信息科技,2021,5(17):35-37.


作者简介:丁思蓉(2003.12—),女,汉族,四川自贡人,本科在读,研究方向:大数据技术与分析。