MongoDB中的批量插入的使用方法及与逐条插入的性能比较

由墨香-15607781945 · 2023年4月15日

在MongoDB中，如果有数据需要进行插入操作，一种简单的方法是将每条数据逐条插入，在python的pymongo中便是遍历我们的数据，然后，对每一条数据insert_one(doc)，这种方法比较简单，同时也非常地灵活，但是，对于大批量的数据而言，效率较低。

而另一种方法是，将需要插入的数据整合到一个列表中，然后将这个列表整体地批量插入到数据中，这样对于大批量的数据而言，效率要高很多。

下面是对于所有数据整体批量插入、逐条数据插入与将数据分成多片进行插入的性能测试。

测试代码如下：

# -*- coding: utf-8 -*-
import time
from pymongo import MongoClient

# 这里将测试的数据库的地址替换为了*
source_db = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_13_1']
target_db_1 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_1']
target_db_2 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_2']
target_db_3 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_3']

# 这里limit中即为测试所用的数据量的大小
cursor = source_db.find().limit(10000)
print(cursor.count(True))

tweet_count = 0

doc_list = []

for doc in cursor:
    doc = dict(doc)
    doc.pop('_id')
    doc_list.append(doc)

start_time = time.time()
target_db_1.insert_many(documents=doc_list)
print("批量插入:\t")
print(time.time() - start_time)

start_time = time.time()
for doc in doc_list:
    target_db_2.insert_one(doc)
print("逐条插入:\t")
print(time.time() - start_time)

start_time = time.time()
start_index = 0
while start_index < len(doc_list):
    target_db_3.insert_many(doc_list[start_index: start_index + 1000])
    start_index += 1000
print("分批插入:\t")
print(time.time() - start_time)

这里的测试环境中，数据库位于同一内网中，但并不在一个局域网下，连接的带宽为100Mbps，同时每条数据大小大约为及Kb到几十Kb。

当数据量为10000次时，多次测试的结果如下：
第一次测试

10000
批量插入:
4.807947158813477
逐条插入:
37.37146472930908
分批插入:
4.637062072753906

当将数据量增加到500000后：
第一次测试：

500000
批量插入:	
123.143695831
逐条插入:	
1982.03912687
分批插入:	
124.674865961

经过多次测试，可以看到，批量插入总是比逐条插入的性能高许多。而在批量插入中，将所有数据整体插入，与分批（1000）条插入，性能并不会差距很大，可以视情况使用。

————————————————
版权声明：本文为CSDN博主「LenFranky」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/lenfranky/article/details/103975729

MongoDB中的批量插入的使用方法及与逐条插入的性能比较

您可能还喜欢...

发表回复取消回复

近期文章

近期评论

归档

分类

MongoDB中的批量插入的使用方法及与逐条插入的性能比较

您可能还喜欢...

PyCharm快捷键大全

python生成exe文件

python正则如何匹配中文汉字，正则表达式， python判断字符串为中文

发表回复 取消回复

近期文章

近期评论

归档

分类

发表回复取消回复