MongoDB中的批量插入的使用方法及与逐条插入的性能比较
MongoDB中的批量插入的使用方法及与逐条插入的性能比较
在MongoDB中,如果有数据需要进行插入操作,一种简单的方法是将每条数据逐条插入,在python的pymongo中便是遍历我们的数据,然后,对每一条数据insert_one(doc),这种方法比较简单,同时也非常地灵活,但是,对于大批量的数据而言,效率较低。
而另一种方法是,将需要插入的数据整合到一个列表中,然后将这个列表整体地批量插入到数据中,这样对于大批量的数据而言,效率要高很多。
下面是对于所有数据整体批量插入、逐条数据插入与将数据分成多片进行插入的性能测试。
测试代码如下:
# -*- coding: utf-8 -*-
import time
from pymongo import MongoClient
# 这里将测试的数据库的地址替换为了*
source_db = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_13_1']
target_db_1 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_1']
target_db_2 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_2']
target_db_3 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_3']
# 这里limit中即为测试所用的数据量的大小
cursor = source_db.find().limit(10000)
print(cursor.count(True))
tweet_count = 0
doc_list = []
for doc in cursor:
doc = dict(doc)
doc.pop('_id')
doc_list.append(doc)
start_time = time.time()
target_db_1.insert_many(documents=doc_list)
print("批量插入:\t")
print(time.time() - start_time)
start_time = time.time()
for doc in doc_list:
target_db_2.insert_one(doc)
print("逐条插入:\t")
print(time.time() - start_time)
start_time = time.time()
start_index = 0
while start_index < len(doc_list):
target_db_3.insert_many(doc_list[start_index: start_index + 1000])
start_index += 1000
print("分批插入:\t")
print(time.time() - start_time)
这里的测试环境中,数据库位于同一内网中,但并不在一个局域网下,连接的带宽为100Mbps,同时每条数据大小大约为及Kb到几十Kb。
当数据量为10000次时,多次测试的结果如下:
第一次测试
10000
批量插入:
4.807947158813477
逐条插入:
37.37146472930908
分批插入:
4.637062072753906
当将数据量增加到500000后:
第一次测试:
500000
批量插入:
123.143695831
逐条插入:
1982.03912687
分批插入:
124.674865961
经过多次测试,可以看到,批量插入总是比逐条插入的性能高许多。而在批量插入中,将所有数据整体插入,与分批(1000)条插入,性能并不会差距很大,可以视情况使用。
————————————————
版权声明:本文为CSDN博主「LenFranky」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lenfranky/article/details/103975729