Python如何删除目录下的相同文件

这篇文章主要介绍“Python如何删除目录下的相同文件”，在日常操作中，相信很多人在Python如何删除目录下的相同文件问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python如何删除目录下的相同文件”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

创新互联是一家专注于成都网站设计、成都网站制作与策划设计,滦州网站建设哪家好?创新互联做网站,专注于网站建设10余年,网设计领域的专业建站公司;建站业务涵盖:滦州等地区。滦州做网站价格咨询:028-86922220

# -*- coding: cp936 -*-  import md5  import os  from time import clock as now  def getmd5(filename):      file_txt = open(filename,'rb').read()      m = md5.new(file_txt)      return m.hexdigest()  def main():      path = raw_input("path: ")      all_md5=[]      total_file=0     total_delete=0     start=now()      for file in os.listdir(path):          total_file += 1;          real_path=os.path.join(path,file)          if os.path.isfile(real_path) == True:              filemd5=getmd5(real_path)              if filemd5 in all_md5:                  total_delete += 1                  print '删除',file              else:                  all_md5.append(filemd5)      end = now()      time_last = end - start      print '文件总数：',total_file      print '删除个数：',total_delete      print '耗时：',time_last,'秒'        if __name__=='__main__':       main()

上面的程序原理很简单，就是依次读取每个文件，计算md5，如果md5在md5列表不存在，就把这个md5加到md5列表里面去，如果存在的话，我们就认为这个md5对应的文件已经出现过，这个图片就是多余的，然后我们就可以把这个图片删除了。在这个文件夹下面有8674个文件，有31个是重复的，找到所有重复文件共耗时155.5秒。效率不算高，能不能进行优化呢？我分析了一下，我的程序里面有两个功能比较耗时间，一个是计算每个文件的md5，这个占了大部分时间，还有就是在列表中查找md5是否存在，也比较费时间的。从这两方面入手，我们可以进一步优化。

首先我想的是解决查找问题，或许我们可以对列表中的元素先排一下序，然后再去查找，但是列表是变化的，每次都排序的话效率就比较低了。我想的是利用字典进行优化。字典最显著的特点是一个key对应一个值我们可以把md5作为key，key对应的值就不需要了，在变化的情况下字典的查找效率比序列效率高，因为序列是无序的，而字典是有序的，查找起来当然更快。这样我们只要判断md5值是否在所有的key中就可以了。下面是改进后的代码：

# -*- coding: cp936 -*-  import md5  import os  from time import clock as now  def getmd5(filename):      file_txt = open(filename,'rb').read()      m = md5.new(file_txt)      return m.hexdigest()  def main():      path = raw_input("path: ")      all_md5={}      total_file=0     total_delete=0     start=now()      for file in os.listdir(path):          total_file += 1;          real_path=os.path.join(path,file)          if os.path.isfile(real_path) == True:              filemd5=getmd5(real_path)              if filemd5 in all_md5.keys():                  total_delete += 1                  print '删除',file              else:                  all_md5[filemd5]=''      end = now()      time_last = end - start      print '文件总数：',total_file      print '删除个数：',total_delete      print '耗时：',time_last,'秒'        if __name__=='__main__':       main()

再看看运行截图

从时间上看，确实比原来快了一点，但是还不理想。下面还要进行优化。还有什么可以优化呢？md5！上面的程序，每个文件都要计算md5，非常费时间，是不是每个文件都需要计算md5呢？能不能想办法减少md5的计算次数呢？我想到了一种方法：上面分析时我们提到，可以通过比较文件大小的方式来判断图片是否完全相同，速度快，但是这种方法是不准确的，md5是准确的，我们能不能把两者结合一下？答案是肯定的。我们可以认定：如果两个文件完全相同，那么这两个文件的大小和md5一定相同，如果两个文件的大小不同，那么这两个文件肯定不同！这样的话，我们只需要先查看文件的大小是否存在在size字典中，如果不存在，就将它加入到size字典中，如果大小存在的话，这说明有至少两张图片大小相同，那么我们只要计算文件大小相同的文件的md5，如果md5相同，那么这两个文件肯定完全一样，我们可以删除，如果md5不同，我们把它加到列表里面，避免重复计算md5.具体代码实现如下：

# -*- coding: cp936 -*-  import md5  import os  from time import clock as now  def getmd5(filename):      file_txt = open(filename,'rb').read()      m = md5.new(file_txt)      return m.hexdigest()  def main():      path = raw_input("path: ")      all_md5 = {}      all_size = {}      total_file=0     total_delete=0     start=now()      for file in os.listdir(path):          total_file += 1          real_path=os.path.join(path,file)          if os.path.isfile(real_path) == True:              size = os.stat(real_path).st_size              name_and_md5=[real_path,'']              if size in all_size.keys():                  new_md5 = getmd5(real_path)                  if all_size[size][1]=='':                      all_size[size][1]=getmd5(all_size[size][0])                  if new_md5 in all_size[size]:                      print '删除',file                      total_delete += 1                  else:                      all_size[size].append(new_md5)              else:                  all_size[size]=name_and_md5      end = now()      time_last = end - start      print '文件总数：',total_file      print '删除个数：',total_delete      print '耗时：',time_last,'秒'        if __name__=='__main__':       main()

到此，关于“Python如何删除目录下的相同文件”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

分享标题：Python如何删除目录下的相同文件
网页链接：http://ybzwz.com/article/ghhegp.html

Python如何删除目录下的相同文件

其他资讯