新闻中心

Linux 上怎么做文件去重?真实场景示例

2025-12-05
浏览次数:
返回列表
使用fdupes或find+md5sum识别并处理内容重复文件,先备份、过滤非目标文件,再通过删除或转硬链接实现安全去重,推荐fdupes交互操作与hardlink节省空间。

linux 上怎么做文件去重?真实场景示例

Linux 上做文件去重,核心是识别内容相同但路径/名称不同的文件,并安全地保留一份、删除或软链接其余。不看文件名、大小,只看内容是否一致——这才是真实去重。

fdupes 快速找并处理重复文件

fdupes 是最常用、可靠的去重工具,按文件内容(MD5 + 比对)识别重复项,支持交互式删除或自动处理。

  • 安装:Ubuntu/Debian 用 sudo apt install fdupes;CentOS/RHEL 用 sudo yum install fdupes(或 dnf)
  • 扫描当前目录及子目录所有普通文件:fdupes -r .
  • 显示重复组并交互式选择保留哪份(其余删除):fdupes -r -d . → 每组出现时输入要保留的编号(如 1),回车即删其余
  • 直接删除所有重复项(只留每组第一个):fdupes -r -f . | xargs -I {} rm -v "{}"-f 输出唯一文件,即每组仅首行;慎用,建议先试运行不带 rm 的版本)

find + md5sum 手动排查(适合脚本集成或无 root 环境)

当不能装 fdupes,或需嵌入自动化流程时,可用 find 配合校验和实现轻量去重逻辑。

  • 生成所有文件的 MD5 和路径:find /path/to/dir -type f -exec md5sum {} \; | sort
  • 提取重复 MD5 块:find /path/to/dir -type f -exec md5sum {} \; | sort | awk '{if ($1 == prev) print; prev=$1}'
  • 更实用的一行去重清理(保留每组第一个,其余加 .dup 后缀):
    find /data/docs -type f -exec md5sum {} \; | sort | awk 'NR==FNR{a[$1]=$2;next} $1 in a{print "mv \"" $2 "\" \"" $2 ".dup\""}' - - | sh -x
    (说明:先建哈希→路径映射,再对重复哈希输出重命名命令,最后执行;-x 可预览操作)

去重前必做的三件事

真实场景中,误删代价高,务必提前验证和防护:

Moshi Chat Moshi Chat

法国AI实验室Kyutai推出的端到端实时多模态AI语音模型,具备听、说、看的能力,不仅可以实时收听,还能进行自然对话。

Moshi Chat 160 查看详情 Moshi Chat
  • 确认文件类型:避免对日志、数据库文件、正在写的临时文件去重(加 -not -name "*.log" -not -path "/proc/*" 过滤)
  • 备份关键目录:至少用 cp -al 做硬链接快照(节省空间且秒级恢复):cp -al docs docs-backup-$(date +%F)
  • 检查硬链接数:用 ls -li 看 inode 号,相同表示已是硬链接——这类无需去重,它们本就是同一份数据的不同入口

进阶技巧:用 hardlink 把重复内容转为硬链接(省空间不丢文件)

比起删文件,把重复内容统一指向同一个 inode 更安全、可逆,尤其适合备份目录、静态资源库。

  • 安装:sudo apt install hardlink(Debian/Ubuntu)
  • 在目标目录下将内容相同的文件转为硬链接:hardlink -t /path/to/dir
  • 效果:原文件名、权限、时间戳全保留,磁盘占用降为 1 份;注意:仅限同一文件系统内生效

基本上就这些。真实场景里,先用 fdupes -r -d 交互确认,再考虑 hardlink 自动优化,比写一堆 find 脚本更稳更快。关键是别跳过备份和过滤——去重不是目的,释放空间且不出错才是。

以上就是Linux 上怎么做文件去重?真实场景示例的详细内容,更多请关注其它相关文章!


# 进阶  # 产品推广做网站好做吗  # 杭州商城网站建设公司  # 儿童防性侵网站推广  # 六安台州网站建设  # 抖音网站的推广方案  # 黄石正规网站seo关键字优化  # 苏州推广网站价格行情  # 增城网站推广优化技巧  # 南宁全网营销推广  # 除了seo还有什么  # 才是  # 压缩解压  # linux  # 操作步骤  # 编辑器  # 服务管理  # 第一个  # 运行环境  # 怎么做  # 每组  # dnf  # 工具  # ubuntu  # node  # centos 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: Composer的 "conflict" 字段有什么用_如何声明不兼容的包以避免依赖冲突  小猿搜题在线学习页面在哪_小猿搜题在线学习中心入口  如何有效阻止外部脚本意外修改内联样式的高度属性  蛙漫2日版入口 WAMAN2(日版)无删减漫画官网链接  抓大鹅无需下载版 抓大鹅秒玩版入口  J*aScript 字符串标签转换:使用正则表达式高效替换  解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException  J*aScript中安全有效地处理localStorage字符串数据  漫蛙2网页版漫画入口 漫蛙漫画在线官方登录  俄罗斯Yandex免登录入口_Yandex搜索引擎官网一键直达  必由学在线入口 必由学网页版快速登录入口  “在文档元素之后找到了标记”是什么错误? 检查并修复XML中多个根元素的3个方法  css绝对定位元素脱离父容器怎么办_确保父元素position非static  手机屏幕碎了但能正常使用怎么办 手机外屏碎裂的修复建议  抖音网页版快捷访问 抖音网页版网页版入口操作教程  一加Ace 6T支持全新明眸护眼:通过了最严苛的护眼小金标认证  在J*a中如何开发简易仓库管理与库存统计_仓库管理库存统计项目实战解析  steam官方入口大全 steam账号注册及操作指南  126邮箱账号注册 电脑版登录入口  Discord Slash 命令响应超时问题的异步解决方案  163邮箱登录密码 163邮箱忘记密码找回  Win11如何开启讲述人功能 Win11屏幕阅读器(讲述人)开启与关闭【教程】  zookeeper 都有哪些功能?  利用Bokeh CustomJS动态控制DataTable列可见性  Python大型XML文件高效流式解析教程  Golang如何使用buffered channel提高性能_Golang buffered channel优化技巧  Excel文件在线转换快速入口 Excel在线格式转换网站  漫蛙漫画登录站点 漫蛙2正版漫画快速访问  海量存储:机器视觉智能化的核心基石  html怎么在cmd下运行php文件_cmd运行html中php文件方法【教程】  PySpark中高效提取字符串右侧可变长度数字:使用regexp_extract  Tabulator表格日期时间排序问题及自定义解决方案  mysql如何设置表访问权限_mysql表访问权限配置  Typer应用中动态命令行参数的解析与处理  J*aScript:在map操作中高效处理空数组  腾讯视频怎么举报不良内容_腾讯视频内容举报流程与违规信息处理方法  如何在低配置电脑上搭建轻量级J*a环境_占用更小的环境选择技巧  解决深度学习模型训练初期异常高损失与完美验证准确率问题  写好的html代码怎么运行出来_运行写好的html代码方法【教程】  Excel组合图表怎么做 Excel创建柱状图与折线组合图教程【图表】  c++项目目录结构应该如何组织_c++工程化项目结构规范  css滚动区域卡顿如何改善_css滚动问题用will-change优化渲染  火锅吃太多会怎样 火锅吃太多会上火吗  必由学官网入口 必由学教师登录入口  Composer中的^和~符号代表什么_精通Composer版本号语义化约束  css子元素高度不一致导致布局错位怎么办_使用align-items:stretch解决高度差异  漫蛙manwa官网登录界面_漫蛙漫画网页版主站入口  cad如何更改注释性对象的比例_cad注释性比例调整方法  Angular响应式表单:实现提交后表单及按钮的禁用与只读化  将HTML动态表格多行数据保存到Google Sheet的教程 

搜索