新闻中心
J*a处理文本文件:根据首个字段删除重复行并存储

本教程详细介绍了如何使用j*a高效地处理文本文件中的重复行。针对以特定字段(如每行的第一个逗号分隔值)作为重复判断依据的场景,我们将探讨两种基于j*a stream api和`collectors.tomap()`的解决方案:一种直接操作字符串,另一种通过引入领域对象提升代码可读性和可维护性。文章将提供详细的代码示例和实现步骤,帮助开发者准确筛选和存储唯一数据。
在数据处理中,我们经常会遇到需要从文本文件中清除重复记录的场景。与简单的行重复不同,有时重复的定义是基于行内某个特定字段的值。例如,在一个包含公司信息的文本文件中,如果多行记录的第一个字段(如公司ID)相同,即使其他字段不同,我们也可能希望将其视为重复并只保留其中一条。本教程将详细介绍如何使用J*a实现这一功能,并将处理后的唯一记录存储到ArrayList中。
1. 理解问题:基于特定字段的重复删除
考虑以下文本文件内容:
123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890 123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891 123456,Newyork street,near 100th *enue,King master company,Texas,US,10005
在这个例子中,第一行和第三行的起始值(123456)是相同的。我们的目标是删除第三行,因为它的第一个字段与第一行重复。J*a Stream API的distinct()方法通常用于删除完全相同的对象或字符串,但对于这种基于部分字段的重复判断则无能为力。
2. 解决方案一:使用Stream API的Collectors.toMap()处理字符串
Collectors.toMap()是解决这类问题的强大工具。它允许我们定义如何从流中的每个元素生成一个键(Key),一个值(Value),以及当出现重复键时如何处理(mergeFunction)。
2.1 核心思路
- 定义键(Key):将每行的第一个逗号分隔的值作为键。
- 定义值(Value):将整行字符串作为值。
- 处理重复键(Merge Function):当遇到重复的键时,我们需要决定保留哪个值。在此场景下,通常是保留第一次遇到的值。
2.2 代码实现
假设我们已经将文本文件的所有行读取到一个List
import j*a.util.List;
import j*a.util.function.Function;
import j*a.util.stream.Collectors;
public class DeduplicateTextFile {
public static void main(String[] args) {
List<String> sourceList = List.of(
"123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890",
"123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891",
"123456,Newyork street,near 100th *enue,King master company,Texas,US,10005"
);
List<String> uniqueList = sourceList.stream()
.collect(Collectors.toMap(
str -> str.substring(0, str.indexOf(',')), // keyMapper: 提取第一个逗号前的子字符串作为键
Function.identity(), // valueMapper: 将整个字符串作为值
(existing, replacement) -> existing // mergeFunction: 如果键重复,保留已存在的(即第一次遇到的)值
))
.values() // 获取Map中所有的值(即唯一的行字符串)
.stream()
.toList(); // 将结果收集到List中
System.out.println("去重后的列表 (字符串):");
uniqueList.forEach(System.out::println);
}
}代码解释:
- str -> str.substring(0, str.indexOf(',')):这是一个keyMapper函数,它从当前字符串str中提取第一个逗号之前的部分作为Map的键。
- Function.identity():这是一个valueMapper函数,它表示将流中的当前元素(即整个字符串)作为Map的值。
- (existing, replacement) -> existing:这是一个mergeFunction函数,当keyMapper生成了重复的键时,它会被调用。existing是Map中已经存在的值,replacement是新尝试插入的值。这里我们选择保留existing,意味着Map中只会保留第一个具有该键的元素。
- .values().stream().toList():Collectors.toMap()的结果是一个Map。为了得到一个List
,我们需要获取Map中所有的值,然后将其转换回流并收集成列表。
3. 解决方案二:结合领域对象提升代码质量
直接操作字符串在简单场景下是可行的,但当数据结构变得复杂或需要对字段进行更多操作时,引入领域对象(Domain Object)会显著提高代码的可读性、可维护性和健壮性。
3.1 定义领域对象
我们可以创建一个Company类来封装每行数据。为了简化代码,这里使用Lombok的@Getter和@Builder注解。
独响
一个轻笔记+角色扮演的app
249
查看详情
import lombok.Builder;
import lombok.Getter;
@Builder
@Getter
public class Company {
private long id;
private String street;
private String locationDescription;
private String companyName;
private String state;
private String country;
private String zipCode;
/**
* 将一行字符串解析为Company对象
* @param line 待解析的字符串
* @return 解析后的Company对象
*/
public static Company parse(String line) {
String[] arr = line.split(",");
if (arr.length < 7) {
throw new IllegalArgumentException("Invalid line format: " + line);
}
return Company.builder()
.id(Long.parseLong(arr[0]))
.street(arr[1]) // 补充street字段
.locationDescription(arr[2])
.companyName(arr[3])
.state(arr[4])
.country(arr[5])
.zipCode(arr[6])
.build();
}
@Override
public String toString() {
return id + "," + street + "," + locationDescription + "," + companyName + "," + state + "," + country + "," + zipCode;
}
}注意:
- 需要添加Lombok依赖到项目中。
- parse方法中加入了简单的长度检查,以避免ArrayIndexOutOfBoundsException。
- 为了方便打印和查看,重写了toString()方法。
3.2 使用领域对象进行去重
有了Company类,去重逻辑将更加清晰:
import j*a.util.List;
import j*a.util.function.Function;
import j*a.util.stream.Collectors;
// 假设Company类已定义如上
public class DeduplicateWithDomainObject {
public static void main(String[] args) {
List<String> sourceList = List.of(
"123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890",
"123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891",
"123456,Newyork street,near 100th *enue,King master company,Texas,US,10005"
);
List<Company> uniqueCompanies = sourceList.stream()
.map(Company::parse) // 将每行字符串解析为Company对象
.collect(Collectors.toMap(
Company::getId, // keyMapper: 使用Company对象的id作为键
Function.identity(), // valueMapper: 将Company对象本身作为值
(existing, replacement) -> existing // mergeFunction: 如果id重复,保留已存在的Company对象
))
.values()
.stream()
.toList();
System.out.println("\n去重后的列表 (Company对象):");
uniqueCompanies.forEach(System.out::println);
}
}代码解释:
- .map(Company::parse):将List
中的每个字符串通过Company.parse()方法转换为Company对象流。 - Company::getId:作为keyMapper,直接使用Company对象的id属性作为键,这比从字符串中截取更加直观和安全。
- 其余部分与字符串处理方法类似,最终得到的是一个List
。
4. 文件读取与错误处理
在实际应用中,sourceList通常是通过读取文件获得的。以下是一个简单的文件读取示例:
import j*a.io.IOException;
import j*a.nio.file.Files;
import j*a.nio.file.Paths;
import j*a.util.List;
import j*a.util.stream.Collectors;
public class FileReaderExample {
public static List<String> readLinesFromFile(String filePath) throws IOException {
return Files.lines(Paths.get(filePath))
.collect(Collectors.toList());
}
public static void main(String[] args) {
String filePath
= "data.txt"; // 替换为你的文件路径
// 假设data.txt文件内容如示例所示
try {
List<String> allLines = readLinesFromFile(filePath);
// 接下来可以将allLines传递给上述的去重方法
System.out.println("从文件读取的行数: " + allLines.size());
// ... 进行去重操作
} catch (IOException e) {
System.err.println("读取文件时发生错误: " + e.getMessage());
}
}
}在Company.parse()方法中,Long.parseLong()和line.split(",")都可能抛出异常(如NumberFormatException或ArrayIndexOutOfBoundsException),因此在实际生产代码中,应加入更完善的异常处理机制,例如使用try-catch块捕获并记录错误,或者返回Optional
5. 总结
本文介绍了两种在J*a中根据特定字段删除文本文件重复行的有效方法。
- 直接操作字符串:适用于简单的数据结构和快速实现。利用Collectors.toMap()的keyMapper、valueMapper和mergeFunction参数,可以灵活地定义去重逻辑。
- 结合领域对象:对于复杂的数据结构和需要长期维护的项目,将字符串解析为领域对象是更推荐的做法。它能显著提高代码的可读性、类型安全性和可维护性,并使业务逻辑更加清晰。
无论选择哪种方法,J*a Stream API都提供了强大且简洁的工具来处理这类数据去重任务。在实际应用中,请根据具体需求和项目复杂性选择最合适的方案,并务必考虑文件I/O和潜在的解析错误处理。
以上就是J*a处理文本文件:根据首个字段删除重复行并存储的详细内容,更多请关注其它相关文章!
# 首个
# 大兴区常规网站优化记录
# 东莞快速seo哪家好
# 茂名网站建设的详细策划
# 大马戏团的营销推广方案
# 在局网站 作风建设
# 惠州整合营销网络推广
# 单品如何搞营销推广呢
# 谷歌网seo的工作内容
# 高级网站制作推广方案
# seo营销的应用案例
# 详细介绍
# 这类
# 将其
# 两种
# java
# 是一个
# 这是一个
# 数据结构
# 文本文件
# 第一个
# 回流
# 代码可读性
# 字符串解析
# java实现
# stream
# ai
# 工具
# app
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
c++如何实现单例设计模式_c++线程安全的单例模式写法
windows10怎么查看本机ip_windows10命令提示符ipconfig使用
J*aScript中如何高效提取对象指定属性
TikTok国际版官网直达_TikTok国际版官网直达进入在线观看
composer的"require-dev"部分是用来做什么的?
魅族17怎样用浏览器译外语网页_iPhone魅族17浏览器译外语网页【即时翻译】
J*aScript中localStorage数据的获取、清洗与格式化教程
海棠账号登录入口_登录海棠账户同步阅读记录
如何在Promise链中有效终止错误处理后的执行
神庙逃亡小游戏在线玩 神庙逃亡小游戏入口
深入理解J*a合成构造器:何时以及为何阻止其生成
Excel如何用迷你图显趋势_Excel用迷你图显趋势【趋势小图】
大麦的“候补”是什么意思 大麦候补购票规则【详解】
“在文档元素之后找到了标记”是什么错误? 检查并修复XML中多个根元素的3个方法
Go语言JSON解析深度指南:动态访问与结构体映射实践
steam官方网页快速访问 steam账号注册全流程
韩剧圈正版入口页面_韩剧圈官网登录链接
React Router v6 教程:构建认证保护的私有路由与重定向策略
Go语言中Map值调用指针接收器方法的限制与应对
铃兰之剑为这和平的世界希里技能组及加点推荐
Steam官网入口直达 Steam注册及登录步骤
Win11 BitLocker密码忘了怎么办 Win11找回BitLocker恢复密钥方法【解决】
蛙漫移动版在线看 蛙漫手机浏览器直达入口
微信网页版官方入口直达 微信网页版网页版登录使用方法
天眼查企业查询官网入口 天眼查官方网页版查询
蛙漫2台版漫画地址 Manwa2正版网页版链接
绝地鸭卫平a核爆刀流玩法攻略
厨房不锈钢水槽发黑生锈怎么处理_水槽用可乐+锡纸2分钟抛亮如新
将HTML动态表格多行数据保存到Google Sheet的教程
Google翻译怎么语音输入_Google翻译语音输入功能使用与设置方法
Win11蓝牙耳机断连怎么解决 Win11蓝牙设置重新配对与驱动更新【技巧】
c++如何使用TBB库进行任务并行_c++ Intel线程构建模块
服务端验证_j*ascript输入检查
在J*a中如何使用BigDecimal进行高精度计算_BigDecimal类应用指南
在J*a中如何开发简易电子商务商品管理系统_商品管理系统项目实战解析
马斯克:Optimus 人形机器人复数形式为 Optimi
iCloud登录入口网页版 苹果iCloud官网登录
PHP中SSG-WSG API的AES加密实践:正确使用初始化向量
优化MinIO list_objects_v2 操作的性能瓶颈与最佳实践
c++20的std::jthread是什么_c++可中断线程与RAII式管理
精准捕获:如何在页面中监听除特定元素外的所有点击事件
mc.js免安装版 mc.js一键畅玩入口
MAC的“快捷指令”怎么同步到iPhone_MAC利用iCloud同步所有设备的自动化指令
汽水音乐在线版入口_汽水音乐网页播放手册
css滚动动画效果怎么实现_使用Animate.css滚动触发动画类
荣耀Play7T运行卡顿解决_荣耀Play7T性能优化
《北京人工智能产业白皮书(2025)》发布:全年核心产值预计突破 4500 亿元
怎样把文件彻底粉碎无法恢复_Windows下安全删除敏感数据【隐私保护】
b站赚钱渠道_b站收益来源
Win11怎么用U盘重装系统 Win11制作启动盘并重装系统完整教程【详解】


2025-12-03
浏览次数:次
返回列表
= "data.txt"; // 替换为你的文件路径
// 假设data.txt文件内容如示例所示
try {
List<String> allLines = readLinesFromFile(filePath);
// 接下来可以将allLines传递给上述的去重方法
System.out.println("从文件读取的行数: " + allLines.size());
// ... 进行去重操作
} catch (IOException e) {
System.err.println("读取文件时发生错误: " + e.getMessage());
}
}
}