python多个文本组合后去除重复项

有三个txt文件:a.txt、b.txt、c.txta.txt有4行数据以“\n”分隔行,即:北京天津南京上海b.txt有2行数据以“\n”分隔行,即:北京西安c.txt... 有三个txt文件:a.txt、b.txt、c.txt
a.txt有4行数据以“\n”分隔行,即:
北京
天津
南京
上海
b.txt有2行数据以“\n”分隔行,即:
北京
西安
c.txt有1行数据以“\n”分隔行,即:
南京
福州
我现在想合并将a.txt、b.txt、c.txt合并后去除原有7行数据中的重复数据,保留唯一值,并逐行输出到新的文件d.txt中,即:
北京
天津
南京
上海
西安
福州
请问该如何操作?
另外后续处理过程中可能要处理上万个txt文件,如何能够高效一点?我本来想:先合并两个去一次重复项,之后将结果与第三个合并之后再去一次重复项的。
谢谢。
我自己解决了,跑17000个极小的txt用了4分钟。
展开
 我来答
丙济0gY
2016-07-10 · TA获得超过1427个赞
知道小有建树答主
回答量:649
采纳率:60%
帮助的人:331万
展开全部
最简单的是,定义一个list(list可以装的元素数量应该是可以满足需求的,如果数据确实太高,考虑文件数量分组进行)
然后将所有文件的内容逐行读到这个list中,用list自带的去重方法listname=list(set(listname)),进行去重。
最后将整个List写入到d.txt中就可以了
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式