【Python】python数据处理，字典生成的一个问题

Z时代
2024-01-10
分类：技术分享

问题描述
手上有两个字典文件，file1,file1
需要根据这两个字典文件生成一个新的文件
file1文件内容为

zhangwei wangwei wangfang liwei lina zhangmin lijing wangjing liuwei wangxiuying zhangli lixiuying wangli zhangjing zhangxiuying liqiang wangmin limin wanglei liuyang wangyan wangyong lijun zhangyong lijie zhangjie zhanglei wangqiang lijuan wangjun zhangyan zhangtao wangtao liyan wangchao liming liyong wangjuan liujie liumin lixia lili

......

file2的文件内容为

123 123456 @123 888 999 666 2015 2016

521

需要file1+file2，生成类似

zhangwei123 zhangwei123456 [email protected] zhangwei888 zhangwei999 zhangwei666 zhangwei2015 zhangwei2016 zhangwei521 wangwei123 wangwei123456 [email protected] wangwei888 wangwei999 wangwei666 wangwei2015 wangwei2016 wangwei521 wangfang123 wangfang123456 [email protected] wangfang888 wangfang999 wangfang666 wangfang2015 wangfang2016

wangfang521

的字典文件
目前我这样写的

#!/usr/bin/env python
# -*- coding: utf-8 -*-
f = open('zidian.txt','w')
with open('file1.txt','r') as username:
for user in username:
print user
with open('file2.txt','r') as dict:
for dic in dict.readlines():
f.write(user.strip()+dic.strip('\r')+'\n')

但是这样写有个弊端，就是生成的字典文件太大
目前想改一下，改成file1+file2的一到五行，生成一个文件，file1+file2的6到10行，在生成一个，一次循环直到循环完file2

求大牛教育教育怎么改

回答

這裡是不求切割文件的作法, itertools.product 可以幫你完成地更簡潔:

import itertools
with open('zidian.txt', 'w') as z:
    with open('file1.txt') as f1, open('file2.txt') as f2:
        for a, b in itertools.product(f1, f2):
            a, b = a.strip(), b.strip()            print(a+b, file=z)

切割輸出的做法:

import itertools
with open('file2.txt') as f2:
    for key, group in itertools.groupby(enumerate(f2), lambda t: t[0]//5):
        with open('file1.txt') as f1, open('zidian-{}.txt'.format(key), 'w') as z:
            for a, (_, b) in itertools.product(f1, group):
                a, b = a.strip(), b.strip()                print(a+b, file=z)

稍微說一下你原本代碼的一些問題:

f = open('zidian.txt','w') 你在這裡 open 了文件可是卻忘記關閉了, 讀寫文件還是使用 with 的作法會比較好

dict.readlines(), 若非萬不得已, 不要使用 readlines, 千萬記得!! 請參考這篇文章文本格式轉換代碼優化

另外, dic 或 dict 這個字, 在 python 中有著獨特的意義, 稍微有點經驗的 python programmer 都會認為他們是 python dictionary, 這容易造成誤會

我回答過的問題: Python-QA

呃, 理解错题主的意思, 重新写下代码, 我承认用filehandler.readlines()是自己打脸了~
其实如果只是觉得生成的文件有些大的话, *nix有一款自带的小工具split非常适合, 可以随意把大文件拆分成若干小的
下面的代码如果不考虑结果分割可以简单修改write2file函数, 然后id_generator函数及相关模块(random, string)可以删掉

def write2file(item):
    with open("dict.txt", "a") as fh, open("file1.txt", "r") as f1:
        for i in f1.readlines():
            for j in item:
                fh.write("{}{}\n".format(i.strip(), j))

import random
import string
from multiprocessing.dummy import Pool
def id_generator(size=8, chars=string.ascii_letters + string.digits):
    return ''.join(random.choice(chars) for _ in range(size))
def generate_index(n, step=5):
    for i in range(0, n, step):
        if i + step < n:
            yield i, i+step
        else:
            yield i, None
def write2file(item):
    ext_id = id_generator()
    with open("dict_{}.txt".format(ext_id), "w") as fh, open("file1.txt", "r") as f1:
        for i in f1.readlines():
            for j in item:
                fh.write("{}{}\n".format(i.strip(), j))
def multi_process(lst):
    pool = Pool()
    pool.map(write2file, b_lst)
    pool.close()
    pool.join()
if __name__ == "__main__":
    with open("file2.txt") as f2:
        _b_lst = [_.strip() for _ in f2.readlines()]
        b_lst = (_b_lst[i: j] for i, j in generate_index(len(_b_lst), 5))
    multi_process(b_lst)

结果如图, 会生成若干dict_加8位随机字符串的文本文档
【Python】python数据处理，字典生成的一个问题
其中一个内容dict_3txVnToL.txt

zhangwei123
zhangwei123456
[email protected]
zhangwei888
zhangwei999
wangwei123
wangwei123456
[email protected]
wangwei888
wangwei999...

以下是旧内容

满足你的渴望，放码：

with open("file1") as f1, open("file2") as f2, open("new", "w") as new:
    b = f2.readline().strip()
    while b:
        a = f1.readline().strip()
        for i in range(5):
            if b:
                new.write("{}{}\n".format(a, b))
            else: break
            b = f2.readline().strip()

每次只按行读取，无论多大的文件都能hold住，节能环保，结果示意：

$ head new zhangwei123 zhangwei123456 [email protected] zhangwei888 zhangwei999 wangwei666 wangwei2015 wangwei2016 wangwei521 wangwei123

PS：如楼上所说，尽量避免使用readlines方法，内存有限的情况下，如果碰到超大文件会是个灾难

把file2每行存到一个list里面，然后每次从list里面拿五个就行了啊

手头没有python，代码纯手写估计有错误。理解思想即可

names = []
with open('file1.txt','r') as username:
    for line in username.readlines():
        names.append(line)
list = []
with open('file2.txt','r') as dict:
    for line in dict.readlines():
       list.append(line)
for i in range(len(line) / 5):
    f = open('zidian' + str(i + 1) + '.txt', 'w')
    for j in range(5):
        for name in names:
            f.write(user.strip() + line[i * 5 + j] + '\n')
    f.close()# 把除5的余数，即剩下的最后几行再写一个文件，代码不写了

@dokelung 的itertools.cycle是个妙用，我还有更好的方法:

with open('file2') as file2_handle: passwords = file2_handle.readlines() # 当然了，就如楼上所说，用readlines不好，但是这不是绝对的，在你的文件没有大到内存吃不消的情况下，readlines会显著提高程序的性能（这句话是有问题的，前提是你没拿读文件的IO时间做其他的事） # 在我看来，几百万行的文件，那都不是事，我用python读取10G以上的文件都是常有的事 # 当然了，尽量不要用readlines，这里只是为了我实现下面的算法方便 with open('file1') as file1_handle: name_password_dict = ['%s%s' % (line.rstrip(), passwords[i%len(passwords)]) for i, line in enumerate(file1_handle)]

# 有了name_password_dict还不是想干嘛干嘛，不管是分文件其他是什么的

简单来说增加一个计数器line,每匹配一组值line += 1，line为5的时候关闭文件，打开新的文件并置line为0.

以上是【Python】python数据处理，字典生成的一个问题的全部内容，来源链接： utcz.com/a/80070.html