如何编辑300 GB文本文件(基因组数据)?

我有一个300 GB的文本文件,其中包含超过250k条记录的基因组数据。有些记录有不良数据,我们的基因组程序“

Popoolution”使我们可以用星号注释掉“不良”记录。我们的问题是,我们找不到可以加载数据的文本编辑器,以便可以注释掉不良记录。有什么建议么?我们有Windows和Linux盒子。

更新:更多信息

Popoolution(https://code.google.com/p/popoolation/)程序在达到“不良”记录时崩溃,从而为我们提供了行号,我们可以将其注释掉。具体来说,我们从Perl收到一条消息,内容为“

F#€%&Scaffolding”。该手册建议我们可以仅使用星号注释掉该坏处。遗憾的是,我们将不得不重复多次此过程…

再想一想…有没有一种方法可以让我们将星号添加到行中,而无需立即打开整个文本文件。鉴于我们将不得不重复该过程未知次数,因此这可能非常有用。

回答:

根据您的更新:

再想一想…有没有一种方法可以让我们将星号添加到行中,而无需立即打开整个文本文件。鉴于我们将不得不重复该过程未知次数,因此这可能非常有用。

这是一种方法:如果知道行号,则可以在该行的开头添加一个星号,说明:

sed 'LINE_NUMBER s/^/*/' file

看一个例子:

$ cat file

aa

bb

cc

dd

ee

$ sed '3 s/^/*/' file

aa

bb

*cc

dd

ee

如果添加-i,文件将被更新:

$ sed -i '3 s/^/*/' file

$ cat file

aa

bb

*cc

dd

ee

即使我一直认为最好重定向到另一个文件

sed '3 s/^/*/' file > new_file

这样您就可以保留原始文件,并将更新后的文件保存在中new_file

以上是 如何编辑300 GB文本文件(基因组数据)? 的全部内容, 来源链接: utcz.com/qa/408041.html

回到顶部