R-获取documenttermmatrix中每个文档的标记计数

Z时代
2024-01-10
分类：问答

我想这样做的原因是我可以将绝对频率转换为相对频率。对于每个文档都很容易获得令牌计数，但我不确定如何获取每个文档的总令牌计数并同时使用它，因此我可以同时对每个文档执行/总令牌计数，有没有什么方法可以绑定rowsums，然后使用计算中的列，如果这是正确的方法来做到这一点？R-获取documenttermmatrix中每个文档的标记计数

感谢

回答：

从英文版本的heliohost corpus为我的文字数据的利用博客的数据，这是很容易通过quanteda包度日文件标记计数。

library(readr) 
library(quanteda) 
blogFile <- "./capstone/data/en_US.blogs.txt" 
inFile <- blogFile 
blogData <- read_lines(blogFile) 
system.time(theText <- corpus(blogData)) 
head(summary(theText))

...和输出是：

> head(summary(theText)) Corpus consisting of 899288 documents, showing 100 documents: Text Types Tokens Sentences text1 18 20 1 text2 6 7 1 text3 104 154 7 text4 36 43 1 text5 91 119 5 text6 13 13 1 Source: C:/Users/leona/gitrepos/datascience/* on x86-64 by leona Created: Sat Dec 02 20:59:23 2017 Notes: >

回答：

谢谢。实际上，我想我找到了一种方法，用rowSums（dtm）来划分。我希望这是正确的方法。

以上是 R-获取documenttermmatrix中每个文档的标记计数的全部内容，来源链接： utcz.com/qa/259120.html

R-获取documenttermmatrix中每个文档的标记计数

回答：

回答：

其他人也看了：