我如何知道纯文本文件是用哪种语言编写的？

Z时代
2024-01-10
分类：问答

假设我们有一个文本文件，内容为：“ Je suis un beau homme …”

另一个带有：“我是一个勇敢的人”

第三个带有德语文本：“ Guten morgen。Wie geht的？”

我们如何编写一个函数来告诉我们：以这种可能性，第一个文件中的文本是英语，第二个文件中有法语等？

欢迎链接到书籍/开箱即用的解决方案。我用Java编写，但是如果需要，我可以学习Python。

我的评论

我需要添加一条小评论。文本可能包含不同语言的词组，作为整体的一部分或由于错误而导致。在经典文学中，我们有很多例子，因为贵族成员会说多种语言。因此，该概率可以更好地描述情况，因为文本的大多数部分都使用一种语言，而其他部分则可能使用另一种语言编写。

Google API-Internet连接。我宁愿不使用远程功能/服务，因为我需要自己做或使用可下载的库。我想对该主题进行研究。

回答：

有一个名为JLangDetect的软件包，它似乎完全可以满足您的要求：

langof("un texte en français") = fr : OK
langof("a text in english") = en : OK
langof("un texto en español") = es : OK
langof("un texte un peu plus long en français") = fr : OK
langof("a text a little longer in english") = en : OK
langof("a little longer text in english") = en : OK
langof("un texto un poco mas largo en español") = es : OK
langof("J'aime les bisounours !") = fr : OK
langof("Bienvenue à Montmartre !") = fr : OK
langof("Welcome to London !") = en : OK
// ...

编辑：正如Kevin所指出的那样，在Nutch项目中，由org.apache.nutch.analysis.lang包提供了类似的功能。

以上是我如何知道纯文本文件是用哪种语言编写的？的全部内容，来源链接： utcz.com/qa/398233.html

我如何知道纯文本文件是用哪种语言编写的？

回答：

其他人也看了：