我如何知道纯文本文件是用哪种语言编写的?
假设我们有一个文本文件,内容为:“ Je suis un beau homme …”
另一个带有:“我是一个勇敢的人”
第三个带有德语文本:“ Guten morgen。Wie geht的?”
我们如何编写一个函数来告诉我们:以这种可能性,第一个文件中的文本是英语,第二个文件中有法语等?
欢迎链接到书籍/开箱即用的解决方案。我用Java编写,但是如果需要,我可以学习Python。
我的评论
- 我需要添加一条小评论。文本可能包含不同语言的词组,作为整体的一部分或由于错误而导致。在经典文学中,我们有很多例子,因为贵族成员会说多种语言。因此,该概率可以更好地描述情况,因为文本的大多数部分都使用一种语言,而其他部分则可能使用另一种语言编写。
- Google API-Internet连接。我宁愿不使用远程功能/服务,因为我需要自己做或使用可下载的库。我想对该主题进行研究。
回答:
有一个名为JLangDetect的软件包,它似乎完全可以满足您的要求:
langof("un texte en français") = fr : OKlangof("a text in english") = en : OK
langof("un texto en español") = es : OK
langof("un texte un peu plus long en français") = fr : OK
langof("a text a little longer in english") = en : OK
langof("a little longer text in english") = en : OK
langof("un texto un poco mas largo en español") = es : OK
langof("J'aime les bisounours !") = fr : OK
langof("Bienvenue à Montmartre !") = fr : OK
langof("Welcome to London !") = en : OK
// ...
编辑:正如Kevin所指出的那样,在Nutch项目中,由org.apache.nutch.analysis.lang包提供了类似的功能。
以上是 我如何知道纯文本文件是用哪种语言编写的? 的全部内容, 来源链接: utcz.com/qa/398233.html