在pyspark中找不到col函数

在pyspark 1.6.2中,我可以通过导入col功能

from pyspark.sql.functions import col

但是当我尝试在Github源代码中查找它时,我发现文件中没有col函数,functions.pypython如何导入不存在的函数?

回答:

它存在。只是没有明确定义。从中导出的函数pyspark.sql.functions是围绕JVM代码的精简包装,除少数需要特殊处理的异常外,这些函数是使用辅助方法自动生成的。

如果您仔细检查来源,就会发现其中col列出了其他来源_functions。此字典会进一步迭代,_create_function并用于生成包装器。每个生成的函数都直接分配给中的相应名称globals

最后__all__,它定义了从模块导出的项目的列表,仅导出globals除黑名单中包含的项目以外的所有项目。

如果仍然不清楚这种机制,则可以创建一个玩具示例:

  • 创建foo.py带有以下内容的Python模块:

    # Creates a function assigned to the name foo

    globals()[“foo”] = lambda x: “foo {0}”.format(x)

    Exports all entries from globals which start with foo

    = [x for x in globals() if x.startswith(“foo”)]

  • 将其放置在Python路径上的某个位置(例如,在工作目录中)。

  • 导入foo

    from foo import foo

    foo(1)

这种元编程方法的不良副作用是,纯依赖于静态代码分析的工具可能无法识别已定义的功能。这不是关键问题,在开发过程中可以安全地忽略它。

根据IDE的不同,安装类型注释可以解决该问题(例如,请参见zero323 / pyspark-

stubs#172)。

以上是 在pyspark中找不到col函数 的全部内容, 来源链接: utcz.com/qa/397719.html

回到顶部