在pyspark中找不到col函数
在pyspark 1.6.2中,我可以通过导入col
功能
from pyspark.sql.functions import col
但是当我尝试在Github源代码中查找它时,我发现文件中没有col
函数,functions.py
python如何导入不存在的函数?
回答:
它存在。只是没有明确定义。从中导出的函数pyspark.sql.functions
是围绕JVM代码的精简包装,除少数需要特殊处理的异常外,这些函数是使用辅助方法自动生成的。
如果您仔细检查来源,就会发现其中col
列出了其他来源_functions
。此字典会进一步迭代,_create_function
并用于生成包装器。每个生成的函数都直接分配给中的相应名称globals
。
最后__all__
,它定义了从模块导出的项目的列表,仅导出globals
除黑名单中包含的项目以外的所有项目。
如果仍然不清楚这种机制,则可以创建一个玩具示例:
创建
foo.py
带有以下内容的Python模块:# Creates a function assigned to the name foo
globals()[“foo”] = lambda x: “foo {0}”.format(x)
Exports all entries from globals which start with foo
= [x for x in globals() if x.startswith(“foo”)]
将其放置在Python路径上的某个位置(例如,在工作目录中)。
导入
foo
:from foo import foo
foo(1)
这种元编程方法的不良副作用是,纯依赖于静态代码分析的工具可能无法识别已定义的功能。这不是关键问题,在开发过程中可以安全地忽略它。
根据IDE的不同,安装类型注释可以解决该问题(例如,请参见zero323 / pyspark-
stubs#172)。
以上是 在pyspark中找不到col函数 的全部内容, 来源链接: utcz.com/qa/397719.html