如何使用pdfbox获得字体颜色

我正在尝试使用pdfbox从pdf中提取包含所有信息的文本。我获得了我想要的所有信息,除了颜色。我尝试了多种获取fontcolor的方法(包括使用PDFBox获取文本颜色)。但是没有用。现在,我从pdfBox的PageDrawer类复制了代码。但是,RGB值也不正确。

protected void processTextPosition(TextPosition text) {

Composite com;

Color col;

switch(this.getGraphicsState().getTextState().getRenderingMode()) {

case PDTextState.RENDERING_MODE_FILL_TEXT:

com = this.getGraphicsState().getNonStrokeJavaComposite();

int r = this.getGraphicsState().getNonStrokingColor().getJavaColor().getRed();

int g = this.getGraphicsState().getNonStrokingColor().getJavaColor().getGreen();

int b = this.getGraphicsState().getNonStrokingColor().getJavaColor().getBlue();

int rgb = this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB();

float []cosp = this.getGraphicsState().getNonStrokingColor().getColorSpaceValue();

PDColorSpace pd = this.getGraphicsState().getNonStrokingColor().getColorSpace();

break;

case PDTextState.RENDERING_MODE_STROKE_TEXT:

System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());

System.out.println(this.getGraphicsState().getStrokingColor().getJavaColor().getRGB());

break;

case PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT:

//basic support for text rendering mode "invisible"

Color nsc = this.getGraphicsState().getStrokingColor().getJavaColor();

float[] components = {Color.black.getRed(),Color.black.getGreen(),Color.black.getBlue()};

Color c1 = new Color(nsc.getColorSpace(),components,0f);

System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());

break;

default:

System.out.println(this.getGraphicsState().getNonStrokeJavaComposite().toString());

System.out.println(this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB());

}

我正在使用上面的代码。得到的值是r = 0,g = 0,b = 0,内部cosp对象值为[0.0],内部pd对象数组= null,而colorSpace =

null。并且RGB值始终为-16777216。请帮我。提前致谢。

回答:

我尝试了您发布的链接中的代码,它对我有用。我得到的颜色是148.92、179.0010.1和214.965。我希望我可以给您我的PDF,如果我可以将其存储在SO外部呢?我的PDF使用了一种淡蓝色,看起来很匹配。它只是在Word

2010中创建并导出的文本的一页,没有什么太紧张了。

一些建议....

  1. 回想一下,返回的值是一个介于0和1之间的浮点数。如果一个值被意外地转换为int,那么这些值当然最终将包含几乎所有的0。链接到代码的255倍数得到0到25​​5的范围。 。
  2. 正如评论者所说,PDF文件最常见的颜色是黑色,即0 0 0

这就是我现在能想到的,否则我将拥有pdfbox和fontbox的1.7.1版本,就像我说的那样,我几乎遵循了您提供的链接。

根据我的评论,这也许是针对pdf文件的微创方法,例如color.pdf

PDFStreamEngine.javaprocessOperator方法可以try块内做

if (operation.equals("RG")) {

// stroking color space

System.out.println(operation);

System.out.println(arguments);

} else if (operation.equals("rg")) {

// non-stroking color space

System.out.println(operation);

System.out.println(arguments);

} else if (operation.equals("BT")) {

System.out.println(operation);

} else if (operation.equals("ET")) {

System.out.println(operation);

}

这将向您显示信息,然后由您根据需要处理每个部分的颜色信息。这是在color.pdf…上运行时上述代码的输出开头的摘录

BT rG [COSInt(1), COSInt(0), CosInt(0)] RG [COSInt(1), COSInt(0), CosInt(0)]

ET BT ET BT rG [COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}] RG

[COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}] ET ......

您会在上面的输出中看到一个空的BT ET部分,该部分标记为DEVICEGRAY。其他所有参数都为您提供R,G和B分量的[0,1]值

以上是 如何使用pdfbox获得字体颜色 的全部内容, 来源链接: utcz.com/qa/422654.html

回到顶部