BUG: Prevent recursive loop in some PDF files (#2505)

Closes #2474. Analysis in #2477.
py-pdf · Mar 16, 2024 · 5a4c35e · 5a4c35e
1 parent 8ef399a
commit 5a4c35e
Showing 1 changed file with 14 additions and 2 deletions.
diff --git a/pypdf/_writer.py b/pypdf/_writer.py
@@ -1923,7 +1923,14 @@ def clean_forms(
             elt: DictionaryObject, stack: List[DictionaryObject]
         ) -> Tuple[List[str], List[str]]:
             nonlocal to_delete
-            if elt in stack:
+            # elt in recursive call is a new ContentStream object, so we have to check the indirect_reference
+            if (elt in stack) or (
+                hasattr(elt, "indirect_reference")
+                and any(
+                    elt.indirect_reference == getattr(x, "indirect_reference", -1)
+                    for x in stack
+                )
+            ):
                 # to prevent infinite looping
                 return [], []  # pragma: no cover
             try:
@@ -1958,7 +1965,12 @@ def clean_forms(
                                     if k1 not in ["/Length", "/Filter", "/DecodeParms"]
                                 }
                             )
-                        clean_forms(content, stack + [elt])  # clean sub forms
+                            try:
+                                content.indirect_reference = o.indirect_reference
+                            except AttributeError:  # pragma: no cover
+                                pass
+                        stack.append(elt)
+                        clean_forms(content, stack)  # clean subforms
                     if content is not None:
                         if isinstance(v, IndirectObject):
                             self._objects[v.idnum - 1] = content