feat: Add page metadata on PDFMinerLoader #12277

blue-hope · 2023-10-25T15:19:37Z

Description: Issue: PDFMinerLoader not gives page metadata when loading with extract_images=False - is it intended? #12273 's suggestion PR
Like other PDFLoader, loading pdf per each page and giving page metadata.
Issue: Issue: PDFMinerLoader not gives page metadata when loading with extract_images=False - is it intended? #12273
Twitter handle: @blue0_0hope

vercel · 2023-10-25T15:19:41Z

The latest updates on your projects. Learn more about Vercel for Git ↗︎

1 Ignored Deployment

Name	Status	Preview	Comments	Updated (UTC)
langchain	⬜️ Ignored (Inspect)	Visit Preview		Nov 1, 2023 2:20pm

hwchase17

can we add this is a toggle someone can set? defaulting to old behavior. that way it wont suddently change behavior on folks

eyurtsev · 2023-10-26T01:47:39Z

@blue-hope this looks good, but we'd want to add a parameter in the init controlled by end users to make sure that we can retain backwards compatibility for this parser

blue-hope · 2023-10-26T04:32:19Z

@hwchase17 @eyurtsev I added the feature flag load_per_pages (we can rename this parameter name) for backwards compatibility

libs/langchain/langchain/document_loaders/parsers/pdf.py

libs/langchain/tests/integration_tests/document_loaders/test_pdf.py

…df.py

eyurtsev

Should be good to merge after tests pass

- **Description:** langchain-ai#12273 's suggestion PR Like other PDFLoader, loading pdf per each page and giving page metadata. - **Issue:** langchain-ai#12273 - **Twitter handle:** @blue0_0hope --------- Co-authored-by: Eugene Yurtsev <eyurtsev@gmail.com>

feat: Add page metadata on PDFMinerLoader

620198d

dosubot bot added Ɑ: doc loader Related to document loader module (not documentation) 🤖:improvement Medium size change to existing code to handle new use-cases labels Oct 25, 2023

blue-hope mentioned this pull request Oct 25, 2023

Issue: PDFMinerLoader not gives page metadata when loading with extract_images=False - is it intended? #12273

Closed

fix: Fix lint

d5e91c7

blue-hope closed this Oct 25, 2023

blue-hope reopened this Oct 25, 2023

fix: Fix minor

55275d0

hwchase17 reviewed Oct 25, 2023

View reviewed changes

baskaryan assigned eyurtsev Oct 25, 2023

feat: Add feature flag load_per_pages

54fc084

blue-hope requested a review from hwchase17 October 26, 2023 12:18

Merge branch 'master' into master

71e0c86

vercel bot deployed to Preview October 28, 2023 09:17 View deployment

eyurtsev reviewed Oct 30, 2023

View reviewed changes

libs/langchain/langchain/document_loaders/parsers/pdf.py Outdated Show resolved Hide resolved

feat: Rename args name and add doc

2a6c469

blue-hope requested a review from eyurtsev October 31, 2023 08:46

eyurtsev reviewed Nov 1, 2023

View reviewed changes

libs/langchain/tests/integration_tests/document_loaders/test_pdf.py Outdated Show resolved Hide resolved

libs/langchain/tests/integration_tests/document_loaders/test_pdf.py Outdated Show resolved Hide resolved

eyurtsev added 2 commits November 1, 2023 10:19

Update libs/langchain/tests/integration_tests/document_loaders/test_p…

02e694f

…df.py

Update libs/langchain/tests/integration_tests/document_loaders/test_p…

fcc38a5

…df.py

eyurtsev approved these changes Nov 1, 2023

View reviewed changes

eyurtsev added the lgtm PR looks good. Use to confirm that a PR is ready for merging. label Nov 1, 2023

eyurtsev merged commit b1954aa into langchain-ai:master Nov 1, 2023
19 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: Add page metadata on PDFMinerLoader #12277

feat: Add page metadata on PDFMinerLoader #12277

blue-hope commented Oct 25, 2023

vercel bot commented Oct 25, 2023 •

edited

Loading

hwchase17 left a comment

eyurtsev commented Oct 26, 2023

blue-hope commented Oct 26, 2023 •

edited

Loading

eyurtsev left a comment

feat: Add page metadata on PDFMinerLoader #12277

feat: Add page metadata on PDFMinerLoader #12277

Conversation

blue-hope commented Oct 25, 2023

vercel bot commented Oct 25, 2023 • edited Loading

hwchase17 left a comment

Choose a reason for hiding this comment

eyurtsev commented Oct 26, 2023

blue-hope commented Oct 26, 2023 • edited Loading

eyurtsev left a comment

Choose a reason for hiding this comment

vercel bot commented Oct 25, 2023 •

edited

Loading

blue-hope commented Oct 26, 2023 •

edited

Loading