How to prepare a dataset to train "Quality Scorer" classifier? #449

kdcyberdude · 2024-03-09T20:07:28Z

kdcyberdude
Mar 9, 2024

I want to know the implementation details of the "Quality Scorer" and "Document Coherence Scorer" filters.

renxiaoyi · 2024-03-11T03:29:17Z

renxiaoyi
Mar 11, 2024
Collaborator

Basically, "Quality Scorer" is a fasttext classifier that was trained to assign high scores to pages that are similar to "high quality" content like Wikipedia pages and books. "Document Coherence Scorer" is a scorer to assign high scores to pages where paragraphs are more "consistent", bases on their embedding cosine similarity.

1 reply

kdcyberdude Mar 11, 2024
Author

Hi @renxiaoyi, Did you guys use LLM to generate the dataset, or was it manually created? Alternatively, is there any available dataset for the classifier?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How to prepare a dataset to train "Quality Scorer" classifier? #449

{{title}}

Replies: 1 comment 1 reply

{{title}}

{{title}}

Select a reply

How to prepare a dataset to train "Quality Scorer" classifier? #449

kdcyberdude Mar 9, 2024

Replies: 1 comment · 1 reply

renxiaoyi Mar 11, 2024 Collaborator

kdcyberdude Mar 11, 2024 Author

kdcyberdude
Mar 9, 2024

Replies: 1 comment 1 reply

renxiaoyi
Mar 11, 2024
Collaborator

kdcyberdude Mar 11, 2024
Author