String-Similarity

This repository makes use of Jaccard similarity to eliminate extremely similar strings and acts as a second level of removing duplicates in a dataset.

A comparison between the two string similarity methods-Fuzzywuzzy and Jaccard Similarity has also been done. When tested on a large dataset,Jaccard similarity proved to be faster and more efficient when compared to the Fuzzywuzzy library.The notebook also contains a comparison of the two methods wrt time.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
Dataset		Dataset
FuzzyWuzzy x Jaccard Similarity-Comparison.ipynb		FuzzyWuzzy x Jaccard Similarity-Comparison.ipynb
Jaccard Similarity.ipynb		Jaccard Similarity.ipynb
LICENSE		LICENSE
README.md		README.md
output_id.xlsx		output_id.xlsx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

String-Similarity

About

Releases

Packages

Languages

License

ankithasudarshan/String-Similarity

Folders and files

Latest commit

History

Repository files navigation

String-Similarity

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages