adding auto langdetect and cleaning up keywords extracted by yake #107

ahmednasserswe · 2024-08-18T16:07:04Z

Description

applying the following to improve yake keywords extraction

1- Replace ’ with ' and similar for other characters

2- Keep the longest keyword of if there is an overlap between two keywords. (“good” and “good morning” keep “good morning”)

3- If language is not specified or is “auto” perform language detection with CLD

Reference: CV2-4909 (to provide additional context)

How has this been tested?

locally + already existing tests

DGaffney

Please write unit tests for keep_largest_overlapped_keywords.

computermacgyver · 2024-08-19T01:19:25Z

@ahmednasserswe Per the Jira ticket, let's use CLD - https://pypi.org/project/gcld3/ , which is a newer/better library than langdetect

lib/model/yake_keywords.py

skyemeedan

I think this would be easier to implement if there are tests added that cover the substitutions. And this will save lots of time later as we add more cases to substitute

At a higher level, do we know if the "sub keyword" examples we are seeing are coming from the same text (extracting both "Biden" and "Joe Biden") which hopefully will be well handled by this approach vs multiple texts (one article referring to "Biden" and another to "President Biden") which might need some other post-processing

…eywords`

lib/model/yake_keywords.py

adding auto langdetect and cleaning up keywords extracted by yake

cb0c5c1

ahmednasserswe requested review from DGaffney, computermacgyver and skyemeedan as code owners August 18, 2024 16:07

DGaffney requested changes Aug 18, 2024

View reviewed changes

computermacgyver requested changes Aug 19, 2024

View reviewed changes

lib/model/yake_keywords.py Outdated Show resolved Hide resolved

lib/model/yake_keywords.py Show resolved Hide resolved

lib/model/yake_keywords.py Outdated Show resolved Hide resolved

replace langdetect with cld3

6602091

computermacgyver reviewed Aug 20, 2024

View reviewed changes

lib/model/yake_keywords.py Outdated Show resolved Hide resolved

skyemeedan reviewed Aug 20, 2024

View reviewed changes

ahmednasserswe added 3 commits August 21, 2024 18:48

adding test_keep_largest_overlapped_keywords

255fe2d

adding more special characters to clean up for Yake

85b938e

Adding more tests to keywords_test in `test_keep_largest_overlapped_k…

794e41b

…eywords`

skyemeedan reviewed Aug 21, 2024

View reviewed changes

lib/model/yake_keywords.py Show resolved Hide resolved

add 'test_normalize_special_characters'

1762b68

skyemeedan self-requested a review August 22, 2024 16:50

skyemeedan approved these changes Aug 22, 2024

View reviewed changes

computermacgyver reviewed Aug 23, 2024

View reviewed changes

lib/model/yake_keywords.py Outdated Show resolved Hide resolved

lib/model/yake_keywords.py Show resolved Hide resolved

lib/model/yake_keywords.py Show resolved Hide resolved

code styling

da294e1

ahmednasserswe requested a review from computermacgyver August 23, 2024 15:36

computermacgyver approved these changes Aug 23, 2024

View reviewed changes

DGaffney approved these changes Aug 23, 2024

View reviewed changes

ahmednasserswe merged commit 1517edf into master Aug 26, 2024
2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

adding auto langdetect and cleaning up keywords extracted by yake #107

adding auto langdetect and cleaning up keywords extracted by yake #107

ahmednasserswe commented Aug 18, 2024

DGaffney left a comment

computermacgyver commented Aug 19, 2024

skyemeedan left a comment

adding auto langdetect and cleaning up keywords extracted by yake #107

adding auto langdetect and cleaning up keywords extracted by yake #107

Conversation

ahmednasserswe commented Aug 18, 2024

Description

How has this been tested?

DGaffney left a comment

Choose a reason for hiding this comment

computermacgyver commented Aug 19, 2024

skyemeedan left a comment

Choose a reason for hiding this comment