Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

shabdArtha_kaustubha: Improving syntax uniformity for easy parsing #1

Open
sumanthegde opened this issue Jul 10, 2023 · 1 comment
Open

Comments

@sumanthegde
Copy link
Owner

A closer look at the shabdArtha_kaustubha.babylon reveals a pattern: For every word, for every meaning of it, the पदविभागः tag shows up mandatorily, and other optional tags (like कन्नडार्थः, निष्पत्तिः etc) follow. Also, for every meaning, the word itself is first repeated, with a <br><br> delimiter. Example: the word अंश has 3 meanings (Inserting newlines for now, for readability):

अंश<br><br><b>पदविभागः - </b>पुल्लिङ्गः<br><b>कन्नडार्थः - </b>ವಿಭಾಗ / ಪಾಲು<br><b>निष्पत्तिघञ्” (३-३-१९) ।<br><b>व्युत्पत्तिः - </b>अंश्यते-अंश (विभाजने)<br><br>
अंश<br><br><b>पदविभागः - </b>पुल्लिङ्गः<br><b>कन्नडार्थः - </b>ಒಂದು b>प्रयोगाः - </षष्ठांशवृतेरपि धर्म एष|<br><b>उल्लेखाः - </b>शाकुं ५-४ ।<br><b>विस्तारः -अंशो विभाजने प्रोक्त एकदेशेऽपि व- हेम० ।<br><br>
अंश<br><br><b>पदविभागः - </b>पुल्लिङ्गः<br><b>कन्नडार्थः - </b>ಅವಯವ / ಶರೀರದ ಒಂದು ಭಾಗ.<br><b>“अंशस्त्ववयवो भागं एकदेश- वैज० ।<br><br>

Most entries follow this pattern. Hence it'd be a good idea to enforce it as a rule over those that don't as well. This would make automated parsing easier. Thus, we get:

Before:

कमलिनी<br><br><b>पदविभागः - </b>स्त्रीलिङ्गः<br><b>कन्नडार्थः - </b>ಕಮಲಲತೆ ಯತಾವರೆಯ ಬಳ್ಳಿ<br><b>निष्पत्तिः - </b>"इनिः" (५-२-११५) । "ङीप्" (४-१-५)<br><b>व्युत्पत्तिः - </b>कमलान्यस्याः सन्ति<br><b>प्रयोगाः - </b>"विरहतप्ततदङ्गनिवेशिता कमलिनी निमिषद्दलमुष्टिभिः"<br><b>उल्लेखाः - </b>नैष० ४-३२<br><br>
कमलिनी<br><br><b>पदविभागः - </b>स्त्रीलिङ्गः<br><b>कन्नडार्थः - </b>ಕಮಲಗಳಿಂದ ಕೂಡಿದ ಸರೋವರ ಯಕೊಳ<br><br>
<b>कन्नडार्थः - </b>ಕಮಲಗಳಿಂದ ಕೂಡಿದ ಪ್ರದೇಶ<br><b>निष्पत्तिः - </b>"इनिः" (५-२-१३५)<br><b>व्युत्पत्तिः - </b>कमलान्यत्र देशे सन्ति<br><br>

After:

कमलिनी<br><br><b>पदविभागः - </b>स्त्रीलिङ्गः<br><b>कन्नडार्थः - </b>ಕಮಲಲತೆ ಯತಾವರೆಯ ಬಳ್ಳಿ<br><b>निष्पत्तिः - </b>"इनिः" (५-२-११५) । "ङीप्" (४-१-५)<br><b>व्युत्पत्तिः - </b>कमलान्यस्याः सन्ति<br><b>प्रयोगाः - </b>"विरहतप्ततदङ्गनिवेशिता कमलिनी निमिषद्दलमुष्टिभिः"<br><b>उल्लेखाः - </b>नैष० ४-३२<br><br>
कमलिनी<br><br><b>पदविभागः - </b>स्त्रीलिङ्गः<br><b>कन्नडार्थः - </b>ಕಮಲಗಳಿಂದ ಕೂಡಿದ ಸರೋವರ -ಕೊಳ<br><br>
कमलिनी<br><br><b>पदविभागः - </b>स्त्रीलिङ्गः<br><b>कन्नडार्थः - </b>ಕಮಲಗಳಿಂದ ಕೂಡಿದ ಪ್ರದೇಶ<br><b>निष्पत्तिः - </b>"इनिः" (५-२-१३५)<br><b>व्युत्पत्तिः - </b>कमलान्यत्र देशे सन्ति<br><br>
@sumanthegde
Copy link
Owner Author

sumanthegde commented Jul 10, 2023

This, together with typo-fixing, and also standardizing* the पदविभाग tag, has been already addressed in the first commit of this forked branch.

*By standardizing, we mean पदविभाग is ensured to be one of these:
"अव्ययम्",
"क्रियाविशेषणम्",
"त्रिलिङ्गः",
"धातुः",
"नपुंसकलिङ्गः",
"नामपदम्",
"पुल्लिङ्गः",
"पुल्लिङ्गः / नपुंसकलिङ्गः",
"पुल्लिङ्गः / स्त्रीलिङ्गः",
"विशेष्यनिघ्नम्",
"स्त्रीलिङ्गः",
"स्त्रीलिङ्गः / नपुंसकलिङ्गः"

Hesitating to pull-request due to having addressed multiple issues in one commit :(

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant