New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

SynonymV2GraphFilterFactory and NrtsearchSynonymParser #632

Merged

swethakann merged 3 commits into master from RP-10214_synonym_token_filter

Mar 20, 2024

Contributor

swethakann commented Mar 15, 2024

No description provided.


          SynonymV2GraphFilterFactory POC code

35bf0b4

aprudhomme reviewed

View reviewed changes

src/test/java/com/yelp/nrtsearch/server/luceneserver/analysis/NrtsearchSynonymParserTest.java Outdated

+                  assertAnalyzesTo(
+                      analyzer,
+                      "str",
+                      new String[] {"strada", "strasse", "straxdfe", "str"},

Contributor

aprudhomme Mar 15, 2024

I think something is not working right with string processing. \xDF should decode to a single character, not xdf.

src/main/java/com/yelp/nrtsearch/server/luceneserver/analysis/NrtsearchSynonymParser.java Outdated

+              class NrtsearchSynonymParser extends SynonymMap.Parser {
+                private final boolean expand;
+                private static final String SYNONYMS_SEPARATOR = "\\|";

Contributor

aprudhomme Mar 15, 2024

Can this separator be made configurable?


          Adding SynonymV2GraphFilterFactory and NrtsearchSynonymParser

5ec98ef

swethakann changed the title ~~SynonymV2GraphFilterFactory POC code~~ SynonymV2GraphFilterFactory and NrtsearchSynonymParser

swethakann marked this pull request as ready for review

March 19, 2024 16:02

swethakann requested a review from aprudhomme

March 19, 2024 16:38

aprudhomme reviewed

View reviewed changes

src/main/java/com/yelp/nrtsearch/server/luceneserver/analysis/SynonymV2GraphFilterFactory.java Outdated

Comment on lines 103 to 120

+                  Analyzer analyzer;
+                  String analyzerClassName = MessageFormat.format(LUCENE_ANALYZER_PATH, analyzerName);
+                  try {
+                    analyzer =
+                        (Analyzer)
+                            Analyzer.class
+                                .getClassLoader()
+                                .loadClass(analyzerClassName)
+                                .getDeclaredConstructor()
+                                .newInstance();
+                  } catch (InstantiationException
+                      | IllegalAccessException
+                      | NoSuchMethodException
+                      | ClassNotFoundException
+                      | InvocationTargetException e) {
+                    throw new RuntimeException(e);
+                  }
+                  return analyzer;

Contributor

aprudhomme Mar 19, 2024

This could be replaced with a call to https://github.com/Yelp/nrtsearch/blob/master/src/main/java/com/yelp/nrtsearch/server/luceneserver/analysis/AnalyzerCreator.java#L59

src/main/java/com/yelp/nrtsearch/server/luceneserver/analysis/SynonymV2GraphFilterFactory.java Outdated

Comment on lines 92 to 97

+                  if (parserFormat.equals("nrtsearch")) {
+                    parser = new NrtsearchSynonymParser(separatorPattern, true, expand, analyzer);
+                  } else {
+                    throw new IllegalArgumentException(
+                        "The parser format: " + parserFormat + " is not valid. It should be nrtsearch");
+                  }

Contributor

aprudhomme Mar 19, 2024

If this can only have one value, is it needed at all?

src/main/java/com/yelp/nrtsearch/server/luceneserver/analysis/SynonymV2GraphFilterFactory.java Outdated

+                /** SPI name */
+                public static final String NAME = "synonymV2";
+                public static final String MAPPINGS = "mappings";

Contributor

aprudhomme Mar 19, 2024

Could this be named synonyms for consistency

src/main/java/com/yelp/nrtsearch/server/luceneserver/analysis/SynonymV2GraphFilterFactory.java Outdated

Comment on lines 79 to 81

+                public TokenStream create(TokenStream input) {
+                  return new SynonymGraphFilter(input, synonymMap, ignoreCase);
+                }

Contributor

aprudhomme Mar 19, 2024

Looking at this method in SynonymGraphFilter, it should also handle the no synonyms case

src/main/java/com/yelp/nrtsearch/server/luceneserver/analysis/SynonymV2GraphFilterFactory.java

+              import org.apache.lucene.analysis.synonym.SynonymMap;
+              import org.apache.lucene.analysis.util.TokenFilterFactory;
+              public class SynonymV2GraphFilterFactory extends TokenFilterFactory {

Contributor

aprudhomme Mar 19, 2024

Could you add a class docstring outlining usage and configuration of this token filter. Also, add a reference in https://github.com/Yelp/nrtsearch/blob/master/docs/analysis.rst


          Use AnalyzerCreator and address other PR comments

395c4ae

swethakann requested a review from aprudhomme

March 20, 2024 18:42

aprudhomme approved these changes

View reviewed changes

swethakann merged commit 92a8b5b into master

2 checks passed

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet