Update Tokenizer info inREADME.md (#184)

fmi · Dec 14, 2024 · f65ec1b · f65ec1b
1 parent 3692648
commit f65ec1b
Showing 1 changed file with 12 additions and 1 deletion.
diff --git a/homeworks/02-goodreads/README.md b/homeworks/02-goodreads/README.md
@@ -134,7 +134,18 @@ public interface SimilarityCalculator {
 
 Частичната имплементация на гореспоменатите класове за калкулиране ще намерите [тук](./resources).
 
-3. **Book Finder API**
+3. **Tokenizer**
+
+
+В пакета `bg.sofia.uni.fmi.mjt.goodreads.tokenizer` ще намерите частична имплементация на класа `Tokenizer`. Неговата идея е да извлича думи от подаден стринг като прилага "изчистване" на стринга и премахване на stopwords. Tokenizer класа има метод `List<String> tokenize(String input)`, чиято идея е да извлече всички думи от подадения `String`.
+
+За целта трябва първо да преханем всички препинателни знаци и последователности от повече от един `whitespace` и финално да превърнем резултата в `lowercase`. След това трябва да извлечете думитe и да премахнете тези от тях, които са stopwords.
+
+Полезни regex-и:
+ - препинателни знаци: `\\p{Punct}`
+ - whitespace: `\\s+`
+
+4. **Book Finder API**
 
 Интерфейс за търсене и филтриране на книги: