רכיב לחיפוש עברי
פלאג-אין (Analyzer) המאפשר חיפוש מורפולוגי מלא בעברית, לשיפור דיוק התוצאות במנוע החיפוש הארגוני.
מהו רכיב לחיפוש עברי,
ולמה צריך אותו?
השפה העברית מציבה אתגרים משמעותיים למערכות תכנה שנדרשות לעיבוד טקסט, ובפועל היא אחת השפות המאתגרות ביותר, ולמנועי חיפוש בפרט. חיפוש מילה כמו "שולחן" לא ימצא "שולחנות", וחיפוש מילה כמו "בדיקה" לא ימצא "שהבדיקה".
כדי לאפשר שימוש במנועי חיפוש כמו Solr ו-Elasticsearch גם על טקסטים בעברית מבלי לפספס תוצאות רלוונטיות, נדרשת התערבות מיוחדת שתטפל באתגרים המורפולוגיים של השפה, כך שחיפוש "שולחן" יחזיר גם "שולחנות" וכן הלאה.
הרכיב הזה נקרא Analyzer והוא מאפשר שימוש בכלל תכונות מנוע החיפוש, גם בעברית. רכיב האנלייזר מטפל בכל מורכבויות השפה העברית, ומאפשר שימוש מלא במנועי חיפוש כמו Elasticsearch ו-Solr.
פתרון התכנה שלנו מבוסס מילון ואלגוריתמיקה מורכבת. שילוב זה מאפשר לנו להתמודד עם אתגרי השפה בצורה יעילה, מהירה, וללא פשרות ברלוונטיות התוצאות.
באמצעות חיבור למנוע החיפוש הארגוני, מכל סוג וכל גרסה וגם אם הוא בענן, הפלאגין שלנו מאפשר לכל ארגון לשפר את תוצאות החיפוש שלו ולהתגבר על אתגרי השפה.
צור קשר לקבלת גרסת נסיון
חיפוש מורפולוגי בעברית
תמיכה מלאה בכל תכונות השפה - רבים/רבות, יחיד רבים, שמות עצם, פעלים, תחליות וסופיות, חסירות ויתרות, ועוד. למרות מורכבות השפה, אנחנו גורמים לחיפוש בעברית לעבוד.
שמות עצם, פעלים, ראשי תיבות ועוד
זיהוי של כל המילים בשפה, בכל צורת כתיב, וחילוץ ה-Lemma הנכונה עבורן. מציאת הסיווג הנכון של המילה מאפשר לדרג תוצאות חיפוש בצורה מדויקת יותר, לפי שאילתת החיפוש.
כל צורות האיות וניקוד
יש מילים רבות בעלות מספר כתיבים אפשריים (אמא=אימא, למשל) ואנחנו יודעים לזהות את כולם בצורה נכונה, כך שחיפוש עבור אחת ימצא תוצאות שמכילות גם את הצורה האחרת. מטפלים כמובן גם בטקסטים מנוקדים.
מילים נרדפות
מילים זהות שנכתבות שונה (תורכיה=טורקיה, למשל) או מילים שונות בעלות משמעות זהה או דומה (מטוס=אווירון), כולן מטופלות בצורה נכונה על ידי המנוע. ניתן גם לערוך ולהוסיף מילים נרדפות שספציפיות לתחום מסוים, בקלות וללא עזרה שלנו.
ממשיכים להתפתח עם השפה
השפה מתפתחת ללא הפסקה וכך גם אנחנו. אנחנו מתחזקים את המוצר כך שיכיר מילים חדשות שמתווספות לשפה (ברוב המקרים - שמות, ולפעמים גם פעלים מיוחדים כמו "לסמס") כולל כל האיותים הנוספים האפשריים במידה וקיימים, כדי שנוכל לתמוך בכל טקסט מודרני.
אינטגרציה מלאה וטבעית
למנועי החיפוש הפופולריים
אם זה קיים במנוע החיפוש, זה נתמך
בזכות העובדה שרכיב החיפוש מתממשק בצורה טבעית עם דרך הפעולה של מנוע החיםוש, ללא התקנה נוספת או שימוש בשירות חיצוני נוסף, כל יכולות מנוע החיפוש נתמכות במלואן: Wildcard search, proximity and phrase searches, exact matches, Fuzzy search, did you mean, Autocomplete , results highlighting, ועוד.
אחזור אופטימלי ורלוונטיות מקסימלית
אנחנו בודקים את עצמנו בצורה שגרתית כדי לוודא שמנועי החיפוש שמתשמשים בפתרון שלנו אכן משפרים את הדיוק שלהם בתוצאות חיפוש בעברית. מערך בדיקות אוטומטי מוודא שגרסאות חדשות של המוצר בטוחות לשדרוג ואכן משפרות ביצועים.
נבנה ע"י מהנדסי תכנה עם נסיון במנועי חיפוש
צוות הפיתוח שלנו הם גם יועצים בתחום אחזור הנתונים ומנועי חיפוש כבר שנים רבות. פיתחנו את האנלייזר הזה במשך למעלה מ-10 שנים, תוך מימוש הנסיון הרב שלנו במנועי חיפוש ואחזור תוצאות רלוונטיות.
חיפוש ביטויים ומילים קרובות
תמיכה מלאה ב-Phrase Search (חיפוש ביטויים) וכמו כן בשאילתות מסוג Span המאפשרות חיפוש לפי קרבה וסדר מילים, וכמובן תמיכה מלאה ב-Slop.
הגדשת מילות החיפוש בתוצאות
המילים שנמצאו בתוצאות החיפוש יוחזרו מודגשות, תוך תמיכה מלאה בכל יכולות מנוע החיפוש בהדגשת התוצאות - גם אם המילים שנמצאו שונות באיות או מהוות מילה נרדפת.
השלמה אוטומטית
תמיכה מלאה ביכולות ההשלמה האוטומטית של מנוע החיפוש - Completion Suggester ועוד.
חיפוש fuzzy ו"האם התכוונת ל?"
חיפוש מילים דומות, ותמיכה ביכולות הצעה לתיקון (suggesters) נתמכים במלואן.
צור איתנו קשר לפרטים נוספים
נשמח להדגים כיצד הרכיב שלנו מאפשר חיפוש עברי עם רלוונטיות גבוהה, בכל מנוע חיפוש.