PostgreSQL FTS - Tipps und Tricks
Zur Navigation springen
Zur Suche springen
Siehe auch:
- PostgreSQL, PostgreSQL - Tipps und Tricks
- http://delicious.com/sfkeller/fulltext
- http://www.postgresql.org/docs/current/interactive/textsearch.html
- http://wiki.postgresql.org/wiki/PGCon2013_Unconference_Future_of_Full-Text_Search
- http://azakirov.blogspot.ch/2015/12/dictionaries-and-postgresql-fts.html
Allgemeines
Zur Konfiguration von Full Text Search (FTS).
Wenn man...
- (allgemeine) englische Texte durchsuchen will, muss man nichts umkonfigurieren (ausser den Index).
- fachspezifische Texte hat, dann ist ein sep. Thesaurus zu konfigurieren (.syn + .thes laden).
- (allgemeine) deutsche Texte hat, dann kann man für's Erste den Stemmer umkonfigurieren (plus Index).
- ...
Die effiziente Textsuche kann verschiedene Ziele verfolgen:
- Suche in deutschen (ev. auch gemischten de+en Dokumenten) allgemein.
- Suche in fach- oder branchen-spezifische Texten.
- Exakte Suche oder unscharfe Suche.
Als unscharfe Suche kommen in PG in Frage:
- soundex, metaphone, dmetaphone (built-in Fn.) und Levenshtein (Modul fuzzystrmatch).
- Trigramm (zusammen mit dem speziellen GiST/kNN-Index).
Datenquellen für Dictionaries
Freie Text-Corpora (Corpus):
- Wikipedia/Wikinews: http://en.wikipedia.org/wiki/Wikipedia:Database_download and http://dumps.wikimedia.org/
- Project Gutenberg: http://www.gutenberg.org/
- DBPedia: http://dbpedia.org/About
- And...: Stackoverflow, Shakespeare, Library of US Congress?
Tipps / FAQ
"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [1] => is this statement correct?
Einlesen von externen Dateien/Verzeichnissen
tbd.
Konvertieren von Wikipedia/Wikinews nach SQL Dump
tbd.
Performance-Benchmark
tbd.