PostgreSQL FTS - Tipps und Tricks: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Stefan (Diskussion | Beiträge) |
Stefan (Diskussion | Beiträge) KKeine Bearbeitungszusammenfassung |
||
| Zeile 29: | Zeile 29: | ||
* DBPedia: http://dbpedia.org/About | * DBPedia: http://dbpedia.org/About | ||
* And...: Stackoverflow, Shakespeare, Library of US Congress? | * And...: Stackoverflow, Shakespeare, Library of US Congress? | ||
== Tipps / FAQ == | |||
"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [http://blog.2ndquadrant.com/text-search-strategies-in-postgresql/?utm_source=rss&utm_medium=rss&utm_campaign=text-search-strategies-in-postgresql] => is this statement correct? | |||
== Einlesen von externen Dateien/Verzeichnissen == | == Einlesen von externen Dateien/Verzeichnissen == | ||
Version vom 27. August 2013, 10:47 Uhr
Siehe auch:
Allgemeines
Zur Konfiguration von Full Text Search (FTS).
Wenn man...
- (allgemeine) englische Texte durchsuchen will, muss man nichts umkonfigurieren (ausser den Index).
- fachspezifische Texte hat, dann ist ein sep. Thesaurus zu konfigurieren (.syn + .thes laden).
- (allgemeine) deutsche Texte hat, dann kann man für's Erste den Stemmer umkonfigurieren (plus Index).
- ...
Die effiziente Textsuche kann verschiedene Ziele verfolgen:
- Suche in deutschen (ev. auch gemischten de+en Dokumenten) allgemein.
- Suche in fach- oder branchen-spezifische Texten.
- Exakte Suche oder unscharfe Suche.
Als unscharfe Suche kommen in PG in Frage:
- soundex, metaphone, dmetaphone (built-in Fn.) und Levenshtein (Modul fuzzystrmatch).
- Trigramm (zusammen mit dem speziellen GiST/kNN-Index).
Datenquellen für Dictionaries
Freie Text-Corpora (Corpus):
- Wikipedia/Wikinews: http://en.wikipedia.org/wiki/Wikipedia:Database_download and http://dumps.wikimedia.org/
- Project Gutenberg: http://www.gutenberg.org/
- DBPedia: http://dbpedia.org/About
- And...: Stackoverflow, Shakespeare, Library of US Congress?
Tipps / FAQ
"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [1] => is this statement correct?
Einlesen von externen Dateien/Verzeichnissen
tbd.
Konvertieren von Wikipedia/Wikinews nach SQL Dump
tbd.
Performance-Benchmark
tbd.