PostgreSQL FTS - Tipps und Tricks: Unterschied zwischen den Versionen

Aus Geometa Lab OST
Zur Navigation springen Zur Suche springen
KKeine Bearbeitungszusammenfassung
KKeine Bearbeitungszusammenfassung
 
(7 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 2: Zeile 2:
* [[PostgreSQL]], [[PostgreSQL - Tipps und Tricks]]
* [[PostgreSQL]], [[PostgreSQL - Tipps und Tricks]]
* http://delicious.com/sfkeller/fulltext
* http://delicious.com/sfkeller/fulltext
* http://www.postgresql.org/docs/current/interactive/textsearch.html
* http://wiki.postgresql.org/wiki/PGCon2013_Unconference_Future_of_Full-Text_Search
* http://azakirov.blogspot.ch/2015/12/dictionaries-and-postgresql-fts.html


== Allgemeines ==
== Allgemeines ==
Zeile 22: Zeile 25:
* Trigramm (zusammen mit dem speziellen GiST/kNN-Index).
* Trigramm (zusammen mit dem speziellen GiST/kNN-Index).


== Dictionaries ==
== Datenquellen für Dictionaries ==
Freie Text-Corpora (Corpus):
Freie Text-Corpora (Corpus):
* Wikipedia/Wikinews: http://en.wikipedia.org/wiki/Wikipedia:Database_download and http://dumps.wikimedia.org/
* Wikipedia/Wikinews: http://en.wikipedia.org/wiki/Wikipedia:Database_download and http://dumps.wikimedia.org/
Zeile 29: Zeile 32:
* And...: Stackoverflow, Shakespeare, Library of US Congress?
* And...: Stackoverflow, Shakespeare, Library of US Congress?


== Tipps und Tricks ==
== Tipps / FAQ ==


=== Einlesen von externen Dateien ===
"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [http://blog.2ndquadrant.com/text-search-strategies-in-postgresql/?utm_source=rss&utm_medium=rss&utm_campaign=text-search-strategies-in-postgresql] => is this statement correct?
 
== Einlesen von externen Dateien/Verzeichnissen ==


tbd.
tbd.


=== Konvertieren von Wikipedia/Wikinews nach SQL Dump ===
== Konvertieren von Wikipedia/Wikinews nach SQL Dump ==


tbd.
tbd.


== Performance-Benchmark ==
tbd.


[[Kategorie:PostgreSQL]]
[[Kategorie:PostgreSQL]]

Aktuelle Version vom 7. Dezember 2015, 20:46 Uhr

Siehe auch:

Allgemeines

Zur Konfiguration von Full Text Search (FTS).

Wenn man...

  • (allgemeine) englische Texte durchsuchen will, muss man nichts umkonfigurieren (ausser den Index).
  • fachspezifische Texte hat, dann ist ein sep. Thesaurus zu konfigurieren (.syn + .thes laden).
  • (allgemeine) deutsche Texte hat, dann kann man für's Erste den Stemmer umkonfigurieren (plus Index).
  • ...

Die effiziente Textsuche kann verschiedene Ziele verfolgen:

  • Suche in deutschen (ev. auch gemischten de+en Dokumenten) allgemein.
  • Suche in fach- oder branchen-spezifische Texten.
  • Exakte Suche oder unscharfe Suche.

Als unscharfe Suche kommen in PG in Frage:

  • soundex, metaphone, dmetaphone (built-in Fn.) und Levenshtein (Modul fuzzystrmatch).
  • Trigramm (zusammen mit dem speziellen GiST/kNN-Index).

Datenquellen für Dictionaries

Freie Text-Corpora (Corpus):

Tipps / FAQ

"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [1] => is this statement correct?

Einlesen von externen Dateien/Verzeichnissen

tbd.

Konvertieren von Wikipedia/Wikinews nach SQL Dump

tbd.

Performance-Benchmark

tbd.