ÂżPor quĂ© es difĂcil buscar documentos muy breves mediante la bĂșsqueda de texto completo normal y quĂ© hacer si desea hacerlo?
IntroducciĂłn
Todos nos enfrentamos constantemente a la llamada bĂșsqueda de texto completo: encontrar documentos mediante una frase de bĂșsqueda. El ejemplo mĂĄs famoso es la bĂșsqueda de Google.
. , , Elasticsearch. .
DD Planet B2B- Elasticsearch. ( ), .
, Elasticsearch, â , , . .
:
T0=" »",
T1=" ",
T2=" ",
:
"": {0, 1}
"": {0}
"": {1, 2}
"": {2}
â , . , . , , « ». «» {2}, «» â {0}. , . , {0, 2} c Âœ. , , TF-IDF, .
, , , -, :
- .
: « » « » « » , , « » « », « ». , .
. : , . , , TF-IDF, . - .
â , , « 4», «4», « », « 4» . .
â Elasticsearch . , , .
- .
, . , « » « Windows» «» .
NLP
NLP . NLP (Natural Language Processing) â , .
NLP - , - . , .
«»
NLP â Paraphrase Identification â (, ) , ( ). : « 17:00» « ». ? , .
. . DeepPavlov.ai [1], , . , .
. ( ), . .. -.
, DeepPavlov, â , .
,
, . ? , , Elasticsearch
: , . .
, : â ,
-
,d ( x , y ) = 0 .x = y -
d ( x , y ) = d ( y , x ) . - â
, , .d ( x , z ) †d ( x , y ) + d ( y , z ) .
? (Nearest neighbor search) â . vantage-point tree,
Vantage-point tree
, vantage-point tree [3]. ball-tree, . . , . (vantage-point) ( ).
, (
, K
K ,
â , . , , . cosine Doc2Vec â .
d ( x , y ) = f ( x , y ) + Δ â S D o c 2 V e c ( x â y )
Δ â .
. ? , , , float32. - .
x , , .y
d ( x , y ) = f ( x , y ) + f ( y , x )
. . ,d ( x , z ) †d ( x , y ) + d ( y , z )
x=" ", y=" ", z=" "
,
- . , Doc2Vec â .d ( x , z ) â„ d ( x , y ) + d ( y , z ) .
, , â , , . , : [2]. â , .
. ( ). , , ( ). , . «» .
( ), . .
. ? , . : , ? vantage-point tree , â vantage-point.
, [2], . , . .
« ». , . , .
. , . GitHub pip install nlp-text-search
.
[1] http://docs.deeppavlov.ai/en/master/.
[2] Yianilos (1993). Data structures and algorithms for nearest neighbor search in general metric spaces. Fourth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. pp. 311â321. pny93. http://web.cs.iastate.edu/~honavar/nndatastructures.pdf .