Not logged in. · Lost password · Register
Forum: Non-English Discussion Russian discussion RSS
sphinx, indexer, trouble
PHP Warning:  parse_url(http:///./): Unable to parse url in /var/www/html/twiki/inc/mail.php on line 47
Avatar
securityrussia #1
Member since Mar 2011 · 6 posts
Group memberships: Members
Show profile · Link to this post
Subject: sphinx, indexer, trouble
# /usr/local/bin/indexer --config /var/www/html/twiki/lib/plugins/sphinxsearch/sphinx.conf dk_main
Sphinx 0.9.9-release (r2117)
Copyright (c) 2001-2009, Andrew Aksyonoff

using config file '/var/www/html/twiki/lib/plugins/sphinxsearch/sphinx.conf'...
indexing index 'dk_main'...
PHP Warning:  parse_url(http:///./): Unable to parse url in /var/www/html/twiki/inc/mail.php on line 47
collected 0 docs, 0.0 MB
total 0 docs, 0 bytes
total 0.001 sec, 0 bytes/sec, 0.00 docs/sec
total 0 reads, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
total 4 writes, 0.000 sec, 0.7 kb/call avg, 0.0 msec/call avg

Пробовал ставить sphinx из репозиториев Centos. Результат тот же.
Права на все директории из конфигов sphinx выставлены в 777.
Если убрать файл /var/www/html/twiki/inc/mail.php например в ~/ ,
то выдает такое же предупреждение уже к другому файлу.
Из чего сделан вывод, что процесс индексации прекращается после этого варнинга.
С чего начать ?
Avatar
vorozhko #2
Member since Mar 2011 · 4 posts
Group memberships: Members
Show profile · Link to this post
The problem not in the sphinx.
You need to setup DOKU_URL in the conf/dokuwiki.php.
Add following line at the top of the file :
define('DOKU_URL', 'http://your-host.com');

Or

You can disable error reporting to avoid PHP Warning message during sphinx indexsation.
open sphinx.conf and add following line at the top of the file:
error_reporting(0);

Don't hesitate to ask any questions.
--
Thank You!
Yaroslav Vorozhko
http://ivinco.com
Avatar
securityrussia #3
Member since Mar 2011 · 6 posts
Group memberships: Members
Show profile · Link to this post
Действительно, после установки переменных basedir и baseurl предупреждение исчезло.

До сих пор не получается указать indexer каталоги, в которых находятся индексируемые документы.

Правильно ли я понял, что простой текстовый файл без каких-либо тегов проиндексировать не получится.
Предварительно его нужно привести к стандарту xml, описываемому в пунктах 3.8, 3.9
на странице http://sphinxsearch.com/docs/manual-0.9.9.html#xmlpipe ?
Avatar
vorozhko #4
Member since Mar 2011 · 4 posts
Group memberships: Members
Show profile · Link to this post
Да, надо перевести в формат xmlpipe2.
файл xmlall.php в репозитроии плагина как раз это и делает.
Попробуй запустить его:
php xmlall.php > dw.xml
Avatar
securityrussia #5
Member since Mar 2011 · 6 posts
Group memberships: Members
Show profile · Link to this post
Получилось.
Индексация, поиск, все работает.
Стал ставить на другую машину и вот снова опять эта проблема:
# indexer -c sphinx.conf dk_main
Sphinx 1.10-id64-beta (r2420)
Copyright (c) 2001-2010, Andrew Aksyonoff
Copyright (c) 2008-2010, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file 'sphinx.conf'...
indexing index 'dk_main'...
collected 0 docs, 0.0 MB
total 0 docs, 0 bytes
total 0.003 sec, 0 bytes/sec, 0.00 docs/sec
total 1 reads, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
total 5 writes, 0.000 sec, 0.5 kb/call avg, 0.0 msec/call avg

Может есть какие-то требования к файлам в ' ../../../data/pages/ ' ?
Avatar
vorozhko #6
Member since Mar 2011 · 4 posts
Group memberships: Members
Show profile · Link to this post
Сгенерируй xml файл и посмотри есть ли в нем что нибудь.

Из твоего сообщения видно, что в wiki ни одного документа.

Если ничего не выйдет попробуй в xmlall.php установить error_reporting(E_ALL);
Avatar
securityrussia #7
Member since Mar 2011 · 6 posts
Group memberships: Members
Show profile · Link to this post
Сгенерировал xml-файл. В нем пусто.
Перенес /var/www/html/wiki с машины, на которой заработало (PC1).
Теперь и на второй тачке (PC2) тоже индексация работает.
К сожалению проделал это до того как прочел:
Если ничего не выйдет попробуй в xmlall.php установить error_reporting(E_ALL);
Хотя конечно видел эту строку в исходниках, но почему-то не поигрался с ней.
Сейчас отчет об ошибках включен, но в выводе indexer ошибок не обнаружено.

[root@centos54 sphinxsearch]# indexer -c sphinx.conf dk_main --rotate
Sphinx 1.10-id64-beta (r2420)
Copyright (c) 2001-2010, Andrew Aksyonoff
Copyright (c) 2008-2010, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file 'sphinx.conf'...
indexing index 'dk_main'...
WARNING: min_infix_len = 0. infix_fields are ignored
collected 43 docs, 0.1 MB
sorted 0.0 Mhits, 100.0% done
total 43 docs, 60236 bytes
total 0.822 sec, 73235 bytes/sec, 52.27 docs/sec
total 3 reads, 0.000 sec, 97.1 kb/call avg, 0.0 msec/call avg
total 9 writes, 0.001 sec, 67.9 kb/call avg, 0.1 msec/call avg
rotating indices: succesfully sent SIGHUP to searchd (pid=26948).
[root@centos54 sphinxsearch]#

Не понятно только откуда взялось 43 документа. Потому что всего файлов в data/pages - 18:
[root@centos54 sphinxsearch]# find /var/www/html/wiki/data/pages/* -type f | wc -l
18
Подумал, что может доки из предыдущего индекса, или типо того. Очистил data/sphinxsearch. Результат тот же - 43 документа.
Сейчас индексация работает. Поиск тоже.
Конечно было бы не плохо найти причину ошибки, но я закономерности еще не увидел.

[root@centos54 pages]# pwd                                                                                                                                                      
/var/www/html/wiki/data/pages                                                                                                                                                   
[root@centos54 pages]# file *                                                                                                                                                   
ehxo.txt:   UTF-8 Unicode text
hello.txt:  ASCII text, with no line terminators
page10.txt: UTF-8 Unicode text, with very long lines
page11.txt: UTF-8 Unicode text, with very long lines
page12.txt: UTF-8 Unicode text, with very long lines
page1.txt:  UTF-8 Unicode text, with very long lines
page2.txt:  UTF-8 Unicode text, with very long lines
page3.txt:  UTF-8 Unicode text, with very long lines
page4.txt:  UTF-8 Unicode text, with very long lines
page5.txt:  UTF-8 Unicode text, with very long lines
page6.txt:  UTF-8 Unicode text, with very long lines
page7.txt:  UTF-8 Unicode text, with very long lines
page8.txt:  UTF-8 Unicode text, with very long lines
page9.txt:  UTF-8 Unicode text, with very long lines
playground: directory
start.txt:  UTF-8 Unicode text, with no line terminators
wiki:       directory
[root@centos54 pages]#

Немного съехала разметка. Первая команда была pwd, вторая - 'file *'
Поиск работает среди всех файлов.
Текст в файлах есть и русский и английский.
Avatar
securityrussia #8
Member since Mar 2011 · 6 posts
Group memberships: Members
Show profile · Link to this post
В принципе можно проанализировать dw.xml

[root@centos54 sphinxsearch]# php xmlall.php > dw.xml
[root@centos54 sphinxsearch]# grep 'document id' dw.xml | wc -l
43

Avatar
vorozhko #9
Member since Mar 2011 · 4 posts
Group memberships: Members
Show profile · Link to this post
In reply to post #7
Для плагина каждая секция документа wiki это отдельный документ. Поэтому число проиндексированных документов больше чем всего документов.
Для ясности: документ wiki делится на секции по заголовкам h1,h2,h3,h4.
Close Smaller – Larger + Reply to this post:
Verification code: VeriCode Please enter the word from the image into the text field below. (Type the letters only, lower case is okay.)
Smileys: :-) ;-) :-D :-p :blush: :cool: :rolleyes: :huh: :-/ <_< :-( :'( :#: :scared: 8-( :nuts: :-O
Special characters:
Go to forum
Imprint
This board is powered by the Unclassified NewsBoard software, 20150713-dev, © 2003-2015 by Yves Goergen
Current time: 2020-01-27, 19:33:16 (UTC +01:00)