跳到主要內容

Sphinx 3 設定

Sphinx是歷史悠久的php全文搜尋引擎,最近把舊的系統換成Sphinx,隨便記一點東西,以防忘記。


1.安裝及相關說明

參考 https://blog.csdn.net/XBODHX/article/details/107378182

mysql的設定方式,上面網站說得很詳細了。

改路徑及DB設定即可。


2.XML資料源

要在Sphinx使用XML當作資料,要先把XML按照下面格式整理

http://sphinxsearch.com/docs/current/xmlpipe2.html

sphinx.conf設定如下

source (索引名稱)

{

    type  = xmlpipe2

    xmlpipe_command = cat (xml檔案所在路徑)

    xmlpipe_field = (subject)

    xmlpipe_field = (content 預設是這兩個文字欄位,可以按XML內容修改)

    xmlpipe_attr_uint = (要另外存的欄位,限數字)

    xmlpipe_fixup_utf8 = 1

}

index (自訂索引名稱,跟上面的不一樣)

{

    source = (索引名稱)

    path = (索引檔路徑)

    mlock = 0

    morphology = none

    min_word_len = 1

    ngram_len = 1(是否分詞,1是,0否)

    ngram_chars = (分詞的字碼,ngram_len = 0的話無用)

    html_strip = 0(是否刪除html tags,0不刪,1刪除)

}

其餘的跟mysql一樣,要注意windows底下可能沒有「cat」可以用(在xmlpipe_command 那邊),把cat改成type即可。


3.searchd 設定

如果設定的sphinx.conf有改名,或者indexer的參數不是sphinx.conf的話,searchd要加上conf檔的參數,例如

searchd -c xxx.conf


留言

這個網誌中的熱門文章

2017宮崎鹿兒島(二)高千穗町內交通

進入高千穗景點之前,必須再提一下高千穗內的交通情況, 1.步行 請看下圖: 以「巴士中心」為基準,藍色的「高千穗鐵道」「高千穗神社」「高千穗峽」是一小時內可以走得到的景點,紅色是千萬不要走也走不到的景點,白色箭頭是地勢高低,「高千穗神社」到「高千穗峽」是很陡的下坡,去程很輕鬆,回程會很辛苦。 「天岩戶神社」「天安河原」之間走路可到,但從千萬不要想從「巴士中心」走到「天岩戶神社」,一望無際的梯田,會走到你懷疑人生的價值(笑),兩邊只能搭公車或計程車。 「國見之丘」不管從哪裡都沒有大眾交通工具,只能搭計程車。 2.計程車 高千穗巴士中心旁就是計程車中心,有非常清楚的價目表、所需時間等等資訊,假如是平日而且有三四個人的話,計程車絕對是最好的選擇。價目表如下: 3.巴士 高千穗的巴士有兩種,但班次都很少: a.平日有的 ふれあいバス http://www.town-takachiho.jp/industry/bus/entry090908332.html b.只有週末跟國定假日開的 回遊バス http://www.miyakoh.co.jp/bus/rosen/takachiho_kaiyuu.html 普通只有「天岩戶神社-巴士中心」,「高千穗峽-巴士中心」兩種路線會需要搭巴士,兩種巴士的站名不太一致,簡易說明如下: 「天岩戶神社-巴士中心」: 「ふれあいバス」的「宮交バスセンター」到「岩戶」,「回遊バス」的「高千穂バスセンター」到「天岩戸神社」 「高千穗峽-巴士中心」: 「ふれあいバス」在高千穗峽沒有站牌,「回遊バス」的「高千穂バスセンター」到「高千穂峡」。 非常強烈建議要去高千穗玩的遊客,盡量選擇週末假日前往,巴士班次多很多,也比較可能「宮崎-高千穗」一日遊,如果一定要平日去的話,計程車大概是唯一的選擇了。

主機標頭注入的測試與應對

最近處理「主機標頭注入」弱點,花了很大力氣,總算告一段落,把相關資料筆記起來。 1.主機標頭注入是啥 弱點掃描的描述永遠是上個世紀的翻譯軟體做的,有時候寧願顯示英文orz 簡單的說就是在開啟網頁時,另外輸入header資訊,導致網站發生錯誤。 2.如何測試主機標頭注入 以PHP來說,$_SERVER['HTTP_HOST']可以取得host資料,範例如下 執行起來會是下面狀況 會把IP或網址印出來,主機標頭注入就是把HOST改掉,測試方式要使用curl。 windows版請到這裡下載:https://curl.se/download.html 下載後解壓縮,進入curl.exe所在的資料夾,開啟終端機,輸入下面指令 塗掉的地方就是網站的IP或網址,這時候可以發現$_SERVER['HTTP_HOST']的資訊被改掉了,印出的是輸入的測試資料「www.123.com」。 3.如何防範主機標頭注入 這個問題在網路上找了很久,各家方法都有,但最簡單的是改.htaccess檔,加入這幾行: RewriteEngine On  RewriteCond %{HTTP_HOST} !^ 網址或IP [NC] RewriteCond %{REQUEST_URI} !^/error [NC] RewriteRule ^.(.*) - [L,F] 這時再用curl測試,跑出來的就是403了,解決。

河口湖的富士山遐想(下)

大池 第三天離開甲府前往河口湖,這趟旅程才算正式開始吧,只是一大早就開始下雨,一整天都陰陰的,河口湖的氣溫也很低,即使是五月中也只有10幾度,好險我們連著兩夜都住河口湖,就是賭總不會連著都下雨。 第一天的旅館是「大池」,那時候剛整修完重新開放,設備都很新,但似乎連人都很新...... https://www.ooike-hotel.co.jp/ 這間的露天溫泉看不到富士山,室內湯可以,但天氣太糟,什麼都看不到。 房間實景,天氣好時窗戶外就可以看到富士山。 窗外的景色,中間右邊可以看到一點點富士山的底部 隔天終於等來了晴天,一大早從窗外就能看到富士山,心情愉快。 旅館旁有個小池塘,從池塘邊看到的富士山更有另一種風情。 芝櫻季 芝櫻其實跟櫻花沒關係,只是也有粉紅、白色等各種顏色,開花期間又與櫻花相近,而且是草本,好種又不受氣候影響,還容易拼各種圖案,遂成了櫻花季期間最受歡迎的展覽用花了。日本到處都有芝櫻季,河口湖也不例外。只是展覽地點非常偏遠,要從河口湖站搭快一小時的車,好險有車票加門票的優惠卷。不過老實說,這種展覽去過就好了,展場跟人潮都沒什麼好回味的。 特地拍一張旗幟做紀念。 門票加車票的套票,好像有便宜數百日圓的樣子。 會場風景隨手拍。 會場中到處都是這種花毯。 富士山造景。 中間的就是富士山,可惜雲多看不到。 音樂盒之森 來這裡可說是個美麗的錯誤,從芝櫻會場回到河口湖後,我們便移動到第二天的住宿地點,但時間太早了,還不能入住,只好隨便在週邊逛逛,看到地圖不遠處有這個景點,便信步前往,豈料中間的路基本上是給車走不是給人走的,而且非常遠...。好在歐洲風的造景做得很用心,音樂盒的表演及介紹也很到位,是相當值得一逛的地方。 音樂盒之森的招牌。 園區中的歐洲造景 來到音樂盒之森當然要看音樂盒,這裡有日本最大的表演型音樂盒,就是會利用各種娃娃演奏出音樂的那種,規模有一整面牆那麼大。 另外也有使用音樂盒當伴奏的真人表演,這些音樂盒都是古董了,現在沒人在做了。 整個園區說大不大,但規劃得很好,走完一圈看完兩個表演,也差不多要前往住宿點了。 富士吟景 河口湖第二的住宿地是富士吟景。河口湖大致分成南北兩區,第一天住的是南區,離湖邊較遠,住宿選擇多而且也比較平價。第二天住北區,幾乎都是沿著湖邊建的,價格自然也高了許多,富士吟景算是其中CP值不錯的飯店了。 http://www.fu...