搭建属于自己的搜索引擎,searx搜索引擎配置
每次使用百度搜索,前面几条永远是广告,甚至还有“假官网”“假医院”,搞得每次都得甄别有没有带“广告”标,再点进去,所以有用的信息没找到,时间到是浪费了不少。所以我就想自己建个无广告、不追踪隐私的搜索引擎,当然重新开发是不可能的,所幸在github找到了个聚合搜索神器——SearX
Searx是一个免费的互联网元搜索引擎,汇集了70多种搜索服务的结果。 用户既不被跟踪也不被分析。 此外,searx可以在Tor上实现在线匿名搜索。
在线链接汇总 https://searx.space/
官方配置文档 https://searx.github.io/searx/admin/settings.html
官方文档 https://searx.github.io/searx/admin/
官网 https://searx.github.io/searx/index.html
官方看板 https://www.openhub.net/p/searx
官方开源地址 https://github.com/searx/searx
官方开源讨论 https://github.com/searx/searx/issues
官方百科 https://github.com/searx/searx/wiki
匿迹搜索开源文档 https://github.com/entropage/mijisou/tree/devel/searx/engines
秘迹搜索开源文档 https://github.com/entropage/mijisou
秘迹搜索 http://mijisou.com/
本地测试站点 http://192.168.1.194:8888/
如何自定义搜索引擎
1.在 engine 目录添加py文件,并编写 request(生成请求参数) 和 response(格式化返回结果) 方法,服务内置发送请求方法。集成各个搜索服务(例如 baidu google bind),模板如下:
https://www.jianshu.com/p/7ea4cf05e589 教程来自简书
categories = ['general'] # optional
def request(query, params):
'''pre-request callback
params<dict>:
method : POST/GET
headers : {}
data : {} # if method == POST
url : ''
category: 'search category'
pageno : 1 # number of the requested page
'''
params['url'] = 'https://host/%s' % query
return params
def response(resp):
'''post-response callback
resp: requests response object
'''
return [{'url': '', 'title': '', 'content': ''}]
2、在settings.yml 配置文件 添加 引擎配置
源码分析
1、多线程获取搜索结果
def search_multiple_requests(self, requests):
search_id = uuid4().__str__()
for engine_name, query, request_params in requests:
th = threading.Thread(
target=PROCESSORS[engine_name].search,
args=(query, request_params, self.result_container, self.start_time, self.actual_timeout, engine_name),
name=search_id,
)
th._timeout = False
th._engine_name = engine_name
th.start()
for th in threading.enumerate():
if th.name == search_id:
remaining_time = max(0.0, self.actual_timeout - (time() - self.start_time))
th.join(remaining_time)
if th.is_alive():
th._timeout = True
self.result_container.add_unresponsive_engine(th._engine_name, 'timeout')
logger.warning('engine timeout: {0}'.format(th._engine_name))
2、加载 搜索引擎
def load_engine(engine_data):
engine_name = engine_data['name']
if '_' in engine_name:
logger.error('Engine name contains underscore: "{}"'.format(engine_name))
sys.exit(1)
if engine_name.lower() != engine_name:
logger.warn('Engine name is not lowercase: "{}", converting to lowercase'.format(engine_name))
engine_name = engine_name.lower()
engine_data['name'] = engine_name
engine_module = engine_data['engine']
try:
# 加载 引擎
engine = load_module(engine_module + '.py', engine_dir)
except (SyntaxError, KeyboardInterrupt, SystemExit, SystemError, ImportError, RuntimeError):
logger.exception('Fatal exception in engine "{}"'.format(engine_module))
sys.exit(1)
except:
logger.exception('Cannot load engine "{}"'.format(engine_module))
return None
3、加载搜索引擎方法 load_module (插件的需求 借鉴)
def load_module(filename, module_dir):
modname = splitext(filename)[0]
if modname in sys.modules:
del sys.modules[modname]
filepath = join(module_dir, filename)
# and https://docs.python.org/3/library/importlib.html#importing-a-source-file-directly
spec = importlib.util.spec_from_file_location(modname, filepath)
module = importlib.util.module_from_spec(spec)
sys.modules[modname] = module
spec.loader.exec_module(module)
return module
4、值得借鉴的地方
引擎必须继承该类,实现 search方法。调用 搜索引擎 时用的就是search方法
class EngineProcessor(ABC):
@abstractmethod
def search(self, query, params, result_container, start_time, timeout_limit):
pass
start_new_thread(gc.collect, tuple()) 新增线程 垃圾回收 防止内存泄露
def search_standard(self):
"""
Update self.result_container, self.actual_timeout
"""
requests, self.actual_timeout = self._get_requests()
print(f"zsq 多线程 查询start {time()}")
# send all search-request
if requests:
self.search_multiple_requests(requests)
#开启一个新线程回收垃圾
start_new_thread(gc.collect, tuple())
print(f"多线程 查询end {time()}")
# return results, suggestions, answers and infoboxes
return True
第一次配置Searx 详细操作如下
下面是基于 Debian/Ubuntu 和 virtualenv 的安装指南,如果是 Ubuntu 请确认使用的是 universe 仓库。
配置好启动常用语句
sudo service nginx restart
sudo service uwsgi restart
cd /usr/local/searx
sudo python3 searx/webapp.py
Searx是个很好的搜索引擎,自己搭建一个,开始按着别人的步骤没搞好,因为忘记了配置防火墙。
项目地址:https://github.com/asciimoo/searx
(这里有相关说明)
安装环境:Ubuntu 16~19
先安装Git:apt install git
拉取源码:git clone https://github.com/asciimoo/searx.git
安装依赖:cd searx 进入安装目录
输入:./manage.sh update_packages
以上完成了就编辑配置文件:vi searx/settings.yml
(这3个地方注意修改下就行 :
port:为监听端口,默认8888,可自行修改。
bind_address:监听地址,默认为127.0.0.1,最好修改为0.0.0.0,外网好访问
secret_key:该参数为加密密匙,可自行设置,数值可以在ssh客户端使用openssl rand -hex 16命令生成。)
前面配置都简单,然后看你的系统有没有自带screen,没有就安装,ubuntu19是自己带了的
安装screen:apt isstall screen -y (有就略过,看系统反馈的信息)
这里就基本完成了,就可以运行了
运行searx:screen -dmS searx python searx/webapp.py
(在安装目录searx下,直接输入:python searx/webapp.py,可以临时运行,关闭ssh对话窗口,程序就会关闭)
到这里正常的话,就可以访问了,如果不能访问,那就是防火墙没设置好。
(我开始居然访问不了,看别人都是这样安装的,确认了前面没问题,想了下应该是防火墙)
查看防火墙状态:systemctl status firewalld
(dead,防火墙未开启,running,已开启了。)
开启防火墙:systemctl start firewalld
(没有任何提示即开启成功)
基本安装-基于 Debian/Ubuntu 和 virtualenv 的安装指南
安装依赖包:
sudo apt-get install git build-essential libxslt-dev python-dev python-virtualenv python-babel zlib1g-dev libffi-dev libssl-dev
安装 searx:
cd /usr/local
sudo git clone https://github.com/asciimoo/searx.git
sudo useradd searx -d /usr/local/searx
sudo chown searx:searx -R /usr/local/searx
在 virtualenv 中安装依赖:
sudo -u searx -i
cd /usr/local/searx
virtualenv searx-ve
. ./searx-ve/bin/activate
./manage.sh update_packages
配置
sed -i -e "s/ultrasecretkey/`openssl rand -hex 16`/g" searx/settings.yml
根据需要修改/usr/local/searx中 searx/settings.yml,在该文件中修改语言和访问IP地址及端口
检查
启动 searx:
python searx/webapp.py
浏览器访问 http://localhost:8888
如果一切工作正常,可以在 settings.yml 中禁用调试选项:
sed -i -e "s/debug : True/debug : False/g" searx/settings.yml
配合 uwsgi 使用
安装依赖包
sudo apt-get install uwsgi uwsgi-plugin-python
创建配置文件 /etc/uwsgi/apps-available/searx.ini,内容如下:
[uwsgi]
# Who will run the code
uid = searx
gid = searx
# disable logging for privacy
disable-logging = true
# Number of workers (usually CPU count)
workers = 4
# The right granted on the created socket
chmod-socket = 666
# Plugin to use and interpretor config
single-interpreter = true
master = true
plugin = python
lazy-apps = true
enable-threads = true
# Module to import
module = searx.webapp
# Virtualenv and python path
virtualenv = /usr/local/searx/searx-ve/
pythonpath = /usr/local/searx/
chdir = /usr/local/searx/searx/
激活 uwsgi 应用并重启
cd /etc/uwsgi/apps-enabled
ln -s ../apps-available/searx.ini
/etc/init.d/uwsgi restart
Web 服务器nginx
nginx
使用如下命令安装 Nginx
sudo apt-get install nginx
配置到 / 根路径
创建配置文件 /etc/nginx/sites-available/searx 内容如下:
server {
listen 80;
server_name searx.example.com;
root /usr/local/searx;
location / {
include uwsgi_params;
uwsgi_pass unix:/run/uwsgi/app/searx/socket;
}
}
重启服务:
sudo service nginx restart
sudo service uwsgi restart
配置到指定路径 (/searx)
添加配置文件 /etc/nginx/sites-enabled/default 内容如下:
location = /searx { rewrite ^ /searx/; }
location /searx {
try_files $uri @searx;
}
location @searx {
uwsgi_param SCRIPT_NAME /searx;
include uwsgi_params;
uwsgi_modifier1 30;
uwsgi_pass unix:/run/uwsgi/app/searx/socket;
}
或者使用反向代理(适合单用户使用或者低访问量的实例)
location /searx {
proxy_pass http://127.0.0.1:8888;
proxy_set_header Host $host;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header X-Scheme $scheme;
proxy_set_header X-Script-Name /searx;
proxy_buffering off;
}
编辑 searx/settings.xml 中的 base_url
base_url : http://your.domain.tld/searx/
重启服务:
sudo service nginx restart
sudo service uwsgi restart
为了更好的保护隐私,可以禁用日志,在 /etc/nginx/sites-available/default 的 uwsgi_pass 下面增加如下内容:
access_log /dev/null;
error_log /dev/null;
重启服务
sudo service nginx restart
Web 服务器 apache
增加 wsgi mod:
sudo apt-get install libapache2-mod-uwsgi
sudo a2enmod uwsgi
增加配置内容到 /etc/apache2/apache2.conf:
<Location />
Options FollowSymLinks Indexes
SetHandler uwsgi-handler
uWSGISocket /run/uwsgi/app/searx/socket
</Location>
N注意,如果你的 searx 实例不是部署在根路径,需要修改 <Location /> 配置信息,如 <Location /searx>.
重启 Apache:
sudo /etc/init.d/apache2 restart
禁用日志
回到配置文件 /etc/apache2/apache2.conf 在 <Location /> 指令上方增加:
CustomLog /dev/null combined
重启 Apache:
sudo /etc/init.d/apache2 restart
如何更新
cd /usr/local/searx
sudo -u searx -i
. ./searx-ve/bin/activate
git stash
git pull origin master
git stash apply
./manage.sh update_packages
sudo service uwsgi restart
Docker部署 searx:
确认你已装有 Docker ,然后使用如下命令来部署 searx:
docker pull wonderfall/searx
docker run -d --name searx -p $PORT:8888 wonderfall/searx
打开浏览器访问 http://localhost:$PORT.
更多的帮助请看 Docke Hub
你也可以通过 Dockerfile 来构建 searx
git clone https://github.com/asciimoo/searx.git
cd searx
docker build -t whatever/searx .
参考资料 https://asciimoo.github.io/searx/dev/install/installation.html#id13
Searx – About me https://about.okhin.fr/posts/Searx/
演示 http://ma-so.com
参考来源 https://blog.csdn.net/weixin_45461896/article/details/125398990