算法 - EINDEX 的博客

EINDEX 的博客

Sign in Subscribe

算法

A collection of 3 posts

倒排索引的工作原理

世界上最伟大的互联网产品,说是搜索引擎,绝对没有别的产品可以替代,尤其是伟大的先在市场占用率最高的搜索引擎,Google Search. 还有很多差一大截的,比如 Bing, Yahoo 和 YANDEX. 什么是搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。搜索引擎干了些什么简单的说搜索引擎从网络上爬取网页,然后对网页信息进行提取,构建正排索引,然后分析网页内容,建立倒排文件. 接下来我将依次介绍正排索引、倒排索引等知识点. 正排索引正排索引通常是 id-document 的键值对 id name context eng_context 1 小明今天吃了 3 个包子 today eating 3 baozi 2

树的遍历于常见算法 - 基于 Python 实现

树是计算机科学中常用的数据结构之一,常见的地方有，Java 的继承树等。还有一些基于树的特殊数据结构，比如二叉树，B 树，等等。本篇会讲述一些关于简单关于树的操作。树的定义树（英语：tree）是一种抽象数据类型（ADT）或是实作这种抽象数据类型的数据结构，用来模拟具有树状结构性质的数据集合。它是由 n（n>0）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点： * 每个节点有零个或多个子节点 * 没有父节点的节点称为根节点 * 每一个非根节点有且只有一个父节点 * 除了根节点外，每个子节点可以分为多个不相交的子树节选自树(数据结构) 定义数据结构 class TreeNode(object): """ 一个树节点 """ def

基本排序算法 - 基于 Python 实现

本篇主要实现九(八）大排序算法，分别是冒泡排序，插入排序，选择排序，希尔排序，归并排序，快速排序，堆排序,计数排序。希望大家回顾知识的时候也能从我的这篇文章得到帮助。为了防止误导读者，本文所有概念性内容均截取自对应 Wiki 冒泡排序原理冒泡排序(Bubble Sort)是一种简单的排序算法。它重复地走访过要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。步骤冒泡排序算法的运作如下： 1. 比较相邻的元素。如果第一个比第二个大，就交换他们两个。 2. 对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。 3. 针对所有的元素重复以上的步骤，除了最后一个。 4. 持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。代码 def bubble_sort(