博客
关于我
经典算法题每日演练——第五题 字符串相似度
阅读量:420 次
发布时间:2019-03-06

本文共 2789 字,大约阅读时间需要 9 分钟。

 

      这篇我们看看最长公共子序列的另一个版本,求字符串相似度(编辑距离),我也说过了,这是一个非常实用的算法,在DNA对比,网

页聚类等方面都有用武之地。

一:概念

     对于两个字符串A和B,通过基本的增删改将字符串A改成B,或者将B改成A,在改变的过程中我们使用的最少步骤称之为“编辑距离”。

比如如下的字符串:我们通过种种操作,痉挛之后编辑距离为3,不知道你看出来了没有?

二:解析

  可能大家觉得有点复杂,不好理解,我们试着把这个大问题拆分掉,将"字符串 vs 字符串“,分解成”字符 vs 字符串“,再分解

成”字符 vs 字符“。

<1> ”字符“vs”字符“

       这种情况是最简单的了,比如”A“与”B“的编辑距离很显然是1。

<2> ”字符”vs"字符串"

       ”A“改成”AB“的编辑距离为1,“A”与“ABA”的编辑距离为2。

<3>“字符串”vs“字符串”

      “ABA”和“BBA”的编辑距离为1,仔细发现我们可以得出如下结论,”ABA“是由23个子序列与”BBA“字符串求的的编辑距离集

合中取出的最小编辑距离,也就是说在这种情况下我们出现了重复计算的问题,我在求子序列”AB“和”BBA"的编辑距离时,我是由

子序列”A“和”BBA“与”B“和”BBA“之间的编辑距离中选出一个最小值,然而序列A和序列B早之前我已经计算过了,这种重复计算

的问题有点像”斐波那契”,正好满足“动态规划”中的最优子结构和重叠子问题,所以我们决定采用动态规划来解决。

 

三:公式

    跟“最长公共子序列”一样,我们采用一个二维数组来保存字符串X和Y当前的位置的最小编辑距离。

现有两个序列X={x1,x2,x3,...xi},Y={y1,y2,y3,....,yi},

设一个C[i,j]: 保存Xi与Yj的当前最小的LD。

①: 当 X= Yi 时,则C[i,j]=C[i-1,j-1];

②:当 X!= Y时, 则C[i,j]=Min{C[i-1,j-1],C[i-1,j],C[i,j-1]};

最终我们的C[i,j]一直保存着最小的LD。

 

四:代码

1 using System; 2  3 namespace ConsoleApplication2 4 { 5     public class Program 6     { 7         static int[,] martix; 8  9         static string str1 = string.Empty;10 11         static string str2 = string.Empty;12 13         static void Main(string[] args)14         {15             while (true)16             {17                 str1 = Console.ReadLine();18 19                 str2 = Console.ReadLine();20 21                 martix = new int[str1.Length + 1, str2.Length + 1];22 23                 Console.WriteLine("字符串 {0} 和 {1} 的编辑距离为:{2}\n", str1, str2, LD());24             }25         }26 27         /// 28         /// 计算字符串的编辑距离29         /// 30         /// 
31 public static int LD()32 {33 //初始化边界值(忽略计算时的边界情况)34 for (int i = 0; i <= str1.Length; i++)35 {36 martix[i, 0] = i;37 }38 39 for (int j = 0; j <= str2.Length; j++)40 {41 martix[0, j] = j;42 }43 44 //矩阵的 X 坐标45 for (int i = 1; i <= str1.Length; i++)46 {47 //矩阵的 Y 坐标48 for (int j = 1; j <= str2.Length; j++)49 {50 //相等情况51 if (str1[i - 1] == str2[j - 1])52 {53 martix[i, j] = martix[i - 1, j - 1];54 }55 else56 {57 //取“左前方”,“上方”,“左方“的最小值58 var temp1 = Math.Min(martix[i - 1, j], martix[i, j - 1]);59 60 //获取最小值61 var min = Math.Min(temp1, martix[i - 1, j - 1]);62 63 martix[i, j] = min + 1;64 }65 }66 }67 68 //返回字符串的编辑距离69 return martix[str1.Length, str2.Length];70 }71 }72 }

转载地址:http://jeluz.baihongyu.com/

你可能感兴趣的文章
83. Remove Duplicates from Sorted List
查看>>
410. Split Array Largest Sum
查看>>
Vue3发布半年我不学,摸鱼爽歪歪,哎~就是玩儿
查看>>
《实战java高并发程序设计》源码整理及读书笔记
查看>>
Java开源博客My-Blog(SpringBoot+Docker)系列文章
查看>>
程序员视角:鹿晗公布恋情是如何把微博搞炸的?
查看>>
Spring+SpringMVC+MyBatis+easyUI整合进阶篇(七)一次线上Mysql数据库崩溃事故的记录
查看>>
【JavaScript】动态原型模式创建对象 ||为何不能用字面量创建原型对象?
查看>>
ClickHouse源码笔记4:FilterBlockInputStream, 探寻where,having的实现
查看>>
Linux应用-线程操作
查看>>
多态体验,和探索爷爷类指针的多态性
查看>>
系统编程-进程间通信-无名管道
查看>>
记2020年初对SimpleGUI源码的阅读成果
查看>>
C语言实现面向对象方法学的GLib、GObject-初体验
查看>>
系统编程-进程-ps命令、进程调度、优先级翻转、进程状态
查看>>
为什么我觉得需要熟悉vim使用,难道仅仅是为了耍酷?
查看>>
一个支持高网络吞吐量、基于机器性能评分的TCP负载均衡器gobalan
查看>>
HDOJ2017_字符串统计
查看>>
高等软工第二次作业《需求分析阶段总结》
查看>>
404 Note Found 团队会议纪要
查看>>