文章/答案/技术大牛

发布

问Diff算法C++
EN

Stack Overflow用户

提问于 2011-05-28 07:19:12

回答 2查看 8.3K关注 0票数 3

我正在尝试用C++创建一个可以区分两个.txt文件的程序。

struct line
{
    string text;
    size_t num;
    int status;
};

void compareFiles(vector<line> &buffer_1, vector<line> &buffer_2, size_t index_1, size_t index_2)
{
    while(index_1 < buffer_1.size())
    {
         while(index_2 < buffer_2.size())
         {  
             X = buffer_1[index_1].text;
             Y = buffer_2[index_2].text;
             if(X == Y)
             {
                 ++index_1;
                 ++index_2;
             }
             else
             {
                 LCS();
                 string lcs = printLCS(X.length(), Y.length());

                 /*
                 * Here's my problem
                 */

             }
         }
     }
 }

如您所见，我有两个缓冲区(行向量)之前加载了文件内容。我也有完全功能(测试)的LCS算法。LCS处理全局定义的字符串X和Y。

所以，我真正需要做的是用LCS逐行比较缓冲区，但我没有办法做到这一点。

你能帮帮我吗？

diff

lcs

c++

algorithm

回答 2

Stack Overflow用户

发布于 2011-05-28 08:12:23

当有疑问时，我通常会听从以前做过的人。久负盛名的diff程序一直存在，它可以做你想做的事情。此外，它是开源的，所以请访问ftp://mirrors.kernel.org/gnu/diffutils/diffutils-3.0.tar.gz并查看它。

解压缩归档文件后，打开src/analyze.c。diff_2_files函数从第472行开始。执行实际比较的代码从第512 - 537行运行。它们的转载如下：

for (;; cmp->file[0].buffered = cmp->file[1].buffered = 0)
{
    /* Read a buffer's worth from both files.  */
    for (f = 0; f < 2; f++)
        if (0 <= cmp->file[f].desc)
            file_block_read (&cmp->file[f],
                buffer_size - cmp->file[f].buffered);

    /* If the buffers differ, the files differ.  */
    if (cmp->file[0].buffered != cmp->file[1].buffered
            || memcmp (cmp->file[0].buffer,
                    cmp->file[1].buffer,
                    cmp->file[0].buffered))
    {
        changes = 1;
        break;
    }

    /* If we reach end of file, the files are the same.  */
    if (cmp->file[0].buffered != buffer_size)
    {
        changes = 0;
        break;
    }
}

这里的想法是加载两个相同大小的缓冲区，然后将每个文件加载到一个缓冲区中。使用memcmp逐个比较这两个文件的缓冲区，看看是否有不同的缓冲区。如果任何缓冲区比较没有返回equal，那么这两个文件是不同的。同样重要的是要注意，您永远不需要一次读取超过两个缓冲区的数据，因此这种方法也适用于大型文件。

票数 7

Stack Overflow用户

发布于 2011-05-28 07:51:08

首先，我会重写LCS()，以两行作为参数并返回最长的公共序列--我想象一个像std::string LCS(const line& lhs, const line& rhs)这样的函数签名。然后我会像下面这样修改你的while循环。

for(int i = 0; i < buffer_1.size(); ++i)
{
    for(int j = 0; j < buffer_2.size(); ++j)
    {  
        std::string lcs = LCS(buffer_1[i].text, buffer_2[j].text);
        std::cout << "LCS[" << i << "][" << j << "]: " << lcs << std::endl;
    }
}

这将为buffer_1和buffer_2中的每个行组合查找并打印最长的公共序列。这是你想要做的吗？我对你的问题理解正确了吗？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6158560

复制

相似问题

问Diff算法C++
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Diff算法C++EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Diff算法C++
EN