不久前,一个有思想和智慧的人帮我写了一个bash脚本,但最近我意识到我没有清楚地解释我想要的东西。我在一个纯文本文件中有一长串短语(Ngram)。如果一个短语是另一个短语的片段,那么只有较长的短语是有用的,所以需要删除较短的短语。下面的代码删除较长的代码。我希望这将是一个改变几个字符的问题。
#! /bin/bash
((n=${1:-0})) || exit 1
declare -A ngrams
while read -ra line; do
for ((i = 0; i < ${#line[@]}; i++)); do
((ngrams[${line[@]:i:n}]++))
done
done
for i in "${!ngrams[@]}"; do
printf '%d\t%s\n' "${ngrams[$i]}" "$i"
done发布于 2013-07-24 16:03:40
不是通过改变几个字符,而是新写的:
#! /bin/bash
declare -a ngrams
mapfile -t ngrams < $1
for ((i=0; i<${#ngrams[@]}; i++)); do
for ((j=0; j<${#ngrams[@]}; j++)); do
if (( i!=j )) && [[ "${ngrams[j]}" == *"${ngrams[i]}"* ]]; then
continue 2
fi
done
echo ${ngrams[i]} >> $2
done你可以用ngram.sh <infile> <outfile>来称呼它。例如:
> cat txt.in
foo
me me me
kaaz
bar
foo bar
blub
me
> ./ngram.sh txt.in txt.out
> cat txt.out
me me me
kaaz
foo bar
blubhttps://stackoverflow.com/questions/17835939
复制相似问题