Trucos SAS. Identificar registros duplicados

Octubre 29th, 2009 | por rvaquerizo |

Muy rápido, para identificar registros duplicados existen múltiples formas. Seguramente haré un monográfico sobre este tema pero de momento dejo una píldora:


data aleatorio;
do i=1 to 100000;
id=ranpoi(23456,56781);
if ranuni(5)>=0.3 then output;
end;
run;
proc sql;
create table repes (where=(rep>1)) as select
id, count(id) as rep
from aleatorio
group by 1;
quit;
proc sql;
create table repes (where=(rep=1)) as select
id, count(id) as rep
from aleatorio
group by 1;
quit;

Contamos registros y empleamos where como opción de escritura. Muy fácil y perfectamente entendible. No puedo entretenerme más que mi hija me reclama...

Etiquetas: , , ,

  1. 2 Respuestas en “Trucos SAS. Identificar registros duplicados”

  2. Por luis, May 29, 2011 | Responder

    Saludos, me sirvio mucho el ejemplo para identificar duplicados, pero existe una forma de que ademas encontrar duplicados por alguna variable llave, que es el ejemplo que pusiste, y que ademas de que solo se duplique por ejemplo por la variable id, pero que resultara que otras variables son diferentes, es decir solo se repite id pero no otras y que por lo tanto los duplicados por id que en otras variables tengan datos vacios estos se actualicen con los datos del duplicado pero que estos si contienen algo en otras variables, uf espero darme a entender con lo que te comento, si por ejemplo tengo dos registros con las variable id, nombre direccion, saldo y estatus, ej:

    1 luis . 100 cancelado
    1 . mexico 100 normal

    y al final solo deseo un solo registro actualizado es decir al final deseo tener lo siguiente:

    1 luis mexico 100 normal

    Tu me podrias orientar al respecto.

  3. Por rvaquerizo, Jun 1, 2011 | Responder

    Si tienes claro el orden haz un PROC SORT previo. Y después emplea IF LAST. Emplea esta entrada como ejemplo:
    http://analisisydecision.es/monografico-first-y-last-ejemplos-en-data/

Publica un Comentario