PROFIL INSTANTANÉ D'UNE JOURNÉE DES JEUNES AUTOCHTONES SOUS GARDE AU CANADA

ANNEXE B : Points à prendre en considération au moment d'interpréter les données du recensement de 1996.

Les renseignements suivants ont été fournis par Statistique Canada.

Le recensement de 1996 a été une entreprise complexe et de grande envergure. Bien que l'on ait déployé des efforts considérables pour assurer le respect de normes élevées tout au cours des opérations de la collecte et du traitement, il est inévitable que les estimations résultantes soient entachées d'erreurs. Il faut que les utilisateurs des données du recensement sachent que ces erreurs existent et qu'ils aient une idée générale de ses principales composantes afin d'être en mesure de déterminer si les données produites peuvent leur être utiles et d'évaluer les risques auxquels ils s'exposent en tirant des conclusions ou en prenant des décisions à partir de ces données.

Des erreurs peuvent se produire pratiquement à toutes les étapes du recensement, depuis la préparation des documents jusqu'au traitement des données, en passant par l'établissement des listes de logements et la collecte des données. Certaines erreurs, qui surviennent plus ou moins au hasard, ont tendance à s'annuler lorsque les réponses fournies par les divers répondants sont agrégées pour un groupe assez important. Dans le cas des erreurs de cette nature, l'estimation correspondante sera d'autant plus précise que le groupe visé sera grand. C'est pourquoi on conseille aux utilisateurs de faire preuve de prudence lorsqu'ils utilisent des estimations relatives à de petits groupes. Toutefois, certaines erreurs peuvent survenir de façon plus systématique et produire des estimations « biaisées ». Comme ce biais persiste quelle que soit la taille du groupe pour lequel les réponses sont agrégées et comme il est particulièrement difficile d'en mesurer l'importance, les erreurs systématiques posent pour la plupart des utilisateurs de données des problèmes plus graves que les erreurs aléatoires mentionnées plus haut.

En ce qui concerne les données du recensement en général, les principaux types d'erreur sont les suivants :

  • les erreurs de couverture qui se produisent lorsqu'on oublie des logements ou des personnes, qu'on les englobe à tort ou qu'on les compte deux fois;
     
  • les erreurs dues à la non-réponse qui surviennent lorsqu'on n'a pu obtenir de réponses d'un petit nombre de ménages ou de personnes en raison d'une absence prolongée ou pour toute autre raison;
     
  • les erreurs de réponse qui surviennent lorsque le répondant, ou parfois le recenseur, a mal interprété une question du recensement et a inscrit une mauvaise réponse;
     
  • les erreurs de traitement qui peuvent se produire à diverses étapes, notamment au codage, lorsque les réponses en lettres sont converties en codes numériques; à la saisie des données, lorsque les préposés à l'entrée des données transfèrent sur bandes informatiques les réponses figurant au questionnaire du recensement; à l'imputation, lorsqu'une réponse « valide », mais pas nécessairement exacte, est insérée dans un enregistrement par l'ordinateur pour remplacer une réponse manquante ou « invalide » (« valide » et « invalide » renvoient à la cohérence de la réponse, compte tenu des autres renseignements compris dans l'enregistrement);
     
  • les erreurs d'échantillonnage qui s'appliquent uniquement aux questions supplémentaires figurant dans le questionnaire complet distribué à un échantillon de un cinquième des ménages; elles résultent du fait que les réponses à ces questions, une fois pondérées pour représenter l'ensemble de la population, diffèrent inévitablement des résultats que l'on aurait obtenus si l'on avait posé ces questions à tous les ménages.

Les types d'erreur mentionnés plus haut ont tous une composante aléatoire et une composante systématique. Toutefois, la composante systématique de l'erreur d'échantillonnage est d'ordinaire très petite comparativement à sa composante aléatoire. Dans le cas des autres erreurs non dues à l'échantillonnage, tant la composante aléatoire que la composante systématique peuvent être importantes.

Erreurs de couverture

Les erreurs de couverture ont une incidence directe sur la précision des chiffres du recensement, c'est-à-dire sur la taille des divers univers du recensement : la population, les familles, les ménages et les logements. Bien que des mesures aient été prises pour corriger certaines erreurs identifiables, les chiffres définitifs sont toujours entachés d'une certaine erreur découlant du fait que des personnes ou des logements ont été oubliés, englobés à tort dans le recensement ou comptés deux fois.

L'oubli de logements ou de personnes se traduit par un sous-dénombrement. Des logements peuvent être oubliés en raison d'une mauvaise interprétation des limites du secteur de dénombrement (SD), ou du fait que ces logements n'ont pas l'apparence de logements (p. ex., logements non marqués) ou semblent inhabitables. Des personnes peuvent être oubliées parce que leur logement est oublié ou classé comme inoccupé, ou quand certains membres du ménage sont omis sur le questionnaire parce que le répondant a mal interprété les instructions concernant les personnes à inclure. Enfin, certaines personnes peuvent être oubliées parce qu'elles n'ont pas de domicile habituel et qu'elles n'ont pas passé la nuit du recensement dans un logement.

Le dénombrement à tort ou le double compte de logements ou de personnes se traduit par un surdénombrement. Il peut y avoir surdénombrement des logements lorsque des constructions impropres à l'habitation sont classées comme logements ou lorsque des unités d'habitation ne répondant pas à la définition du logement retenue pour les fins du recensement sont comptées séparément plutôt que d'être considérées comme faisant partie d'un logement plus grand. Il peut y avoir double compte des logements lorsqu'il existe une certaine ambiguïté au sujet des limites des SD. Les personnes peuvent être comptées deux fois parce que leur logement a été compté deux fois ou parce que les lignes directrices concernant les personnes à inscrire dans le questionnaire ont été mal interprétées. À l'occasion, il arrive qu'une personne ne faisant pas partie de la population à recenser, comme un résident étranger ou une personne fictive, soit dénombrée à tort. En moyenne, le surdénombrement est moins susceptible de se produire que le sous-dénombrement; les chiffres des logements et des personnes sont donc probablement légèrement sous-estimés.

En 1996, trois études permettent de mesurer l'erreur de couverture. Dans le contexte de la vérification des logements inoccupés, on a de nouveau visité un échantillon de logements classés comme inoccupés afin de vérifier s'ils étaient réellement inoccupés le jour du recensement. Les chiffres définitifs du recensement ont ensuite été corrigés pour tenir compte des personnes ou des ménages oubliés du fait que leur logement avait été classé par erreur comme inoccupé. En dépit de ces ajustements, les chiffres définitifs peuvent tout de même être faussés par un certain sous-dénombrement. Le sous-dénombrement tend à être plus élevé pour certains segments de la population comme les jeunes adultes de sexe masculin et les personnes récemment immigrées. La contre-vérification des dossiers permet de mesurer le sous-dénombrement résiduel pour le Canada, de même que pour chaque province et chaque territoire. L'étude du surdénombrement a pour objet d'étudier les erreurs de surdénombrement. Ensemble, les résultats de la contre-vérification des dossiers et de l'étude du surdénombrement fournissent une estimation du sous-dénombrement net.

Autres erreurs non dues à l'échantillonnage

Alors que les erreurs de couverture ont une incidence sur le nombre d'unités comprises dans les divers univers du recensement, d'autres erreurs influent sur les caractéristiques de ces unités.

Il est parfois impossible d'obtenir une réponse complète d'un ménage, même si le logement a été classé comme étant occupé et un questionnaire a été livré. Il se peut que les membres du ménage aient été absents pendant toute la période du recensement ou, en de rares occasions, que le membre responsable du ménage ait refusé de remplir le questionnaire. Il arrive plus souvent que le questionnaire soit retourné mais qu'il y manque des données à certaines questions ou pour certaines personnes. Des efforts considérables sont déployés afin d'obtenir une réponse la plus complète possible. Les recenseurs contrôlent les questionnaires et assurent un suivi à l'égard de l'information manquante. Le travail du recenseur est ensuite vérifié tant par un surveillant que par un technicien du contrôle qualitatif. Malgré tout, il existe toujours un petit nombre de réponses manquantes à la fin de l'étape de la collecte. Bien que les entrées manquantes soient éliminées en cours de traitement en remplaçant chaque valeur manquante par la valeur correspondante figurant dans un enregistrement « similaire », il est possible que certaines erreurs de non-réponse s'y glissent. Cela est particulièrement grave lorsque les personnes non répondantes diffèrent des répondants sous certains aspects; en effet, cette procédure se traduira par l'introduction d'un biais de non-réponse.

Même lorsqu'une réponse est obtenue, il se peut qu'elle ne soit pas tout à fait exacte. Il est possible que le répondant ait mal interprété la question ou ait donné une réponse au jugé, surtout lorsqu'il répondait pour le compte d'un autre membre du ménage, qui était peut-être absent. Ces erreurs sont désignées sous le nom d'erreurs de réponse. Bien que ces erreurs surviennent d'ordinaire du fait que les répondants aient fourni des renseignements inexacts, elles peuvent aussi résulter d'erreurs commises par les recenseurs en remplissant certaines parties du questionnaire, comme le type de construction résidentielle, ou au moment du rappel effectué pour obtenir une réponse manquante.

Certaines questions du questionnaire du recensement nécessitent une réponse en lettres. Au moment du traitement, on attribue un code numérique à ces réponses. Il est possible que des erreurs de codage se produisent lorsque la réponse écrite est ambiguë, incomplète ou difficile à lire, ou lorsque la liste des codes est longue (p. ex., principal domaine d'études et lieu de travail). L'étape formelle du contrôle qualitatif (CQ) permet de cerner et de rectifier les erreurs de codage et d'en réduire le nombre. À l'intérieur de chaque unité de travail, un échantillon des réponses est codé indépendamment une deuxième fois. La résolution des incohérences entre les premier et deuxième codages détermine la nécessité, s'il y a lieu, de coder à nouveau l'unité de travail. Exception faite pour le codage des variables de l'industrie et de la profession, la plupart des tâches de codage du recensement sont maintenant automatisées, en partie pour tenter de réduire le nombre d'erreurs de codage.

Les renseignements figurant dans les questionnaires sont introduits sur clavier dans un fichier informatique. Deux méthodes de résolution ordonnée sont utilisées pour limiter le nombre d'erreurs à la saisie des données. Dans un premier temps, certains contrôles (comme des vérifications d'étendue) sont effectués à mesure que les données sont entrées. Dans un second temps, on introduit de nouveau sur clavier un échantillon tiré de chaque lot de documents, puis on compare les entrées résultantes aux entrées initiales. Le travail non satisfaisant est ainsi circonscrit et corrigé et, si cela est nécessaire, le reste du lot est de nouveau introduit au clavier.

Une fois saisies, les données font l'objet de vérifications qui consistent à les soumettre à une série de contrôles informatiques visant à relever les réponses manquantes ou incohérentes. À l'étape de l'imputation, on substitue à ces dernières des réponses déduites à partir des autres données de l'enregistrement ou des réponses tirées d'un enregistrement donneur similaire. L'imputation permet d'obtenir une base de données complète dont les données correspondent aux chiffres du recensement et facilitent les analyses multidimensionnelles.

Même si des erreurs peuvent être introduites à l'étape de l'imputation, les méthodes utilisées ont fait l'objet de tests rigoureux visant à réduire au minimum les erreurs systématiques

Diverses études sont réalisées afin d'évaluer la qualité des réponses obtenues dans le cadre du recensement de 1996. Ainsi, on a calculé les taux de réponse et les taux de rejet au contrôle pour chaque question. Ces taux peuvent permettre de déterminer le potentiel d'erreur de non-réponse et d'autre type d'erreurs. De même, les totalisations établies à partir des données du recensement de 1996 ont été ou seront comparées avec les estimations correspondantes obtenues à partir des données des recensements précédents, des enquêtes-échantillon (comme l'Enquête sur la population active) et de divers dossiers administratifs (comme les registres des naissances et le cadastre municipal). Ces comparaisons peuvent permettre de cerner les problèmes de qualité éventuels ou, à tout le moins, de relever les divergences entre les sources.

Outre ces comparaisons entre données agrégées, certaines études de couplage de microdonnées sont actuellement menées afin de comparer les réponses de certains particuliers obtenues au recensement à celles d'une autre source de renseignements. Pour un certain nombre de caractéristiques « stables » (comme l'âge, le sexe, la langue maternelle et le lieu de naissance), on compare les réponses obtenues auprès d'un échantillon de personnes à l'occasion du recensement de 1996 aux réponses obtenues des mêmes personnes à l'occasion du recensement de 1991.

Erreurs d'échantillonnage

Les estimations obtenues en pondérant les réponses recueillies auprès d'un échantillon sont susceptibles d'être entachées d'erreurs en raison de la répartition des caractéristiques au sein de l'échantillon, qui n'est généralement pas identique à la répartition correspondante au sein de la population dans laquelle l'échantillon a été prélevé.

L'erreur susceptible d'être introduite par l'échantillonnage variera en fonction de la rareté relative de la caractéristique étudiée au sein de la population. Lorsque la valeur contenue dans la case est élevée, cette erreur sera relativement faible proportionnellement à cette valeur. Lorsque la valeur contenue dans la case est faible, cette erreur sera relativement importante proportionnellement à cette valeur.

L'erreur susceptible d'être introduite par l'échantillonnage est d'ordinaire exprimée sous forme d'« erreur type ». Il s'agit de la racine carrée de la moyenne, calculée pour l'ensemble des échantillons de même taille prélevés selon le même plan d'échantillonnage, des carrés de l'écart de l'estimation obtenue à partir de l'échantillon par rapport à la valeur pour l'ensemble de la population.

Le tableau ci-dessous fournit des mesures approximatives de l'erreur type due à l'échantillonnage. Ces mesures sont données uniquement à titre indicatif.

Tableau : Erreur type approximative due à l'échantillonnage pour les données-échantillon du recensement de 1996

Valeur contenue dans la case Erreur type approximative
50 ou moins 15
100 20
200 30
500 45
1,000 65
2,000 90
5,000 140
10,000 200
20,000 280
50,000 450
100,000 630
500,000 1,400

Les utilisateurs souhaitant déterminer l'erreur d'échantillonnage approximative pour une case de données dont la valeur a été obtenue à partir de l'échantillon de 20 % doivent choisir l'erreur type correspondant à l'entrée qui se rapproche le plus de celle qui figure dans la case de données de la totalisation en cause. En utilisant la valeur ainsi obtenue pour l'erreur type, l'utilisateur peut, en général et à juste titre, être certain que la valeur réelle pour la population dénombrée (ne tenant pas compte des formes d'erreur autres que l'erreur d'échantillonnage) ne s'écarte pas de la valeur contenue dans la case dans une proportion supérieure ou inférieure à trois fois l'erreur type (p. ex., si la valeur contenue dans la case est 1 000, la fourchette à l'intérieur de laquelle se situe la valeur réelle serait de 1 000 ± (3 x 65) ou de 1 000 ± 195).

Les erreurs types données dans le tableau ci-dessus ne s'appliquent pas aux totaux ni aux totaux partiels relatifs à la population ou aux univers (personnes, ménages, logements ou familles) pour la région géographique étudiée (voir Échantillonnage et pondération). L'effet qu'aura l'échantillonnage sur ces cases peut être déterminé en établissant des comparaisons avec des données intégralement correspondantes.

Il est à noter que l'effet du plan d'échantillonnage et de la méthode de pondération utilisés dans le cadre du recensement de 1996 variera d'une caractéristique à l'autre et d'une région géographique à l'autre. Il est donc possible que les valeurs de l'erreur type données dans le tableau ci-dessus sous-estiment ou surestiment l'erreur attribuable à l'échantillonnage.

Source : Recensement de 1996, Statistique Canada.

Date de modification :