Embed Notice
HTML Code
Corresponding Notice
- Embed this notice
Kari'boka (kariboka@social.harpia.red)'s status on Thursday, 19-Sep-2024 03:16:34 JSTKari'boka @eltonfc @usuario @rodolforg
Recentemente, foi identificado um problema com a forma como o Mastodon lida com hashtags Unicode durante a federação, o que pode causar inconsistências na representação dessas hashtags em outras instâncias.
Um exemplo claro desse problema pode ser visto [neste toot](https://bolha.us/@diegopds/113073046760791030), que contém a hashtag `<a href="https://bolha.us/tags/Ter%C3%A7aThrash" class="mention hashtag" rel="tag">#<span>TerçaThrash</span></a>`. No entanto, a hashtag é declarada como:
```json
tag: [
{
type: 'Hashtag',
href: 'https://bolha.us/tags/tercathrash',
name: '#tercathrash',
}
]
```
Note que o nome da tag declarado é diferente da hashtag visível. Isso sugere que o Mastodon pode estar convertendo hashtags Unicode para uma forma ASCII, o que leva a inconsistências durante a federação. A conversão para ASCII-7, que é um subconjunto do Unicode, é uma prática comum, mas pode causar problemas quando diferentes plataformas interpretam essas tags de maneira diferente.
Discussões entre desenvolvedores indicam que o Mastodon pode não usar o objeto de tags para resolver as hashtags, preferindo extrair as tags diretamente do HTML. Isso resulta em uma discrepância entre o que é declarado e o que é federado, obrigando outras plataformas a lidar com essa inconsistência. Foi mencionado que o Mastodon pode estar convertendo hashtags Unicode para ASCII-7, já que o conjunto de caracteres ASCII-7 está incluído no repertório de caracteres Unicode. Além disso, pode ser que o Mastodon simplesmente não use o objeto de tags para resolução e apenas use o HTML para obter as tags, enquanto outras plataformas precisam lidar com essa estranheza. Historicamente, as hashtags eram analisadas a partir do texto sem considerar outras propriedades do ActivityPub.
Além disso, o issue [#25451](https://github.com/mastodon/mastodon/issues/25451) no repositório do Mastodon discute o problema com hashtags Unicode, onde hashtags são normalizadas para ASCII e não são corretamente representadas em outros sistemas. O issue [#6830](https://github.com/mastodon/mastodon/issues/6830) também menciona problemas semelhantes, destacando a necessidade de ajustar a representação de hashtags.
Esse comportamento inconsistente do Mastodon, ao converter hashtags Unicode para ASCII, pode levar a problemas de interoperabilidade e visibilidade entre plataformas que federam conteúdo. O ideal seria que o Mastodon preservasse a integridade das hashtags Unicode para garantir uma experiência de federação mais consistente e precisa.