Talk:少数民族地区语言文字标注方案
本页面用以解决持续多年的少数民族地区语言文字标注冲突
背景
- 已在Telegram群中认为这次公投是有必要的
- 详见Talk:Zh-hans:Chinese_tagging_guidelines#有关民族语言文字的多语言标注问题
冲突双方主要意见
- 正方:name=*字段应保持name=<Chinese name>/<Ethnic name>的形式,参见Multilingual_names#China。
- 折衷意见:民族地方的区、地市州、县区市旗,name=*字段应保持name=<Chinese name>/<Ethnic name>的形式,参见Multilingual_names#China。
- 反方:name=*字段应与name:zh=*保持一致
冲突双方主要论点论据
正方
- De jure(法理上):中国各民族自治地方的语言文字工作条例规定民族语言文字在相对应的民族自治地方采有与汉语言文字同等的地位。部分条例包括:
- 《新疆维吾尔自治区语言文字工作条例》
- 《延边朝鲜族自治州朝鲜语言文字工作条例》
- 《凉山彝族自治州彝族语言文字工作条例》)
- 《内蒙古自治区社会市面蒙汉两种文字并用管理办法》
- 该条例甚至还规定了横排书写时,应蒙文在前汉文在后。TerryZhang (talk) 21:08, 12 October 2021 (UTC)
- De facto(实际上):On the ground原则:
- OSM数据应该反映在地面貌,例如若少数民族地区路牌、政府牌匾、门店招牌等多数为民汉双语标牌,则OSM也应使用双语标注。TerryZhang (talk) 21:08, 12 October 2021 (UTC)
- 按照name是反应更普遍更习惯的用法,对少数民族语言地区的大部分百姓而言,这亦可能是习惯的一部分
- 示例:右边侧栏的库尔勒站。De facto和De jure同时支持库尔勒站使用汉语/维吾尔语/蒙古语三语标注。De facto的理由参见图片。De jure的理由是因为库尔勒站位于:
- 中华人民共和国(使用汉语言文字——《中华人民共和国国家通用语言文字法》)
- 新疆维吾尔自治区(使用维吾尔语——《新疆维吾尔自治区语言文字工作条例》)
- 巴音郭楞蒙古自治州(使用蒙古语——《巴音郭楞蒙古自治州语言文字管理条例》)
- 故而库尔勒站 的name=*应该为:库尔勒/<name:ug>/<name:mn>(汉语/维吾尔语/蒙古语三语,其中维吾尔语从右向左书写),同时保留各自对应的name:zh=*,name:ug=*和name:mn=*。
反方
- 中华人民共和国国家通用语言文字是普通话和规范汉字。--—Preceding unsigned comment added by Lepus (talk • contribs)
- 有主体民族多民族国家的少数民族地区无多语言标注先例。--—Preceding unsigned comment added by Lepus (talk • contribs)
- 怎么没有标注先例?反例1:Nunavut, Canada(加拿大官方语言英语法语,当地使用因纽特语);反例2:Cottbus - Chóśebuz, Germany(德国官方语言德语,当地使用德语/波兰语);反例3:巴塞罗那,西班牙(西班牙官方语言西班牙语,当地使用加泰罗尼亚语);等等等等——而且OSM上很多国家的“少数民族”地区甚至直接使用当地语言而抛弃了双语。还是要按照on the ground原则具体问题具体分析。TerryZhang (talk) 14:46, 12 October 2021 (UTC)
- 在Nunavut,因纽特语是官方语言:The Official Languages Act recognizes the official status of the English, French and Inuit languages。而且此地的地名数据质量也并不见得很好。此外,巴塞罗那也有相对的定义,加泰罗尼亚语与西班牙语并列官方语言,而且加泰罗尼亚语排在西班牙语前面。Barcelona is a cosmopolitan and polyglot city where over 300 languages are spoken in its streets, resulting from the vibrant international community established here. There are two official languages in the city: Catalan and Spanish。不过也许是我不细心,我似乎并没有在这个地区找到双语标签地名。对于双官方语言的地区,使用多语言标注当然无可厚非。至于Cottbus - Chóśebuz, Germany这个地区,实际上主要标注语言还是德语,只有一些城镇车站地名标注了双语。在国内,少数民族语言是“主要语言文字”,并不是和汉语并列的“官方语言”,因此跟你所提出的地方情况并不一样。更何况有这种反例并不代表他们就是一定是百分百合理的,或者所有用户就对此表示感觉舒适。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- “官方语言”怎么定义呢?例如您看《巴音郭楞蒙古自治州语言文字管理条例》第四条:“自治州内通用蒙古、维吾尔、汉三种语言文字。” 这不就是赋予了蒙古、维吾尔、汉语言文字在自治州内的官方地位了吗?我觉得在该这里这两种民族语言文字就是可以和汉字(which is 国家通用语言文字——亦即所谓的全中国的“官方语言”)并列的。TerryZhang (talk) 22:16, 14 October 2021 (UTC)
- 更何况有这种反例并不代表他们就是一定是百分百合理的,或者所有用户就对此表示感觉舒适。这个我赞同。TerryZhang (talk) 22:16, 14 October 2021 (UTC)
- 在Nunavut,因纽特语是官方语言:The Official Languages Act recognizes the official status of the English, French and Inuit languages。而且此地的地名数据质量也并不见得很好。此外,巴塞罗那也有相对的定义,加泰罗尼亚语与西班牙语并列官方语言,而且加泰罗尼亚语排在西班牙语前面。Barcelona is a cosmopolitan and polyglot city where over 300 languages are spoken in its streets, resulting from the vibrant international community established here. There are two official languages in the city: Catalan and Spanish。不过也许是我不细心,我似乎并没有在这个地区找到双语标签地名。对于双官方语言的地区,使用多语言标注当然无可厚非。至于Cottbus - Chóśebuz, Germany这个地区,实际上主要标注语言还是德语,只有一些城镇车站地名标注了双语。在国内,少数民族语言是“主要语言文字”,并不是和汉语并列的“官方语言”,因此跟你所提出的地方情况并不一样。更何况有这种反例并不代表他们就是一定是百分百合理的,或者所有用户就对此表示感觉舒适。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 怎么没有标注先例?反例1:Nunavut, Canada(加拿大官方语言英语法语,当地使用因纽特语);反例2:Cottbus - Chóśebuz, Germany(德国官方语言德语,当地使用德语/波兰语);反例3:巴塞罗那,西班牙(西班牙官方语言西班牙语,当地使用加泰罗尼亚语);等等等等——而且OSM上很多国家的“少数民族”地区甚至直接使用当地语言而抛弃了双语。还是要按照on the ground原则具体问题具体分析。TerryZhang (talk) 14:46, 12 October 2021 (UTC)
- 使用汉字是行业标准惯例。各民族自治地方的语言文字工作条例是对当地的少数语言民族文字使用情况的规范,而非对涉及此类地区地名的一份强制标准。尽管其体现了少数语言民族文字的重要地位,但这些条例对地图及其他出版物没有约束力,甚至连建议也提不上。实际上,无论是主要的在线地图(如百度地图,高德地图,谷歌地图),或者是各地地图出版社出版的地图册,大部分均使用中文作为唯一语言(或主体语言)。OpenStreetMap遵从这一惯例也非常合理。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- 此外,使用汉语主导,并非要消灭少数民族语言标注,本质目的是为了更好的保护和传播,而非消灭少数民族多样性,在统一标准的过程中应避免走向“汉语沙文主义”。--快乐的老鼠宝宝 (talk) 06:40, 12 October 2021 (UTC)
- 避免走向“汉语沙文主义”,所以才要在民族自治地方给予民族语言文字和汉语同等的地位。TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 如果说你所有的观点我都认为有合理之处的话,这一条是唯一无法认同的。作为一个技术话题,不应该用政治的观点来评判,也不应该用各种“主义”打标签。是否使用双语标签并不是和“少数民族多样性”挂钩等价的事情:一个网站并不因为“使用双语标签”就体现了“多样性”,不使用就扼杀了“多样性”。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 这也正是我感到疑惑的地方:并不是我先引出“沙文主义”的话题的,我之所以这么说只是想指出老鼠发言里的逻辑漏洞,并不是为了支持自己的论点……TerryZhang (talk) 22:16, 14 October 2021 (UTC)
- 如果说你所有的观点我都认为有合理之处的话,这一条是唯一无法认同的。作为一个技术话题,不应该用政治的观点来评判,也不应该用各种“主义”打标签。是否使用双语标签并不是和“少数民族多样性”挂钩等价的事情:一个网站并不因为“使用双语标签”就体现了“多样性”,不使用就扼杀了“多样性”。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 避免走向“汉语沙文主义”,所以才要在民族自治地方给予民族语言文字和汉语同等的地位。TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 使用国家通用语言文字体现中立性,也是OpenStreetMap上现有惯例。OSM上采取单一文字标注的国家是一种通行的做法,目前印度,俄罗斯等多民族国家均采取此标准。汉字作为国家通用语言文字,在地图上实用体现了中立性。指定某语言为某地“少数民族主要文字”,反而是一种主观的选择。其一,对于嵌套的自治地方,需采取哪种文字?例如A族自治区B族自治州下属的C族民族镇,应该是采用A还是B还是C还是都采用?其二,民族自治区的划分有复杂的历史原因,是一个政治问题。实际上常出现A民族自治区之下,实践上日常使用语言是汉语或者其他B,C,D等民族语言的情况,此时“主要文字”的“主体性”如何体现?其三,某些少数民族地区事实上并不通用其本民族语言(因为民族语言内部也有重大差异)。其四,某些少数民族文字仍没有标准化。因此,强行认定某少数民族文字作为当地的“主要文字”,会造成困惑与冲突。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- 很简单:看当地的路牌、店名、通告使用何种语言文字——这就是所谓的on the ground原则。关于您说的“指定某语言为某地“少数民族主要文字”,反而是一种主观的选择。”如果政府公布了民族自治地方的语言文字条例,而且条例在现实世界里得到了实施,那即便是人为规定的主观选择我们也应该客观地表现在地图里。TerryZhang (talk) 14:46, 12 October 2021 (UTC)
- 再补充一下,如果您不理解的话,可以考虑如下的例子:内蒙古乌海市,蒙古族人口比例不到5%,但是现实世界中就是民汉双语的——我们完全不需要关心哪个民族占多数,哪个是主要文字,只需要关心现实世界中是如何表示的——去街景上看一眼您就明白了。TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 1. 结合之前你所提及的“OSM数据应该反映在地面貌,例如若少数民族地区路牌、政府牌匾、门店招牌等多数为民汉双语标牌,则OSM也应使用双语标注。”我认为这是对on the ground原则不适当的扩充理解。On the ground原意是如果地图与实际地点名称有冲突时,应采用实际地点的名称。例如,老地图把北京的英文标为Peking,但是官方已经规定了是Beijing,那大部分涉及北京的英文地名就应该用官方标准Beijing而不是Peking。但是万一遇到特例时,例如北京大学,官方给出写法是Peking University,那就应该写成Peking University而不是Beijing University。这个规定根本不是要求地图制作者一定要把实际的路牌与店名等的文字原封不动地复制到OSM之中,也没有说可以通过路牌上面有什么语言OSM就要包括什么语言。故宫的午门也没有标记成“午門”(牌匾上写的是繁体),武汉大学也不是标注成“國立武漢大學”(尽管大门的牌坊是这么写的)。各国的大使馆的牌子都是使馆国语言在前的,但实际上也OSM中正常情况也是仅仅标注使馆所在国语言更何况很多自然地物根本没有地名标记。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 2. 需要再次澄清的一点:民族自治地方的语言文字条例的使用范围——这些条例都是本地性条例而非全局性的规定。例如,《内蒙古自治区人民政府办公厅关于印发内蒙古自治区社会市面蒙汉两种文字并用管理办法的通知》规定的涉及范围是“内蒙古自治区社会市面而且其管辖范围”。这些规定的覆盖面根本不涉及出版物、地图、非官方网站以及非地区性的官方网站,即使这些媒体的内容涉及到少数民族地方。因此引用这些条例解释来给OpenStreetMap制定标准没有意义。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 蒙古语言文字在内蒙古的法律地位并不由《内蒙古自治区人民政府办公厅关于印发内蒙古自治区社会市面蒙汉两种文字并用管理办法的通知》规定。您需要参考《内蒙古自治区蒙古语言文字工作条例》第二条:蒙古语言文字是自治区的通用语言文字。所以在自治区范围内,蒙文和汉字具有同样的地位。TerryZhang (talk) 22:16, 14 October 2021 (UTC)
- 我知道内蒙古很多地区蒙古语使用者比例相当少,有比你所说的乌海市更低的地方。这种地区的地图是否需要双语标签本身就是一种有争议性的做法。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 您觉得现实世界中的双语标注是否是有争议的呢?TerryZhang (talk) 22:16, 14 October 2021 (UTC)
- 地名标签应准确简洁。过长的文本标签在渲染时会大量挤占附近标签,其字体还会覆盖底图上的其他地理要素,严重干扰了地图的阅读。这种情况以前曾经出现过,巨大的文本块显得格外突兀。因此从实用角度来看,在地名中列出各种文字时得不偿失。相反,OSM现行标准却提倡对中文地名进行缩写,大部分自治县,自治乡都省略民族名字,简称为XX县等等,更有甚者,克孜勒苏柯尔克孜自治州一度在地图中被简写成“克州”,这种做法才是有违“准确性”的原则。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- “OSM现行标准却提倡对中文地名进行缩写”,这个也是需要讨论的。此外我们不需要关心渲染的问题,否则就陷入了mapping for renderer的错误。TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 这个问题根部不属于mapping for render的范畴。这里关心的是data:标签只要符合good pratice的规定,就不会有mapping for render的问题。否则按照这个观点,OSM根本不需要设立name这一个属性,直接根据地点坐标所在位置,从name:<lang>之中智能选取渲染什么语言就好了。此外,作为地图最基本的要素,标签并不是越详细越多信息就越好,否则,既然能把民族地名放进去,为什么不顺便把旧名别名简称英文名全部一起放进去?反正渲染就交给OSM搞定就是了。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 但问题就在于,一个good practice怎么good,为什么good,good的标准是什么?如果出发点是为了render(e.g.“地名标签应准确简洁”),那似乎就属于map for renderer的范畴了。参见china_population=*TerryZhang (talk) 22:16, 14 October 2021 (UTC)
- 这个问题根部不属于mapping for render的范畴。这里关心的是data:标签只要符合good pratice的规定,就不会有mapping for render的问题。否则按照这个观点,OSM根本不需要设立name这一个属性,直接根据地点坐标所在位置,从name:<lang>之中智能选取渲染什么语言就好了。此外,作为地图最基本的要素,标签并不是越详细越多信息就越好,否则,既然能把民族地名放进去,为什么不顺便把旧名别名简称英文名全部一起放进去?反正渲染就交给OSM搞定就是了。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- “OSM现行标准却提倡对中文地名进行缩写”,这个也是需要讨论的。此外我们不需要关心渲染的问题,否则就陷入了mapping for renderer的错误。TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 地名数据准确性。中文地名有广泛的信息来源,可以多方校对确保其正确性。相反,很多少数民族地方地名没有统一标准,国家也没有建立严格验证过的地名数据库。大部分贡献者也并不熟悉这些少数民族语言,遇到这些地名的时候只能机械地从地方(例如维基百科等)复制少数民族文字,自己无法对数据的正确性作保证。在这种情况下要求地名民汉并立,增加了数据贡献的难度,以及传播错误数据的可能性。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- 地名数据完整性。此外,实践上能找到少数民族文字地名的,大多数都是一些城镇还有道路,其他要素例如村庄、山峰、事业单位等等都大多缺失。其结果就导致少数民族地区地名标注混乱,编辑者无可适从。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- 个人意见,准确性和完整性并不是阻碍民汉双语标注的借口,不确定可以留空,但不是不标注的理由。退一步讲,天地图就有蒙古语和维吾尔语的地图可以参考译法,也完全可以邀请具有民族语言知识的贡献者参与贡献。正是因为osmchina社区以汉语为主,所以才更要推动民族语言文字的工作。TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 对于一份公共数据来说,寻求一份完美统一而且容易执行的标准是无可厚非的事情。采用汉语作为标签,可以保证目前OSM大部分数据都是符合标准,既易于纠错也方便校正。如果采用民汉双语标注作为标准,有可能导致每个地名都自成体系,OSM里面几乎所有数据都要重新修改,而且无法区分到底一个名称到底是已经完善,还是因为不确定留空,还是完全不需要作这样的标注——简单概括,这种就是无法验证数据是否符合标准,把所有数据的正确性置于一个模糊的地带。从数据质量上来说,不确定的、错误的数据还不如没有。更何况,name:<Lang>也是OSM数据的一部分,query OSM任意一个feature,都能得到这个信息。少数民族地名都可以存储在这里面,并不是因为没有显示在底图上就“丢失”了。最后,中国又不是只有蒙古语和维吾尔语两种少数民族语言,而且如果真的按照你所理解的on the ground原则,这些数据也不应该使用。 CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 个人意见,准确性和完整性并不是阻碍民汉双语标注的借口,不确定可以留空,但不是不标注的理由。退一步讲,天地图就有蒙古语和维吾尔语的地图可以参考译法,也完全可以邀请具有民族语言知识的贡献者参与贡献。正是因为osmchina社区以汉语为主,所以才更要推动民族语言文字的工作。TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 多民族语言地名的显示更像是OSM上一个技术问题。合理的解决方案可以是语言切换而不是混合显示。例如,天地图中,用户可以切换到蒙古语(蒙古语是竖排的)以及维吾尔语版本的地图。此外,国家也出版过一系列少数民族语言版本的地图册。相反,民汉并列的出版物则相对罕见。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- 编辑地图时,在name:<Lang>中严谨地提供多语言数据,在wikidata中建立相应的条目,是传承少数民族语言文字地名、充实开放数据更有效的做法。第三方开发者可以利用这种数据制作各种语言的地图。这比起在OSM的name tag上面混合一堆语言更有意义。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- 物理世界里难道不就是混合显示的吗?比如路牌,店铺名称,等等等等 TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- 地图跟物理世界本来就是不一样的。地图是从真实世界经过选取、抽象、简化、校对等一系列整理加工过程的产物。CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- 物理世界里难道不就是混合显示的吗?比如路牌,店铺名称,等等等等 TerryZhang (talk) 20:29, 12 October 2021 (UTC)
- Multilingual_names#China中的关于少数民族地区地名的形式曾经被修改过,从用<Chinese>被修改成“<Chinese>/<Local language>”的形式。此项修改未经广泛讨论,不应被认为是标准。--—Preceding unsigned comment added by CENTRALHUB (talk • contribs)
- 这是一个地图制作上的问题,应该通过更加深入的讨论,协调出一个解决方案。在两种方案都有合理性的前提下,用“公投”的方式肯定一个方案而否定另一方案,似乎有欠稳妥。--CENTRALHUB (talk) 01:09, 26 August 2021 (UTC)
- 之前部分人认为保留多语言是为了方便少数族裔阅读和使用地图,因为osm-carto对文字显示和图层是高度绑定的。但tracestrack开创了通过改换语言覆盖层而显示语言的方案,因此实际显示的name可以是自动化根据namezh和namexx拼接的,也可以直接指定按照某种语言显示。在这个基础上,保留双语言的必要性减少了一些。--快乐的老鼠宝宝 (talk) 06:34, 12 October 2021 (UTC)
- “保留多语言是为了方便少数族裔阅读和使用地图”有待商榷,但实际上我认为多语言的必要性并不是因为这个而是因为on-the-ground原则。此外tracetrack不是官方的OSM地图,也无法做到不同民族自治地方同时显示不同对应的民族文字。 TerryZhang (talk) 14:06, 12 October 2021 (UTC)
- 我再次表达这种对on the ground规则的“理解”的不赞同。从实际应用的角度来看,我并不觉得“做到不同民族自治地方同时显示不同对应的民族文字”有太大意义。从我考虑角度的感受来说,一般的地图用户只会关心三种语言:他的母语,英语(如果他会),以及地理要素所在地的本地语言。用户可以直接理解母语,但因为技术原因,地图上不是世界上所有地名都翻译成他的母语,因此英语这时成为了重要补充,而且英语可以提示他怎么发音。地理要素所在地的本地语言可以让这个用户根据地图在现实世界中通过路牌的比照找到目标的位置。假设一个用户母语是蒙古语,他在浏览地图时,他切换主要语言为蒙古语。在理想的情况下:1)在内蒙古地区,所有地名都有蒙古语翻译,用户都能理解。2)多语言地区,例如库尔勒,蒙古语和维吾尔语并用。但对于这个用户来说,他只需要看蒙古语即可,维吾尔语对他而言并没有意义。3)其他地方,绝大部分地名实地都有汉语标注,所以在蒙古语缺失的情况下,他通过汉语也能够在现实世界中定位(无论他是否懂汉语)。至于其他少数民族语言该用户并不关心(因为他也不懂)。所以为什么非要在不同的民族地方显示不同的少数民族文字呢?还是那句话,地图的表达不是一个语言文字的展销会,应该在符合国家地区特点与实用性中取得一个平衡点。
- 此外,无论用户浏览的是官方的OSM地图,还是其他第三方基于OSM数据制作的地图,他们都是OSM的用户。而且现在通过第三方平台间接“浏览”OSM地图的用户数量也非常多,如果这些平台通过技术手段解决多语言显示的问题,就是好事。 CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
- “保留多语言是为了方便少数族裔阅读和使用地图”有待商榷,但实际上我认为多语言的必要性并不是因为这个而是因为on-the-ground原则。此外tracetrack不是官方的OSM地图,也无法做到不同民族自治地方同时显示不同对应的民族文字。 TerryZhang (talk) 14:06, 12 October 2021 (UTC)
- 再补充一些个人看法
虽然作为一个地图网站,OSM难摆脱政治问题的困扰,但我觉得OpenStreetMap不是一个彰显某种政治主义的平台。在作出改变的时候,我更倾向从软件产品的角度上考虑问题。我觉得OSM的用户也许有这三类,且至少看来使用汉语标签基本上都能满足他们的要求。
- 对于普通用户,这类用户主要就是浏览OSM地图。对于浏览中国区地图的中国的用户,汉语大家都能理解。相反认识汉语+多门少数民族语言的用户少之又少,而且多个语言冗长的标签明显会影响用户的正常使用。
- "少之又少",这便是问题了。因为汉语使用者多而少语使用者少,所以后者在技术规范上的讨论就声量小。虽然从用户量决定产品的角度这是公平的,但是后者需求本身就很难在汉语用户主体的社区中表现出它的需求。当然,我承认,我们无法让所有人满意。投票也好,其他方式也好,只要是达成社区共识,就一定有一部分人的意见要被牺牲掉以达成群体正确。但在是否保留少数语言上,因为汉语用户占绝大多数,那么最终结果其实已经不言而喻的指向了去少语的结果。如果按声量大小用户多少,即使在边区那些省,少数民族也是少的,为什么我国要到处保留双语呢?为了极少数人而增加社会成本?那说明还是有需要的。--快乐的老鼠宝宝 (talk) 13:25, 25 November 2021 (UTC)
- 对于编辑者,之前阐述过,他们不是语言专家,他们需要的简单容易实施的标准,以及确保数据都是可校验的。因为汉语是国家通用语言,绝大部分地名都有汉语的数据。因此,使用汉语标签就是一种平易近人,无论对编辑新人以及老人都友好的标准,他们能够独立核实name标签的正确性,也不容易在编辑数据时发生错误。使用汉语的贡献者与精通少数民族语言的贡献者也可以各司其职,各自更新自己熟悉的部分。
- 对这条反方建议表示理解。事实上Thregren的这条编辑便体现了CENTRALHUB的这点意见,大部分编辑者是不懂少语的,错误和异常确实不会处理。参见:移除疑似有误的四川彝语名称,并在note注明质疑内容 --快乐的老鼠宝宝 (talk) 05:43, 26 November 2021 (UTC)
- 对于数据开发者,他们会利用OSM的数据进行二次制图或者空间分析,所以数据的准确性和完善性是他们最关心的,而且他们也会关心数据的向前兼容性。使用双语标签会在短期内造成很多混乱,尤其是那些只需要汉语名称的用户。
从议事的流程来看,我之所以反对把这种问题用公投的方式解决,因为这是一个有前置条件的技术性问题:
- 如果实施双语标签,是不是至少制定一个实施草案?不要简单地机械地套用On the ground 原则解决所有问题。细节上有很多值得商榷的地方。什么地方的的地名需要有多语言标签?哪些语言需要被列入多语言标签的范畴?是不是需要从一些简单的要素开始(例如城市城镇)?多个语言的情况按什么顺序?
- 少数民族语言地名数据量的积累有多少?至少目前看起来不多,整体完善度只达到了城镇一级,也不普及,而且相当一部分是未经验证的。正如TerryZhang所说,可以邀请有民族语言知识的贡献者参与实地考察,在少数民族地区核实地名的正确拼写,把数据的名称记录到name:<lang>之中。
- 目前数据质量怎么提升?如果第三方开发者只需要中文的情况怎么办?中国范围内name:zh属性的完善度如何?
- 是否考虑未来的技术进步?实际上,Mapbox的矢量地图技术已经逐渐普及,基于Vector Tile的OpenStreetMap地图会越来越普遍,用户可以自由选择他们所关心的单个或多个语言。
- 矢量技术,第三方渲染,他们当然会提供多样性。但是,这不意味着官方渲染就会被替代,位图渲染依然长期有其应用场景。我们争的,是官方地图渲染的唯一性和指导性。它由基金会负责和主导,且是唯一挂在官网的渲染,本身就说明这是一种“正统”,这也是尽管tracestrack能自定义渲染,也不能在精神意义上代替官方渲染的“OSM正统”,这也是我仅仅说“多语言标注的必要性减少了一些”的原因。--快乐的老鼠宝宝 (talk) 05:40, 26 November 2021 (UTC)
我自己不是语言专家,看不懂任何一门少数民族语言。但我自己也有过一些经历,给内蒙古还有新疆部分地区加入城镇农村居民点以及山川河流等地名数据,我也尝试过给这些地名加入少数民族语言的数据(主要是传统蒙古语还有维吾尔语)。在这个过程中,我觉得“是否要双语标签”仅仅是少数民族语言地名问题中最肤浅的一层。相对于OpenMap而言,OpenStreetMap更重要的意义是OpenData,引用about page 的原话:OpenStreetMap provides map data for thousands of web sites, mobile apps, and hardware devices。因此我觉得数据的提升才是更值得投入大家时间去做的。这个过程中,我遇到的,第一是地名来源问题,欠缺经过严谨认真整理过的数据来源。民政部有一个公开的地名数据库,里面的数据很有用但质量参差不齐,部分错误明显。有时,即使是政府的官方网站关于地名的表述,也有可能存在错误。而且我也见过之前一个外国的贡献者,在部分维吾尔语地名中根据自己的“理解”进行翻译,结果跟实地的标注并不一样。所以我在上文一直强调数据的准确性——跟汉语地名相比,要确认地名的正确性需要花更多的功夫。所以,如果有一个第三方的地名数据库去解决这个问题,可能这个问题会好很多。第二是蒙、维、藏、哈萨克等语言的罗马化方案,这个涉及到地名的英文写法。目前国内只有一个非常简陋而且古老的方案,形同虚设。我相信这个也是OSM社区可以考虑共同出力去克服的另一个难题。 CENTRALHUB (talk) 06:05, 14 October 2021 (UTC)
折衷意见
2022.09.15 OSMChina telegram群组的讨论产生了折衷方案如下:
- 民族地方的区、地市州、县区市旗,name=*字段应保持name=<Chinese name>/<Ethnic name>的形式,参见Multilingual_names#China。
- multilingual#China 里面可没这么说,只是说the format is still in discussion,意思是大家目前先不要太纠结到底这样一定是对或者错(但并不代表永远搁置争议)--快乐的老鼠宝宝 (talk) 14:05, 18 April 2023 (UTC)
因为往往编辑者没有相关的语言知识,故而民族语言的标注很难验证其准确性。这是少数民族语言标注的困难之一。然而这一折衷方案可以暂时避免这一困难,因为这些名称往往都有准确官方译法,而且这些行政名称on the ground也确实是使用双语标注的(参见政府机关牌匾)。至于其他少数民族地名,待通晓少数民族语言的osm绘图者加入后再议。这一提议可否投票?TerryZhang (talk) 09:02, 15 September 2022 (UTC)
- 根据本人对"on the ground"的理解,实在推不出作图时“参考政府牌匾”的结论。这条建议的前提是“Sometimes there's conflicting information”,本人不认为汉语和少数民族语言在这种场合是一种conflict。这条建议更没提出实地标志上有什么,OSM的地图就要有什么。
- OSM项目名字虽说是"Map",但项目的宗旨是“provides map data for thousands of websites, mobile apps, and hardware devices”,强调提供数据才是这个项目最核心的价值。虽然无法具体衡量使用中国区OSM数据的用户有多少,但用户的多寡,不影响我们在这种破坏向前兼容(breaking change)问题上作更加谨慎的考虑。跟其他数据细节不同,name是广为使用的属性。很多公开的OSM dateset(例如geofabrik的shape文件)实际上只提供地理要素的name字段。随意变更数据的定义直接会影响大量下游用户的数据工作流程,给他们带来不变,等于强迫所有数据用户都要接受“<Chinese name>/<Ethnic name>”这种新规范。如果哪天我们认为目前name这个字段的定义不能满足部分用户“汉字+少数民族文字”显示的需求,那完全可以用其他方法去弥补。更何况目前OSM中国县一级以上的行政数据,虽不能说完美,但至少是有一个明确的数据标准且基本完善的数据,可用度极高,既能满足OSM Carto底图的渲染需求,清晰地呈现县一级以上的行政区划概要,也能满足第三方数据使用者的需求。因此本人非常质疑这种花时间去把一个简单的标准转换成复杂的标准,把可用的数据变成难用的数据的做法的意义。至于对地图渲染造成的负面影响,之前本人的评论已经提及,这里不在叙述。
- 跟其他国家相比高度完善的数据相比,目前中国区的OSM地图存在许多问题:部分地区数据缺失严重、大量低质量的乱涂乱画式的作图、混乱的中英夹杂甚至只有英文的地名、无法核对的要素等等。这种现状,为中国区贡献者带来了许多关于如何改进、提升地图数据的思考与议题。我对“OSM China telegram群组”这个组织缺乏了解,但在这种“地名语言”的议题以外,明显有更多更有意义的事情值得这个群组去主持,一起努力提升OSM中国区数据的质量。 CENTRALHUB (talk) 00:48, 20 September 2022 (UTC)
- 至少这种大的行政区名字是确实有靠谱的政府公开可查,可以试试,此外合理的有可靠来源的多语言名称也应该是好的数据质量的一部分(即使只站在data import的程度)。 --快乐的老鼠宝宝 (talk) 14:03, 18 April 2023 (UTC)
基于人口普查数据的标注方案(2023/07/29)
语言 | 标注示例 | 应用地区 |
---|---|---|
蒙古语 | 阿拉善盟 ᠠᠯᠠᠱᠠ ᠠᠶᠢᠮᠠᠭ | 内蒙古自治区; 新疆维吾尔自治区: 博尔塔拉蒙古自治州温泉县 |
朝鲜语 | 珲春市/훈춘시 | 吉林省:延边朝鲜族自治州、白山市长白朝鲜族自治县 |
藏语 | 理塘县 ལི་ཐང་ | 四川省:阿坝州、甘孜州、凉山州木里藏族自治县; 云南省:迪庆藏族自治州; 西藏自治区; 甘肃省:甘南藏族自治州; 青海省:除西宁市、海东市 |
彝语 | 冕宁县 ꍿꆈꑤ | 四川省:凉山彝族自治州(除木里县) |
傣仂语 | 勐海县 ᦣᦻ ᦶᦉᧃᧈ | 云南省:西双版纳傣族自治州 |
傣那语 | 芒市 ᥑᥩᥢᥴ | 云南省:德宏傣族景颇族自治州 |
维吾尔语 | 白碱滩区 جەرەنبۇلاق | 新疆维吾尔自治区: 乌鲁木齐市、克拉玛依市、吐鲁番市、哈密市、 昌吉回族自治州(除木垒县)、博尔塔拉蒙古自治州(除温泉县)、巴音郭楞蒙古自治州、 克孜勒苏柯尔克孜自治州(除乌恰县)、伊犁哈萨克自治州(仅伊宁市、伊宁县、察布查尔县、霍城县)、 阿克苏地区、喀什地区、和田地区 |
哈萨克语 | 木垒县 موري | 新疆维吾尔自治区: 昌吉回族自治州木垒哈萨克自治县、伊犁哈萨克自治州(除伊宁市、伊宁县、察布查尔县、霍城县)、 塔城地区、阿勒泰地区 |
柯尔克孜语 | 乌恰县 ۇلۇۇچات | 新疆维吾尔自治区: 克孜勒苏柯尔克孜自治州乌恰县 |
广西壮族自治区、新疆生产建设兵团所辖县级市不使用双语标注。 --Rukkhadevata (talk) 06:24, 29 July 2023 (UTC)
正式公投
待后续择日通知规则后再议,先勿在此处留言